0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

听音辩貌?MIT最新研究!准确率惊人

MqC7_CAAI_1981 来源:YXQ 2019-05-26 10:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

只听声音,就能知道一个人长什么样?

是的。

大名鼎鼎的麻省理工CSAIL(人工智能实验室),最近就发布了这样一个令人惊讶的研究。只需要听6秒的声音片段,AI就能推断出说话者的容貌。

详细解释之前,咱们一起试试先。

听听下面这段录音,一共有六段。你能想象出来,说话的人长什么样么?

怎么样?你行么?

MIT研究人员,设计和训练的神经网络Speech2Face,就能通过短短的语音片段,推测出说话者的年龄、性别、种族等等多重属性,然后重建说话人的面部。

下面就是AI听声识脸,给出的结果:

左边一列是真实的照片,右边一列是神经网络根据声音推断出来的长相。

讲真,这个效果让我们佩服。

这篇论文也入围了今年的学术顶级会议CVPR 2019。

当然这个研究也会引发一些隐私方面的担忧。不过研究团队在论文中特别声明,这个神经网络不追求完全精确还原单一个体的脸部图像。

不同的语言也有影响。论文中举了一个案例,同一男子分别说中文和英文,AI却分别还原出了不同的面孔样貌。当然,这也跟口音、发声习惯等相关。

另外,研究团队也表示,目前这套系统对还原白人和东亚人的面孔效果更好。可能由于印度和黑人的数据较少,还原效果还有待进一步提高。

原理

从声音推断一个人的长相不是一种玄学,平时我们在打电话时会根据对方的声音脑补出相貌特征。

这是因为,年龄、性别、嘴巴形状、面部骨骼结构,所有这些都会影响人发出的声音。此外,语言、口音、速度通常会体现出一个的民族、地域、文化特征。

AI正是根据语音和相貌的关联性做出推测。

为此,研究人员提取了几百万个YouTube视频,通过训练,让深度神经网络学习声音和面部的相关性,找到说话的人一些基本特征,比如年龄、性别、种族等,并还原出相貌。

而且在这个过程中,不需要人类标记视频,由模型自我监督学习。这就是文章中所说的Speech2Face模型。

将电话另一端通过卡通人物的方式显示在你的手机上,可能是Speech2Face未来的一种实际应用。

模型结构

Speech2Face模型是如何还原人脸的,请看下图:

给这个网络输入一个复杂的声谱图,它将会输出4096-D面部特征,然后使用预训练的面部解码器将其还原成面部的标准图像。

训练模块在图中用橙色部分标记。在训练过程中,Speech2Face模型不会直接用人脸图像与原始图像进行对比,而是与原始图像的4096-D面部特征对比,省略了恢复面部图像的步骤。

在训练完成后,模型在推理过程中才会使用面部解码器恢复人脸图像。

训练过程使用的是AVSpeech数据集,它包含几百万个YouTube视频,超过10万个人物的语音-面部数据。

在具体细节上,研究使用的中每个视频片段开头最多6秒钟的音频,并从中裁剪出人脸面部趋于,调整到224×224像素。

从原始图像提取特征重建的人脸,以及从声音推测的人脸

之前,也有人研究过声音推测面部特征,但都是从人的声音预测一些属性,然后从数据库中获取最适合预测属性的图像,或者使用这些属性来生成图像。

然而,这种方法存在局限性,需要有标签来监督学习,系统的鲁棒性也较差。

由于人脸图像中面部表情、头部姿态、遮挡和光照条件的巨大变化,想要获得稳定的输出结果,Speech2Face人脸模型的设计和训练变得非常重要。

一般从输入语音回归到图像的简单方法不起作用,模型必须学会剔除数据中许多不相关的变化因素,并隐含地提取人脸有意义的内部表示。

为了解决这些困难,模型不是直接得到人脸图像,而是回归到人脸的低维中间表示。更具体地说,是利用人脸识别模型VGG-Face,并从倒数第二层的网络提取一个4096-D面部特征。

模型的pipeline由两个主要部分组成:

1、语音编码器

语音编码器模块是一个CNN,将输入的语音声谱图转换成伪人脸特征,并预测面部的低维特征,随后将其输入人脸解码器以重建人脸图像。

2、面部解码器

面部解码器的输入为低维面部特征,并以标准形式(正面和中性表情)产生面部图像。

在训练过程中,人脸解码器是固定的,只训练预测人脸特征的语音编码器。语音编码器是作者自己设计和训练的模型,而面部解码器使用的是前人提出的模型。

将实验结果更进一步,Speech2Face还能用于人脸检索。把基于语音的人脸预测结果与数据库中的人脸进行比较,系统将给出5个最符合的人脸照片。

不足之处

若根据语言来预测种族,那么一个人说不同的语言会导致不同的预测结果吗?

研究人员让一个亚洲男性分别说英语和汉语,结果分别得到了2张不同的面孔。

模型有时候也能正确预测结果,比如让一个亚洲小女孩说英文,虽然恢复出的图像和本人有很大差距,但仍可以看出黄种人的面部特征。

研究人员表示,这个小女孩并没有明显的口音特征,所以他们的模型还要进一步检查来确定对语言的依赖程度。

在其他一些情况下,模型也会“翻车”。比如:变声期之前的儿童,会导致模型误判性别发生错误;口音与种族特征不匹配;将老人识别为年轻人,或者是年轻人识别为老人。

作者团队

这个研究的作者,大部分来自MIT CSAIL。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • MIT
    MIT
    +关注

    关注

    3

    文章

    254

    浏览量

    25038
  • 深度学习
    +关注

    关注

    73

    文章

    5608

    浏览量

    124635

原文标题:MIT脑洞研究!只听6秒语音,就知道你长什么样,效果好得不敢信

文章出处:【微信号:CAAI-1981,微信公众号:中国人工智能学会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    瑞芯微(EASY EAI)RV1126B 车牌识别

    1.车牌识别检测简介EAI-LPR是一个高性能中文车牌识别框架,识别速度快。准确率高,在出入口场景下,准确率可达98%;支持多种车牌类型,包括单行蓝牌、单行黄牌、新能源车牌、教练车牌等,还可有限支持
    的头像 发表于 04-03 09:54 692次阅读
    瑞芯微(EASY EAI)RV1126B 车牌识别

    源表应用拓展:四探针法测电阻

    在半导体工业和研究领域,准确测量半导体材料的电阻对于优化器件设计和生产工艺至关重要。四探针法(Four-Point Probe)作为一种经典的电学测量方法,被广泛应用于半导体材料的电阻
    的头像 发表于 03-16 17:18 396次阅读
    源表应用拓展:四探针法测电阻<b class='flag-5'>率</b>

    软通动力助力国家融担基金打造代偿补偿审核新范式

    日均处理影像超5000份,手写识别准确率95%,印章识别准确率97%,版式迭代近乎“零影响”——这是软通动力为国家融担基金数字化平台打造的代偿补偿智能辅助审核体系交出的真实成绩。
    的头像 发表于 02-27 11:52 579次阅读

    利用Solido Design Environment准确预测SRAM晶圆良

    。本研究开发出新型良建模方法,将随机离散缺陷注入 SRAM 良预测。实践表明,基于Solido Design Environment (Solido DE) 的新型位失效预测方法与硅实测数据几乎完全吻合。
    的头像 发表于 02-02 10:20 565次阅读
    利用Solido Design Environment<b class='flag-5'>准确</b>预测SRAM晶圆良<b class='flag-5'>率</b>

    靠听诊器查故障?这套系统靠 “听声纹”,准确率 96%

    老技工的听诊器承载经验传承,但工业智能化时代,更需精准前置的科技手段。声振温协同监测系统的价值,不仅是96%的诊断准确率,更在于将故障预警从“事后”推向“事前”,实现运维模式从被动抢修到主动预防的转变。
    的头像 发表于 01-21 16:38 765次阅读
    靠听诊器查故障?这套系统靠 “听声纹”,<b class='flag-5'>准确率</b> 96%

    亚马逊云科技上线Amazon Nova多模态嵌入模型

    专为Agentic RAG与语义搜索量身打造,以行业顶尖的准确率实现跨模态检索 北京2025年10月29日 /美通社/ -- 亚马逊云科技宣布,Amazon Nova Multimodal
    的头像 发表于 10-29 17:15 372次阅读
    亚马逊云科技上线Amazon Nova多模态嵌入模型

    构建CNN网络模型并优化的一般化建议

    通过实践,本文总结了构建CNN网络模型并优化的一般化建议,这些建议将会在构建高准确率轻量级CNN神经网络模型方面提供帮助。 1)避免单层神经网络:我们清楚神经网络本身是需要不断抽象出更高级别的纹理
    发表于 10-28 08:02

    除了准确率,电能质量在线监测装置在谐波源识别方面还有哪些重要指标?

    除了识别准确率,电能质量在线监测装置在谐波源识别方面的核心价值还依赖于 识别效率、定位精度、抗干扰能力、场景适配性 等关键指标,这些指标直接决定装置能否在复杂现场环境中 “快速找对、精准定位、稳定
    的头像 发表于 10-22 16:22 1084次阅读

    电能质量在线监测装置识别谐波源的准确率有多高?

    电能质量在线监测装置识别谐波源的准确率受电网结构、监测方案、设备性能等多重因素影响,呈现显著的 场景化差异 。根据行业研究与工程实践,其准确率通常在 **65%~95%** 之间波动,具体可分为以下
    的头像 发表于 10-22 16:18 991次阅读

    精准匹配哈尔滨零碳标准!安科瑞EMS3.0实现碳排放数据准确率≥98%

    数据100%在线采集(参照《黑龙江省零碳园区建设指南》2025版)。 2. 地域化挑战 严寒气候限制:冬季光伏日均有效发电时长≤3小时,弃光高达40%。 重工业负荷特性:装备制造/食品加工园区冲击性负荷(如冷库压缩机)导致峰谷差达1:4,需量电费占比超35%。 供热碳
    的头像 发表于 08-18 16:39 587次阅读
    精准匹配哈尔滨零碳标准!安科瑞EMS3.0实现碳排放数据<b class='flag-5'>准确率</b>≥98%

    Text2SQL准确率暴涨22.6%!3大维度全拆

    摘要 技术背景:Text2SQL 是将自然语言查询转为 SQL 的任务,经历了基于规则、神经网络、预训练语言模型、大语言模型四个阶段。当前面临提示优化、模型训练、推理时增强三大难题,研究
    的头像 发表于 08-14 11:17 824次阅读
    Text2SQL<b class='flag-5'>准确率</b>暴涨22.6%!3大维度全拆

    提升识别,降低功耗,安信可雷达模组赋能智能门锁/门禁

    丝滑? 现在,很多智能门锁已经开始用上了新的“感知技术”—— 毫米波雷达 。智能门锁在国内的渗透持续上升,但实际使用中仍存在不少“隐形痛点”: 误识别与延迟开锁 人脸识别在夜间或遮挡场景下准确率下降,存在“看不到就不反应
    的头像 发表于 07-22 17:22 760次阅读
    提升识别<b class='flag-5'>率</b>,降低功耗,安信可雷达模组赋能智能门锁/门禁

    【Sipeed MaixCAM Pro开发板试用体验】+ 02 + 基础功能测试

    、基础功能测试 1.人脸表情情绪检测 通过开发板自带的应用程序实测发现识别准确率非常的高(但需在离人脸较近的地方进行识别,如果识别距离过远会导致识别结果不准确的问题)。 2.找色块功能 通过
    发表于 07-19 22:50

    海思SD3403边缘计算AI数据训练概述

    模型,将模型转化为嵌入式AI模型,模型升级AI摄像机,进行AI识别应用。 AI训练模型是不断迭代优化过程,譬如,100个数据样本模型的识别准确率和10万个数据样本的识别准确率,不一样,AI模型理论上是客户采集训练样本越多,准确率
    发表于 04-28 11:11