0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

听音辩貌?MIT最新研究!准确率惊人

MqC7_CAAI_1981 来源:YXQ 2019-05-26 10:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

只听声音,就能知道一个人长什么样?

是的。

大名鼎鼎的麻省理工CSAIL(人工智能实验室),最近就发布了这样一个令人惊讶的研究。只需要听6秒的声音片段,AI就能推断出说话者的容貌。

详细解释之前,咱们一起试试先。

听听下面这段录音,一共有六段。你能想象出来,说话的人长什么样么?

怎么样?你行么?

MIT研究人员,设计和训练的神经网络Speech2Face,就能通过短短的语音片段,推测出说话者的年龄、性别、种族等等多重属性,然后重建说话人的面部。

下面就是AI听声识脸,给出的结果:

左边一列是真实的照片,右边一列是神经网络根据声音推断出来的长相。

讲真,这个效果让我们佩服。

这篇论文也入围了今年的学术顶级会议CVPR 2019。

当然这个研究也会引发一些隐私方面的担忧。不过研究团队在论文中特别声明,这个神经网络不追求完全精确还原单一个体的脸部图像。

不同的语言也有影响。论文中举了一个案例,同一男子分别说中文和英文,AI却分别还原出了不同的面孔样貌。当然,这也跟口音、发声习惯等相关。

另外,研究团队也表示,目前这套系统对还原白人和东亚人的面孔效果更好。可能由于印度和黑人的数据较少,还原效果还有待进一步提高。

原理

从声音推断一个人的长相不是一种玄学,平时我们在打电话时会根据对方的声音脑补出相貌特征。

这是因为,年龄、性别、嘴巴形状、面部骨骼结构,所有这些都会影响人发出的声音。此外,语言、口音、速度通常会体现出一个的民族、地域、文化特征。

AI正是根据语音和相貌的关联性做出推测。

为此,研究人员提取了几百万个YouTube视频,通过训练,让深度神经网络学习声音和面部的相关性,找到说话的人一些基本特征,比如年龄、性别、种族等,并还原出相貌。

而且在这个过程中,不需要人类标记视频,由模型自我监督学习。这就是文章中所说的Speech2Face模型。

将电话另一端通过卡通人物的方式显示在你的手机上,可能是Speech2Face未来的一种实际应用。

模型结构

Speech2Face模型是如何还原人脸的,请看下图:

给这个网络输入一个复杂的声谱图,它将会输出4096-D面部特征,然后使用预训练的面部解码器将其还原成面部的标准图像。

训练模块在图中用橙色部分标记。在训练过程中,Speech2Face模型不会直接用人脸图像与原始图像进行对比,而是与原始图像的4096-D面部特征对比,省略了恢复面部图像的步骤。

在训练完成后,模型在推理过程中才会使用面部解码器恢复人脸图像。

训练过程使用的是AVSpeech数据集,它包含几百万个YouTube视频,超过10万个人物的语音-面部数据。

在具体细节上,研究使用的中每个视频片段开头最多6秒钟的音频,并从中裁剪出人脸面部趋于,调整到224×224像素。

从原始图像提取特征重建的人脸,以及从声音推测的人脸

之前,也有人研究过声音推测面部特征,但都是从人的声音预测一些属性,然后从数据库中获取最适合预测属性的图像,或者使用这些属性来生成图像。

然而,这种方法存在局限性,需要有标签来监督学习,系统的鲁棒性也较差。

由于人脸图像中面部表情、头部姿态、遮挡和光照条件的巨大变化,想要获得稳定的输出结果,Speech2Face人脸模型的设计和训练变得非常重要。

一般从输入语音回归到图像的简单方法不起作用,模型必须学会剔除数据中许多不相关的变化因素,并隐含地提取人脸有意义的内部表示。

为了解决这些困难,模型不是直接得到人脸图像,而是回归到人脸的低维中间表示。更具体地说,是利用人脸识别模型VGG-Face,并从倒数第二层的网络提取一个4096-D面部特征。

模型的pipeline由两个主要部分组成:

1、语音编码器

语音编码器模块是一个CNN,将输入的语音声谱图转换成伪人脸特征,并预测面部的低维特征,随后将其输入人脸解码器以重建人脸图像。

2、面部解码器

面部解码器的输入为低维面部特征,并以标准形式(正面和中性表情)产生面部图像。

在训练过程中,人脸解码器是固定的,只训练预测人脸特征的语音编码器。语音编码器是作者自己设计和训练的模型,而面部解码器使用的是前人提出的模型。

将实验结果更进一步,Speech2Face还能用于人脸检索。把基于语音的人脸预测结果与数据库中的人脸进行比较,系统将给出5个最符合的人脸照片。

不足之处

若根据语言来预测种族,那么一个人说不同的语言会导致不同的预测结果吗?

研究人员让一个亚洲男性分别说英语和汉语,结果分别得到了2张不同的面孔。

模型有时候也能正确预测结果,比如让一个亚洲小女孩说英文,虽然恢复出的图像和本人有很大差距,但仍可以看出黄种人的面部特征。

研究人员表示,这个小女孩并没有明显的口音特征,所以他们的模型还要进一步检查来确定对语言的依赖程度。

在其他一些情况下,模型也会“翻车”。比如:变声期之前的儿童,会导致模型误判性别发生错误;口音与种族特征不匹配;将老人识别为年轻人,或者是年轻人识别为老人。

作者团队

这个研究的作者,大部分来自MIT CSAIL。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • MIT
    MIT
    +关注

    关注

    3

    文章

    254

    浏览量

    24921
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123907

原文标题:MIT脑洞研究!只听6秒语音,就知道你长什么样,效果好得不敢信

文章出处:【微信号:CAAI-1981,微信公众号:中国人工智能学会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    构建CNN网络模型并优化的一般化建议

    通过实践,本文总结了构建CNN网络模型并优化的一般化建议,这些建议将会在构建高准确率轻量级CNN神经网络模型方面提供帮助。 1)避免单层神经网络:我们清楚神经网络本身是需要不断抽象出更高级别的纹理
    发表于 10-28 08:02

    除了准确率,电能质量在线监测装置在谐波源识别方面还有哪些重要指标?

    除了识别准确率,电能质量在线监测装置在谐波源识别方面的核心价值还依赖于 识别效率、定位精度、抗干扰能力、场景适配性 等关键指标,这些指标直接决定装置能否在复杂现场环境中 “快速找对、精准定位、稳定
    的头像 发表于 10-22 16:22 788次阅读

    电能质量在线监测装置识别谐波源的准确率有多高?

    电能质量在线监测装置识别谐波源的准确率受电网结构、监测方案、设备性能等多重因素影响,呈现显著的 场景化差异 。根据行业研究与工程实践,其准确率通常在 **65%~95%** 之间波动,具体可分为以下
    的头像 发表于 10-22 16:18 681次阅读

    精准匹配哈尔滨零碳标准!安科瑞EMS3.0实现碳排放数据准确率≥98%

    数据100%在线采集(参照《黑龙江省零碳园区建设指南》2025版)。 2. 地域化挑战 严寒气候限制:冬季光伏日均有效发电时长≤3小时,弃光高达40%。 重工业负荷特性:装备制造/食品加工园区冲击性负荷(如冷库压缩机)导致峰谷差达1:4,需量电费占比超35%。 供热碳
    的头像 发表于 08-18 16:39 436次阅读
    精准匹配哈尔滨零碳标准!安科瑞EMS3.0实现碳排放数据<b class='flag-5'>准确率</b>≥98%

    Text2SQL准确率暴涨22.6%!3大维度全拆

    摘要 技术背景:Text2SQL 是将自然语言查询转为 SQL 的任务,经历了基于规则、神经网络、预训练语言模型、大语言模型四个阶段。当前面临提示优化、模型训练、推理时增强三大难题,研究
    的头像 发表于 08-14 11:17 542次阅读
    Text2SQL<b class='flag-5'>准确率</b>暴涨22.6%!3大维度全拆

    海思SD3403边缘计算AI数据训练概述

    模型,将模型转化为嵌入式AI模型,模型升级AI摄像机,进行AI识别应用。 AI训练模型是不断迭代优化过程,譬如,100个数据样本模型的识别准确率和10万个数据样本的识别准确率,不一样,AI模型理论上是客户采集训练样本越多,准确率
    发表于 04-28 11:11

    设备故障预警准确率提升!AI预测模型如何做到?

    随着全球制造业的蓬勃发展,设备稳定运行对于企业的生产效率和经济效益至关重要。然而,传统的设备维护模式正面临前所未有的挑战,每年因设备突发故障导致的生产损失达1.2万亿美元。设备预测性维护应运而生,成为解决这一难题的关键所在。
    的头像 发表于 03-24 11:29 1793次阅读
    设备故障预警<b class='flag-5'>准确率</b>提升!AI预测模型如何做到?

    浪潮信息:元脑EPAI已接入DeepSeek,大幅提升DeepSeek企业应用准确率

    结合,深度开发模型潜力,快速实现本地化部署DeepSeek,构建准确率高、安全稳定的专属智能应用。实测数据显示,DeepSeek在元脑企智EPAI上开发的企业应用回答准确率达到95%。   企业落地
    的头像 发表于 02-23 07:32 885次阅读
    浪潮信息:元脑EPAI已接入DeepSeek,大幅提升DeepSeek企业应用<b class='flag-5'>准确率</b>

    机房运维新升级:动环监控系统提升预警准确率 #plc #物联网

    物联网
    juying
    发布于 :2025年02月17日 16:52:29

    Meta非入侵式脑机技术:AI读取大脑信号打字准确率80%

    脑机技术主要通过AI模型与特定硬件的结合,将用户的大脑信号映射成具体的键盘字符。该技术的准确率高达约80%,能够准确判断用户在“敲击”的按键,从而实现文字输入。 值得注意的是,这项设备完全依靠外部脑机读取用户的大脑信号,无需进行植
    的头像 发表于 02-11 15:45 1028次阅读

    如何提升音频音质?比特和采样是关键!

    在挑选音响、声卡、耳机等音频设备时,我们都会特别关注其音质表现——这关乎到我们聆听音乐、观看电影等娱乐体验的质量。实际上,我们可以在音频设备中看到一些名词标注:比特、采样……这两个可是影响音
    的头像 发表于 02-05 17:26 5184次阅读
    如何提升音频音质?比特<b class='flag-5'>率</b>和采样<b class='flag-5'>率</b>是关键!

    请问AFE4400 SPO2精度和准确率如何?

    请问用TI 的AFE4400 EVM 测量SPO2 的值,有没有详细的说明其测量的准确率和精度,抗弱灌注等。谢谢! 比如如下类似: SpO2 测量范围 0~100% 分辨 1% 精度 70~100%, 2%
    发表于 01-15 07:02

    如何提高OTDR测试的准确

    折射设置 : OTDR测试时,必须准确设置光纤的折射。由于OTDR是依据测量时间,利用公式L=ct/2n来计算光纤长度的,因此设置的折射和光纤实际的折射
    的头像 发表于 12-31 09:25 1812次阅读

    三期码、药瓶外观检测,识别准确率达99%以上

    在上篇文章中,我们了解了医疗行业在外观缺陷检测时的特点与难点,并分享了阿丘科技对医疗泡罩进行外观缺陷检测时的典型场景案例,详细内容可查看《开源算法效果不佳,医疗行业泡罩外观检测怎么做》。本文作为医疗行业的另一篇内容,将围绕三期码检测、药瓶外观检测这两个典型案例展开讲述。一、三期码检测药品包装上的三期码是指与药品质量和安全密切相关的三个重要日期信息,它们分别是
    的头像 发表于 12-27 14:46 2484次阅读
    三期码、药瓶外观检测,识别<b class='flag-5'>准确率</b>达99%以上

    如何提升人脸门禁一体机的识别准确率

    人脸门禁一体机作为现代安全管理的重要设备,广泛应用于企业、学校、社区等多个场所。其高效便捷的特性让人们可以快速通过门禁,然而,识别准确率的高低直接影响到使用体验与安全性。为了提高人脸门禁一体机的识别
    的头像 发表于 12-10 15:05 1461次阅读
    如何提升人脸门禁一体机的识别<b class='flag-5'>准确率</b>?