0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

听音辩貌?MIT最新研究!准确率惊人

MqC7_CAAI_1981 来源:YXQ 2019-05-26 10:53 次阅读

只听声音,就能知道一个人长什么样?

是的。

大名鼎鼎的麻省理工CSAIL(人工智能实验室),最近就发布了这样一个令人惊讶的研究。只需要听6秒的声音片段,AI就能推断出说话者的容貌。

详细解释之前,咱们一起试试先。

听听下面这段录音,一共有六段。你能想象出来,说话的人长什么样么?

怎么样?你行么?

MIT研究人员,设计和训练的神经网络Speech2Face,就能通过短短的语音片段,推测出说话者的年龄、性别、种族等等多重属性,然后重建说话人的面部。

下面就是AI听声识脸,给出的结果:

左边一列是真实的照片,右边一列是神经网络根据声音推断出来的长相。

讲真,这个效果让我们佩服。

这篇论文也入围了今年的学术顶级会议CVPR 2019。

当然这个研究也会引发一些隐私方面的担忧。不过研究团队在论文中特别声明,这个神经网络不追求完全精确还原单一个体的脸部图像。

不同的语言也有影响。论文中举了一个案例,同一男子分别说中文和英文,AI却分别还原出了不同的面孔样貌。当然,这也跟口音、发声习惯等相关。

另外,研究团队也表示,目前这套系统对还原白人和东亚人的面孔效果更好。可能由于印度和黑人的数据较少,还原效果还有待进一步提高。

原理

从声音推断一个人的长相不是一种玄学,平时我们在打电话时会根据对方的声音脑补出相貌特征。

这是因为,年龄、性别、嘴巴形状、面部骨骼结构,所有这些都会影响人发出的声音。此外,语言、口音、速度通常会体现出一个的民族、地域、文化特征。

AI正是根据语音和相貌的关联性做出推测。

为此,研究人员提取了几百万个YouTube视频,通过训练,让深度神经网络学习声音和面部的相关性,找到说话的人一些基本特征,比如年龄、性别、种族等,并还原出相貌。

而且在这个过程中,不需要人类标记视频,由模型自我监督学习。这就是文章中所说的Speech2Face模型。

将电话另一端通过卡通人物的方式显示在你的手机上,可能是Speech2Face未来的一种实际应用。

模型结构

Speech2Face模型是如何还原人脸的,请看下图:

给这个网络输入一个复杂的声谱图,它将会输出4096-D面部特征,然后使用预训练的面部解码器将其还原成面部的标准图像。

训练模块在图中用橙色部分标记。在训练过程中,Speech2Face模型不会直接用人脸图像与原始图像进行对比,而是与原始图像的4096-D面部特征对比,省略了恢复面部图像的步骤。

在训练完成后,模型在推理过程中才会使用面部解码器恢复人脸图像。

训练过程使用的是AVSpeech数据集,它包含几百万个YouTube视频,超过10万个人物的语音-面部数据。

在具体细节上,研究使用的中每个视频片段开头最多6秒钟的音频,并从中裁剪出人脸面部趋于,调整到224×224像素。

从原始图像提取特征重建的人脸,以及从声音推测的人脸

之前,也有人研究过声音推测面部特征,但都是从人的声音预测一些属性,然后从数据库中获取最适合预测属性的图像,或者使用这些属性来生成图像。

然而,这种方法存在局限性,需要有标签来监督学习,系统的鲁棒性也较差。

由于人脸图像中面部表情、头部姿态、遮挡和光照条件的巨大变化,想要获得稳定的输出结果,Speech2Face人脸模型的设计和训练变得非常重要。

一般从输入语音回归到图像的简单方法不起作用,模型必须学会剔除数据中许多不相关的变化因素,并隐含地提取人脸有意义的内部表示。

为了解决这些困难,模型不是直接得到人脸图像,而是回归到人脸的低维中间表示。更具体地说,是利用人脸识别模型VGG-Face,并从倒数第二层的网络提取一个4096-D面部特征。

模型的pipeline由两个主要部分组成:

1、语音编码器

语音编码器模块是一个CNN,将输入的语音声谱图转换成伪人脸特征,并预测面部的低维特征,随后将其输入人脸解码器以重建人脸图像。

2、面部解码器

面部解码器的输入为低维面部特征,并以标准形式(正面和中性表情)产生面部图像。

在训练过程中,人脸解码器是固定的,只训练预测人脸特征的语音编码器。语音编码器是作者自己设计和训练的模型,而面部解码器使用的是前人提出的模型。

将实验结果更进一步,Speech2Face还能用于人脸检索。把基于语音的人脸预测结果与数据库中的人脸进行比较,系统将给出5个最符合的人脸照片。

不足之处

若根据语言来预测种族,那么一个人说不同的语言会导致不同的预测结果吗?

研究人员让一个亚洲男性分别说英语和汉语,结果分别得到了2张不同的面孔。

模型有时候也能正确预测结果,比如让一个亚洲小女孩说英文,虽然恢复出的图像和本人有很大差距,但仍可以看出黄种人的面部特征。

研究人员表示,这个小女孩并没有明显的口音特征,所以他们的模型还要进一步检查来确定对语言的依赖程度。

在其他一些情况下,模型也会“翻车”。比如:变声期之前的儿童,会导致模型误判性别发生错误;口音与种族特征不匹配;将老人识别为年轻人,或者是年轻人识别为老人。

作者团队

这个研究的作者,大部分来自MIT CSAIL。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • MIT
    MIT
    +关注

    关注

    3

    文章

    253

    浏览量

    23247
  • 深度学习
    +关注

    关注

    73

    文章

    5235

    浏览量

    119893

原文标题:MIT脑洞研究!只听6秒语音,就知道你长什么样,效果好得不敢信

文章出处:【微信号:CAAI-1981,微信公众号:中国人工智能学会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    自动雨量监测系统(准确地预测降雨情况,提高预报的准确率

    对工程的影响,及时采取相应的措施,保障工程的安全运行。在气象预报方面,它可以帮助气象工作者更准确地预测降雨情况,提高预报的准确率
    的头像 发表于 03-28 14:59 118次阅读

    在全志V853平台上成功部署深度学习步态识别算法

    模型针对相同条件下的识别准确率数据。其中NM表示正常行走状态、BG表示背包行走,CL表示穿外套行走。 除了针对步态识别准确率进行了测试,本研究也对步态识别的实时性进行了测试。对于单人步态识别,前处理
    发表于 03-04 10:15

    如何准确计算低电平分辨编码器TLE9243QK_BASE_BOARD的速度?

    嗨,我正在使用低电平分辨编码器来控制 PMSM,我有一个问题,如何准确计算低电平分辨编码器 TLE9243QK_BASE_BOARD 的速度?
    发表于 01-22 07:08

    请问要达到0.05%的测量精度,需要多少位分辨准确度的ADC?

    请问要达到0.05%的测量精度,需要多少位分辨准确度的ADC。 能不能推荐几款,最好是能有2路同时输入的高精度ADC.
    发表于 12-18 06:54

    智慧矿山:AI算法为何能提高未戴安全带识别准确率

    未穿戴安全带识别AI算法是智慧矿山的重要应用之一,可以提高矿山工作人员的安全意识和降低事故发生的概率。为了提高识别准确率研究人员可以优化数据集、改进网络结构、混合模型融合、应用强化学习等方式来提高
    的头像 发表于 10-22 22:01 236次阅读

    MIT公开课程6002讲义

    MIT公开课程6002讲义麻省理工学院
    发表于 10-19 16:58 0次下载

    基于多模态学习的虚假新闻检测研究

    目前,单流架构模型在视频分类、情感分析、图像生成等多模态领域中得以广泛应用,单流模型具有结构简单、容易实现、高准确率等优势,在虚假新闻检测领域中,是一个极具潜力的研究方向。
    的头像 发表于 09-11 16:26 1198次阅读
    基于多模态学习的虚假新闻检测<b class='flag-5'>研究</b>

    AI听键盘声就能偷你密码,准确率高达95%

    来源:量子位 你没听错,现在键盘敲字也不安全了,简直防不胜防。 编辑:感知芯视界 无了个大语!以后AI靠听键盘声就能偷你密码,准确率高达95%! 最近,来自杜伦大学等三所高校的研究人员训练了个AI
    的头像 发表于 08-21 09:21 523次阅读

    AI听键盘声就能偷你密码,准确率高达95%

    在这项研究中,研究人员用深度学习的方法提出了一个完全自动化的键盘声学侧信道攻击流程,包括按键分割、通过mel频谱图进行特征提取、使用CoAtNet模型进行分类几个大的部分。
    的头像 发表于 08-18 15:43 388次阅读
    AI听键盘声就能偷你密码,<b class='flag-5'>准确率</b>高达95%

    将ONNX模型转换为中间表示(IR)后,精度下降了怎么解决?

    将 ONNX 模型转换为 IR。 与使用 PyTorch 运行 ONNX 模型相比,Ran IR 采用 基准 C++ 工具,其性能准确率降低了 20%。 无法确定如何对图像进行预处理以获得更好的准确性。
    发表于 08-15 08:28

    MIT的射频讲义

    大家好,这里是射频学堂。 今天分享一份MIT的射频讲义:Receivers, Antennas,and Signals,来自于MIT David H. Staelin 教授。 MIT讲义
    的头像 发表于 06-29 09:49 365次阅读
    <b class='flag-5'>MIT</b>的射频讲义

    是否可以通过SoftAP模式将数据从MIT app发送到ESP8266?

    顾名思义,是否可以通过SoftAP模式将数据从MIT app发送到ESP8266?我的想法是让用户使用 MIT 应用程序输入数据(在本例中为警报系统的日期和时间),然后该应用程序会将输入数据(日期
    发表于 06-02 08:50

    MIT最新研究让机械手只需轻轻一抓就能识别物体!

    这是MIT最新研究成果,他们在其透明“皮肤”下集成了多个高分辨率传感器,使用摄像头和LED来收集物体形状的视觉信息,沿着手指提供连续感应,一次抓取后就能识别物体,小手一握,尽在掌握!
    的头像 发表于 05-12 15:29 1038次阅读
    <b class='flag-5'>MIT</b>最新<b class='flag-5'>研究</b>让机械手只需轻轻一抓就能识别物体!

    巍泰技术存在感知人数统计毫米波雷达WTR-812开箱测评

    、测试对象:区域人数、绊线准确率、目标分辨距离及其他主要规格参数。 3、测试环境:室内开阔环境、室内出入口等。 区域人数统计测试场景图 绊线人数统计测试场景图 目标分辨距离测试场景图 4
    发表于 05-05 13:45