发烧友10周年庆典,全网超值优惠来袭!千元现金券,下单抽奖赶紧参与》》

利用语音直接画出人脸,AI再添新能力

DeepTech深科技 2019-07-17 09:54 次阅读

听声辨人,利用声纹进行解,这种技术已广泛应用,人类的声音含有该个体的一定特征,从而可以进行区分。那么仅通过声音,能否画出人像,并且尽可能地与讲话者相似呢?

近日,卡内基梅隆大学的 Yandong Wen 等人,利用生成对抗网络模型(generative adversarial networks, GANs)首次对这一问题作出研究,利用讲话者的语音生成一些匹配原说话者面部特征的人脸,并用交叉模态匹配(cross-modal matching task)评估了模型表现,可谓是语音画像领域的一大突破

模型框架

一个人的声音和骨骼结构、发声部位的形状等特征的确有关,但利用语音直接画出人脸,如何做到?

该由声音重建人脸的模型框架主要由四个卷积网络:语音嵌入模型(voice embedding network)、生成器(Generator)、判别器(Discriminator)、分类器(classifier)组成。

语音嵌入模型(voice embedding network)将输入的语音数据,梅尔倒频谱(log mel-spectrograms)转换为含有该声音特征的向量 e。该模型含有 5 层一维卷积神经网络,每一层均是经由卷积核为 3、步长为 2、padding 为 1 得到,并且都经过归一化层处理和 ReLU 单元激活,最后经过平均池化得到一个 64 维的向量。此模型是通过一个语音识别任务预先训练得到参数,并且参数在生成人脸的训练过程中保持不变。生成器(Generator)输入为语音嵌入模型产生的向量 e,输出是人脸 RGB 图像 f',由 6 层二维反卷积网络构成,激活函数采用 ReLU。

判别器(Discriminator)判断输入的图像 f(或 f')是生成器伪造的图像还是真实的人脸,如果判断为伪造图会加大损失 Ld。由 6 层激活单元为 Leaky ReLU 的二维卷积网络构成,最后经过全连接层得到人脸图像数据。

分类器(classifier)用来将人脸图像与说话者匹配,如果匹配错误会加大损失 Lc。该模型由 6 层二维卷积网络和一个全连接层组成。具体的结构如图表,其中 Conv 3/2,1 代表卷积核尺寸为 3,步长为 2,padding 填充为 1。

图 | 从声音重建人脸模型的具体结构。(来源:Yandong Wen, et al./CMU)模型通过最小化判别器与分类器的交叉熵损失 Ld 和 Lc 来训练,以期得到图像逼真且符合说话者特征的人脸。值得一提的是,此模型的测试集和训练集以及验证集相互独立,即测试时的声音是未听过的,人脸也未知。

模型表现

不特意挑选那些人脸和真实讲话者完美一致的结果,一般来讲,该模型的确能输出具有讲话者特征的人脸,即使不完全一模一样,从种族以及一些其他典型的面部特征来看,这个模型的确学习到了一些信息,输出结果和原讲话者非常像,并且语音时间越长,匹配的特征越多,两者越类似

图 | 从不同时长的正常录音生成人脸的结果图,右侧Ref为真实讲话者的不同脸部照片,从上到下的 4 位 Speaker 分别是 Danica McKellar, Cindy Williams, Damian Lewis, and Eva Green. (来源:Yandong Wen, et al./CMU)当然,性别及年龄特征也可以很好地被学习到,左侧输出结果的年龄和性别与右侧真实人脸的年龄性别保持一致。在整个测试集上,生成图和真实讲话者性别相同的概率可以达到 96.5%

图 | 从性别年龄的人脸重建,(a)是从老年声音生成的人脸;(b)是男性声音生成的人脸;(c)是女性声音生成的人脸。其中左侧为生成图,右侧为真实讲话者。(来源:Yandong Wen, et al./CMU)如果用同一个人的不同语音片段,推测产生的人脸会保持相同特征吗?模型结果告诉我们,是这样。选用同一个讲话者的 7 个不同语音片段,不特意挑选完美结果,模型所推测出的大概特征是十分一致的,这也侧面说明,模型的确可以从一个人的语音抽取出一些特征,映射成其脸部的某些特征。

图 | 利用一个人的 7 段不同语音重建人脸,左图(a)是重建的 7 张人脸图,右图(b)是对应的真实人脸在不同情况的照片(来源:Yandong Wen, et al./CMU)进一步来讲,如果从语音中学到的特征真的可以映射成面部的特征,那么生成人脸图必定和真实讲话者的脸部是对应匹配的。换句话说,声音中的特征可以被生成人脸中蕴含的特征替代,那么由声音重组人脸就变成了人脸识别问题,两张脸(生成的和真实的)匹配,那么计划可行,这个匹配率也就成了衡量模型表现的指标。在整个训练集和测试集上,该模型的匹配率分别是 96.83% 和 76.07%;将训练集和测试集按照性别分层,排除性别这一特征的助力,也就是直接比较同一性别上,生成的人脸和讲话者是否相像,匹配率在训练集和测试集上分别是 93.98%和 59.69%,这也证明了模型所学到的信息不仅仅是性别,还有其他更详细的面部特征。该模型表现不仅优于 DIMNets-G,同时,测试集表现不如训练集,说明模型还有很大提升空间。

图 | 不同模型在性别分层以及不分层的数据集上的表现。(来源:Yandong Wen, et al./CMU)

展望

该模型虽然表现尚佳,但仍有可提升的地方,比如头发和图像背景等与声音无关的特征,可以进行数据清洗将其去除,而有一些明显与发声有关的面部特征也可以加以利用,从而模型会更加精确。

总的来说,由音生貌,语音画像问题的一块空白得到了填补。

原文标题:仅听声音就画出人脸,GAN再添新能力

文章出处:【微信号:deeptechchina,微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

【5月12】不懂编程没关系,邀请您来学AI

不懂编程没关系,邀请您来学AI活动概述:本活动是现场讲座,由台湾知名AI教育专家、金门创新学院院长、台湾Android技
发表于 05-24 00:00 0次 阅读
【5月12】不懂编程没关系,邀请您来学AI

一种加速5G和AI开发的新型DSP设计架构

复杂的系统不能被集成到单一的核”他补充说。MSP允许算法工程师选择每个任务的内核数和每个处理器的大小....
的头像 丫丫119 发表于 10-14 08:45 0次 阅读
一种加速5G和AI开发的新型DSP设计架构

媒体人有了AI的加持后有什么改变

随着人工智能技术的发展与应用,各大行业都在加速转型与升级,新闻行业也不例外。
发表于 10-13 17:55 76次 阅读
媒体人有了AI的加持后有什么改变

机器学习是不是好的工具

机器学习只是作曲家众多辅助工具中的一个,可以简化很多音乐的结构和特点。
发表于 10-13 17:49 21次 阅读
机器学习是不是好的工具

人工智能工具怎样收集垃圾

人们用垃圾这个词来形容没有用途的物品,我们通过图像教会算法识别垃圾,而这些图像中物品的用途往往不明显....
发表于 10-13 17:45 12次 阅读
人工智能工具怎样收集垃圾

5G+AI对于我们的生活会有什么影响

5G将是我国数字经济重要的新引擎,对我国经济的贡献和国家的影响十分可观。
发表于 10-13 17:39 10次 阅读
5G+AI对于我们的生活会有什么影响

教育里的AI我国的发展足够了吗

图像识别、语音交互、生物识别、深度学习等核心技术的不断突破,带动了人工智能的快速发展,让其为各行各业....
发表于 10-13 17:36 77次 阅读
教育里的AI我国的发展足够了吗

AI+时代是下一波浪潮吗

AI 就是用海量的数据来做非常精确的抉择、判断或者分类。
发表于 10-13 17:36 578次 阅读
AI+时代是下一波浪潮吗

人工智能拿起笔会怎么样

人工智能一改“高冷”的形象,化身为多情善感的诗人,改变了人们对文艺创作的传统认知。
发表于 10-13 17:34 108次 阅读
人工智能拿起笔会怎么样

AI芯片想要进一步发展需要依靠什么

物联网、云计算、大数据、VR如同一朵朵小浪花,构成了汹涌澎湃、烟波浩渺的科技之海。
发表于 10-13 17:32 2次 阅读
AI芯片想要进一步发展需要依靠什么

AI持续发展的文化基因是什么

AI是一种与人类联系最密切的技术,其技术文化的特征不能脱离人文文化的引导,否则AI的技术文化就可能像....
发表于 10-13 17:31 4次 阅读
AI持续发展的文化基因是什么

AI和隐私就一定是对立的关系吗

AI发展离不开大数据,AI需要在应用潜能和隐私数据保护之间寻找更适合的平衡点。
发表于 10-13 17:27 134次 阅读
AI和隐私就一定是对立的关系吗

带屏智能音箱将与消费级AI硬件产品一起迎来全新的时代

权威市场研究机构IDC最近发布报告显示,2019年上半年带屏智能音箱整体快速发展,其中百度旗下小度带....
发表于 10-13 16:19 37次 阅读
带屏智能音箱将与消费级AI硬件产品一起迎来全新的时代

亮亮视野与中国移动共同推出了AR远程巡检解决方案

AR机房远程巡检系统是利用基于AR技术构建一线人员与后台专家全景实时互动的运维支撑平台,针对日常设备....
发表于 10-13 14:31 18次 阅读
亮亮视野与中国移动共同推出了AR远程巡检解决方案

我国的计算机视觉发展到了什么程度了?为什么开始被美国打压了

美国实体清单的大锤,终于落在了中国AI企业身上。美国商务部宣布,将8家中国企业在内的28个实体纳入出....
的头像 Wildesbeast 发表于 10-13 08:57 208次 阅读
我国的计算机视觉发展到了什么程度了?为什么开始被美国打压了

如何正确看待人工智能的应用前景

人工智能从技术角度通常可分为三个阶段,即计算智能、感知智能和认知智能。在计算智能方面,机器已绝对超过....
发表于 10-13 08:48 41次 阅读
如何正确看待人工智能的应用前景

AI智能音箱是如何工作的

AI智能音箱现在越来越多的出现在人们的日常生活,当我们想听一首歌时,只需要对音箱说出歌曲的名字,他就....
的头像 电子魔法师 发表于 10-13 03:28 188次 阅读
AI智能音箱是如何工作的

实体名单对准中国AI企业的原因是什么

中国拥有广袤的市场和海量的数据资源,在AI产业化发展方面具有天然的优势,也促进了中国AI的崛起
发表于 10-12 17:18 82次 阅读
实体名单对准中国AI企业的原因是什么

人工智能完成任务的速度可以提高吗

运行人工智能(AI)的数据中心将比使用人工编辑算法时间表的数据中心效率更高。
发表于 10-12 17:06 62次 阅读
人工智能完成任务的速度可以提高吗

海外企业缘何淡出中国安防行业视野

但随着国内安防企业的崛起,以及政策限制下海外安防企业无法有效拓展G端市场、产品定制化程度不足等弊端日....
的头像 倩倩 发表于 10-12 16:17 217次 阅读
海外企业缘何淡出中国安防行业视野

AI在医学领域的应用有什么突破

在人工智能的帮助下,医学物理师对单一患者的放疗计划时间也可从10小时缩减到15分钟,在提高计划质量的....
发表于 10-12 14:06 51次 阅读
AI在医学领域的应用有什么突破

美国运输司令部为什么采用AI技术

我们仍在努力地让这些系统能够成为原生云,久而久之,整个系统架构也就能迁移成功。
发表于 10-12 11:53 50次 阅读
美国运输司令部为什么采用AI技术

AI会成为未来国家的竞争点吗

每一个中国的科技企业,都必须为中国科技战贡献自己的力量,责无旁贷地需要发挥主体作用,在生产经营中向更....
发表于 10-12 11:34 239次 阅读
AI会成为未来国家的竞争点吗

人工智能诞生的目的是什么

现在的人工智能技术已经覆盖了我们生活中的每个角落,不管是居住的园区还是个人设备,都有着人工智能的身影....
发表于 10-12 11:21 80次 阅读
人工智能诞生的目的是什么

巨头AI音乐大战谁能拔得头筹

除了算法和数据标注上的一些技术手段,我们也在考虑直接对音乐的音频做相应的分析,目的也是能够让AI能对....
发表于 10-12 11:16 49次 阅读
巨头AI音乐大战谁能拔得头筹

融合人类与AI的创造力带来什么积极意义

这些网络被称为AttoNets,用于图像分类和实体划分,但也可以作为视频动作识别、视频姿态估计、图像....
发表于 10-12 11:02 23次 阅读
融合人类与AI的创造力带来什么积极意义

企业怎样利用好AI

随着各类AI应用的逐步落地,人工智能在加速企业数字化进程、改善产业链结构、提高信息利用效率等方面潜移....
发表于 10-12 10:15 42次 阅读
企业怎样利用好AI

怎样追寻AI+教育这个风口

AI+教育看上去具有广阔的发展前景,但要产生颠覆性的效果,仍然需要较长的时间。
发表于 10-12 09:51 89次 阅读
怎样追寻AI+教育这个风口

人工智能带来的是好处多还是危害多

随着计算能力的提高,网络性能的提升,人工智能AI的全速发展已经具备了所有的基础条件,那人工智能到底有....
发表于 10-12 09:51 64次 阅读
人工智能带来的是好处多还是危害多

半导体业明年复苏,有望增长5%~8%

中国大陆今年投资下滑,明年在本土及外商投资带动下,有望恢复成长态势。
的头像 墨记 发表于 10-12 09:25 1199次 阅读
半导体业明年复苏,有望增长5%~8%

人机同行在人工智能时代可以实现吗

企业正面临技能差距扩大和劳动力市场供给不足的问题,这些问题有可能影响企业的未来以及全球经济的发展,企....
发表于 10-11 17:17 70次 阅读
人机同行在人工智能时代可以实现吗

美国运营商5G发展各不相同,面对兴起的AI传统IT巨头要怎么做?

在会上,第三方分析机构Dell‘Oro Group分析师Dave Bolan表示,5G世界的曙光来临....
的头像 倩倩 发表于 10-11 17:11 360次 阅读
美国运营商5G发展各不相同,面对兴起的AI传统IT巨头要怎么做?

AI应用如何保护好

在医学领域,深度学习的应用场景主要集中于对医学图像、电子病历、药物研发和基因组学的分析等。
发表于 10-11 17:09 69次 阅读
AI应用如何保护好

人工智能什么时候可以商业化

当前人工智能技术已步入全方位商业化阶段,并对传统行业各参与方产生不同程度的影响,改变了各行业的生态。
发表于 10-11 17:03 61次 阅读
人工智能什么时候可以商业化

AI如何为企业创造价值

重新激活数据,对业务和商业流程进行创新。过去20年,中国企业实现了信息化和电子化,沉淀了大量行业数据....
发表于 10-11 17:00 57次 阅读
AI如何为企业创造价值

国产AI芯片已具备完善的产品组合,面对限制将不会被卡脖子

10月9日,大华股份总裁李柯表示,在业务方面,大华已经基本建立起一套安全可靠的合规体系。在业务连续性....
的头像 牵手一起梦 发表于 10-11 16:56 577次 阅读
国产AI芯片已具备完善的产品组合,面对限制将不会被卡脖子

新的安全观将更好地理解人工智能所带来的安全挑战

近日,美国国防部联合人工智能中心主任沙纳汉声称,2020将是美军在人工智能领域实现突破的一年。明年中....
发表于 10-11 16:47 44次 阅读
新的安全观将更好地理解人工智能所带来的安全挑战

5G网络应用上AI后会有什么改变

5G网络需要支持超大带宽、超低延时及海量连接场景,可服务于自动驾驶、工业控制、智能电网、大视频、AR....
发表于 10-11 16:31 59次 阅读
5G网络应用上AI后会有什么改变

荣耀20青春版入网工信部,支持20W快充技术

近日,关于荣耀20青春版的消息层出不穷,先是荣耀总裁赵明在论坛上与花粉互动,后又曝光多张荣耀20青春....
的头像 牵手一起梦 发表于 10-11 15:50 228次 阅读
荣耀20青春版入网工信部,支持20W快充技术

人工智能会加速什么消费级应用新品的出现

未来人工智能产业规模将持续扩大,随着众多垂直领域公司的成长,更多消费级应用产品会不断涌现。
发表于 10-11 14:01 32次 阅读
人工智能会加速什么消费级应用新品的出现

安防领域如何完美的融入5G和AI还有4K技术

4K显示,AI加持,引领安防再度升级;政策推动、5G赋能,加速产业规模应用。
发表于 10-11 10:16 302次 阅读
安防领域如何完美的融入5G和AI还有4K技术

人脸识别进入社会之后要注意什么

随着AI和脸部辨识技术不断发展,这一技术绝对会变成功能强大且有用的工具,但是立法者如何权衡这一点,并....
发表于 10-11 10:13 68次 阅读
人脸识别进入社会之后要注意什么

人工智能的发展对人们是否会存在威胁

提起人工智能的形象,美国电影《钢铁侠》系列中无处不在的“贾维斯”应该是现如今大部分网友认知最清晰的人....
发表于 10-11 10:01 459次 阅读
人工智能的发展对人们是否会存在威胁

人工智能技术将会使人们的生活越来越好

人工智能被提出之后,经历了几次的繁荣期。当下人工智能的火爆,离不开人机大战的噱头。当AlphaGo在....
发表于 10-11 09:57 122次 阅读
人工智能技术将会使人们的生活越来越好

Trendforce:2020十大科技趋势揭晓 5G、AR和ToF成为市场热点

全球市场研究机构集邦咨询针对2020年科技产业发展,整理十大科技趋势,其中亮点有AI、5G、车用“三....
的头像 章鹰 发表于 10-11 09:18 2571次 阅读
Trendforce:2020十大科技趋势揭晓 5G、AR和ToF成为市场热点

中兴通讯在Linux基金会的首个开源社区正式成立

Adlik是LF AI中首个聚焦深度学习模型推理阶段的项目,其宗旨是使深度学习模型能够高效地运行在多....
发表于 10-11 09:15 1027次 阅读
中兴通讯在Linux基金会的首个开源社区正式成立

关于智能家电行业发展的前景预测

当前,智能家居难以进入普通住宅最重要的塬因还是价格太高,目前家居智能化一般在10万元以上,大众是较难....
发表于 10-10 17:00 136次 阅读
关于智能家电行业发展的前景预测

AI语音合成还需要怎样发展

随着新一代科技革命和产业变革的到来,人工智能技术愈发受到了越来越多国家和企业的青睐。
发表于 10-10 16:55 92次 阅读
AI语音合成还需要怎样发展

人工智能时代背景下该如何重新定义教育

教育是信息同步和内化的过程,让学生去理解和消化某个知识点,就是教学过程的一个缩影。好的老师会先了解学....
发表于 10-10 16:34 50次 阅读
人工智能时代背景下该如何重新定义教育

云从科技AI+安防再创佳绩

全国民族运动会既是全国少数民族通过传统体育项目展示自身风采舞台,是各民族交流和融合平台,这也是全国民....
的头像 倩倩 发表于 10-10 16:25 241次 阅读
云从科技AI+安防再创佳绩

生物识别中是怎样加入了AI技术的

人脸识别:人脸识别又称面部识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。
发表于 10-10 16:22 70次 阅读
生物识别中是怎样加入了AI技术的

GAN Paint Studio后期图像处理工具实现了什么?

就在前段时间,MIT和IBM的研究人员们共同开发了一个叫GAN Paint Studio的后期图像处理工具,人们通过它能随心所欲地编...
发表于 09-11 11:52 109次 阅读
GAN Paint Studio后期图像处理工具实现了什么?

什么是Ka频段和X频段应用的GaN功率放大器?

移动应用、基础设施与国防应用中核心技术与 RF 解决方案的领先供应商 Qorvo®, Inc.(纳斯达克代码:QRVO)今日宣布,发...
发表于 09-11 11:51 272次 阅读
什么是Ka频段和X频段应用的GaN功率放大器?

GaN技术怎么助力RF功率放大器的较大功率,带宽和效率?

GaN技术的出现让业界放弃TWT放大器,转而使用GaN放大器作为许多系统的输出级。这些系统中的驱动放大器仍然主要使用GaAs...
发表于 09-04 08:07 71次 阅读
GaN技术怎么助力RF功率放大器的较大功率,带宽和效率?

半导体工艺技术的发展趋势是什么?

业界对哪种半导体工艺最适合某一给定应用存在着广泛的争论。虽然某种特殊工艺技术能更好地服务一些应用,但其它工艺技术也有很大...
发表于 08-20 08:01 189次 阅读
半导体工艺技术的发展趋势是什么?

GaN技术能为电源管理做什么?

我们可以想象一下:当你驾驶着电动汽车行驶在马路上,电动车充电设备的充电效率可以达到你目前所用充电效率的两倍;仅有一半大小...
发表于 08-09 07:10 551次 阅读
GaN技术能为电源管理做什么?

栅极驱动器隔离栅的耐受性能怎么样?

在高度可靠、高性能的应用中,如电动/混合动力汽车,隔离栅级驱动器需要确保隔离栅在所有情况下完好无损。随着Si-MOSFET/...
发表于 08-09 07:03 358次 阅读
栅极驱动器隔离栅的耐受性能怎么样?

氮化镓GaN技术怎么实现更高的功率密度

从“砖头”手机到笨重的电视机,电源模块曾经在电子电器产品中占据相当大的空间,而且市场对更高功率密度的需求仍是有增无减。 ...
发表于 08-06 07:20 110次 阅读
氮化镓GaN技术怎么实现更高的功率密度

如何解决5G通信高带宽和大功率的射频技术挑战?

数据显示,全球4G/5G基站市场规模将在2022年达到16亿美元,其中用于Sub-6GHz频段的M-MIMO PA器件年复合增长率将达到...
发表于 08-01 08:25 145次 阅读
如何解决5G通信高带宽和大功率的射频技术挑战?

什么是LNA和PA?有哪些基本原理?

对性能、微型化和更高频率运行的推动正在挑战无线系统的两个关键天线连接元器件的限制:功率放大器(PA) 和低噪声放大器(LNA...
发表于 08-01 07:44 236次 阅读
什么是LNA和PA?有哪些基本原理?

氮化镓技术在半导体行业中处于什么位置?

从将PC适配器的尺寸减半,到为并网应用创建高效、紧凑的10 kW转换,德州仪器为您的设计提供了氮化镓解决方案。LMG3410和L...
发表于 08-01 07:38 72次 阅读
氮化镓技术在半导体行业中处于什么位置?