0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用语音直接画出人脸,AI再添新能力

hl5C_deeptechch 来源:YXQ 2019-07-17 09:54 次阅读

听声辨人,利用声纹进行解锁,这种技术已广泛应用,人类的声音含有该个体的一定特征,从而可以进行区分。那么仅通过声音,能否画出人像,并且尽可能地与讲话者相似呢?

近日,卡内基梅隆大学的Yandong Wen 等人,利用生成对抗网络模型(generative adversarial networks, GANs)首次对这一问题作出研究,利用讲话者的语音生成一些匹配原说话者面部特征的人脸,并用交叉模态匹配(cross-modal matching task)评估了模型表现,可谓是语音画像领域的一大突破

模型框架

一个人的声音和骨骼结构、发声部位的形状等特征的确有关,但利用语音直接画出人脸,如何做到?

该由声音重建人脸的模型框架主要由四个卷积网络:语音嵌入模型(voice embedding network)、生成器(Generator)、判别器(Discriminator)、分类器(classifier)组成。

语音嵌入模型(voice embedding network)将输入的语音数据,梅尔倒频谱(log mel-spectrograms)转换为含有该声音特征的向量 e。该模型含有 5 层一维卷积神经网络,每一层均是经由卷积核为 3、步长为 2、padding 为 1 得到,并且都经过归一化层处理和 ReLU 单元激活,最后经过平均池化得到一个 64 维的向量。此模型是通过一个语音识别任务预先训练得到参数,并且参数在生成人脸的训练过程中保持不变。生成器(Generator)输入为语音嵌入模型产生的向量 e,输出是人脸 RGB 图像 f',由 6 层二维反卷积网络构成,激活函数采用 ReLU。

判别器(Discriminator)判断输入的图像 f(或 f')是生成器伪造的图像还是真实的人脸,如果判断为伪造图会加大损失 Ld。由 6 层激活单元为 Leaky ReLU 的二维卷积网络构成,最后经过全连接层得到人脸图像数据。

分类器(classifier)用来将人脸图像与说话者匹配,如果匹配错误会加大损失 Lc。该模型由 6 层二维卷积网络和一个全连接层组成。具体的结构如图表,其中 Conv 3/2,1代表卷积核尺寸为 3,步长为 2,padding 填充为 1。

图 | 从声音重建人脸模型的具体结构。(来源:Yandong Wen, et al./CMU)模型通过最小化判别器与分类器的交叉熵损失 Ld 和 Lc 来训练,以期得到图像逼真且符合说话者特征的人脸。值得一提的是,此模型的测试集和训练集以及验证集相互独立,即测试时的声音是未听过的,人脸也未知。

模型表现

不特意挑选那些人脸和真实讲话者完美一致的结果,一般来讲,该模型的确能输出具有讲话者特征的人脸,即使不完全一模一样,从种族以及一些其他典型的面部特征来看,这个模型的确学习到了一些信息输出结果和原讲话者非常像,并且语音时间越长,匹配的特征越多,两者越类似

图 | 从不同时长的正常录音生成人脸的结果图,右侧Ref为真实讲话者的不同脸部照片,从上到下的 4 位 Speaker 分别是 Danica McKellar, Cindy Williams, Damian Lewis, and Eva Green. (来源:Yandong Wen, et al./CMU)当然,性别及年龄特征也可以很好地被学习到,左侧输出结果的年龄和性别与右侧真实人脸的年龄性别保持一致。在整个测试集上,生成图和真实讲话者性别相同的概率可以达到 96.5%

图 | 从性别年龄的人脸重建,(a)是从老年声音生成的人脸;(b)是男性声音生成的人脸;(c)是女性声音生成的人脸。其中左侧为生成图,右侧为真实讲话者。(来源:Yandong Wen, et al./CMU)如果用同一个人的不同语音片段,推测产生的人脸会保持相同特征吗?模型结果告诉我们,是这样。选用同一个讲话者的 7 个不同语音片段,不特意挑选完美结果,模型所推测出的大概特征是十分一致的,这也侧面说明,模型的确可以从一个人的语音抽取出一些特征,映射成其脸部的某些特征。

图 | 利用一个人的 7 段不同语音重建人脸,左图(a)是重建的 7 张人脸图,右图(b)是对应的真实人脸在不同情况的照片(来源:Yandong Wen, et al./CMU)进一步来讲,如果从语音中学到的特征真的可以映射成面部的特征,那么生成人脸图必定和真实讲话者的脸部是对应匹配的。换句话说,声音中的特征可以被生成人脸中蕴含的特征替代,那么由声音重组人脸就变成了人脸识别问题,两张脸(生成的和真实的)匹配,那么计划可行,这个匹配率也就成了衡量模型表现的指标。在整个训练集和测试集上,该模型的匹配率分别是 96.83% 和 76.07%;将训练集和测试集按照性别分层,排除性别这一特征的助力,也就是直接比较同一性别上,生成的人脸和讲话者是否相像,匹配率在训练集和测试集上分别是 93.98%和 59.69%,这也证明了模型所学到的信息不仅仅是性别,还有其他更详细的面部特征。该模型表现不仅优于 DIMNets-G,同时,测试集表现不如训练集,说明模型还有很大提升空间。

图 | 不同模型在性别分层以及不分层的数据集上的表现。(来源:Yandong Wen, et al./CMU)

展望

该模型虽然表现尚佳,但仍有可提升的地方,比如头发和图像背景等与声音无关的特征,可以进行数据清洗将其去除,而有一些明显与发声有关的面部特征也可以加以利用,从而模型会更加精确。

总的来说,由音生貌,语音画像问题的一块空白得到了填补。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26430

    浏览量

    264035
  • GaN
    GaN
    +关注

    关注

    19

    文章

    1763

    浏览量

    67948

原文标题:仅听声音就画出人脸,GAN再添新能力

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    李未可科技发布全新首款AI眼镜Chat,搭载自研AI大模型

        4月26日,李未可科技推出旗下首款AI眼镜——Meta Lens Chat,定价699元,并于4月26日10点正式开启预售。AI 眼镜 Chat 主打AI语音交互
    发表于 04-26 10:45 51次阅读
    李未可科技发布全新首款<b class='flag-5'>AI</b>眼镜Chat,搭载自研<b class='flag-5'>AI</b>大模型

    stm32f0怎么不使用语音IC做合成语音

    我这边板子就一个功放电路,要求不使用语音IC做语音,我听别人说去了解MP3这一方面,但我只找到MCU软解码,但我怎么不了解,不清楚怎么做成自己的语音,要的是语音,不是歌曲
    发表于 04-25 06:00

    语音数据集:AI语音技术的灵魂

    提升语音识别和生成能力语音数据集为AI模型提供了丰富的语音样本,通过训练和学习这些数据,AI
    的头像 发表于 12-14 14:33 349次阅读

    语音数据集:推动AI语音技术的核心力量

    的发展趋势。 二、语音数据集的重要性 提高语音识别和生成能力语音数据集包含大量的语音样本,可以为模型提供充足的训练数据,从而提高
    的头像 发表于 12-12 11:32 289次阅读

    各行各业如何使用语音 AI 满足消费者期望

    。视频聊天技术让身处异地的朋友和家人之间能够轻松联系彼此。通过语音命令工具,AI 助手可以播放歌曲、拨打电话,或推荐附近几公里范围内最棒的意大利菜。AI 算法甚至可以预测用户可能想看的下一个节目,或者在用户购买商品前,推送他
    的头像 发表于 09-26 18:35 249次阅读

    【KV260视觉入门套件试用体验】五、VITis AI (人脸检测和人体检测)

    Vitis-AI/board_setup/vek280 $ ./host_cross_compiler_setup.sh 直接运行权限不够,使用chmod 进行授权
    发表于 09-26 16:22

    人脸识别技术几个方面的内容

    即从各种不同的场景中检测出人脸的存在并确定其位置。在大多数的场合中由于场景较复杂,人脸的位置是预先不知道的,因而首先必须确定场景中是否存在人脸,如果存在人脸,再确定图像中
    的头像 发表于 09-19 16:23 864次阅读

    Accio:使用语音搜索事物

    电子发烧友网站提供《Accio:使用语音搜索事物.zip》资料免费下载
    发表于 07-11 14:27 0次下载
    Accio:使<b class='flag-5'>用语音</b>搜索事物

    AI人脸识别测温一体机设计

    当前文章利用华为云提供的AI人脸识别接口+红外测温传感器MLX90614ESF(DCI)+瑞芯微RK3399完成AI人脸测温一体机设计,方便
    的头像 发表于 07-06 14:25 1068次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>人脸</b>识别测温一体机设计

    人脸识别是如何工作的 人脸识别技术的利与弊

    人脸识别是一种生物识别技术,通过对人脸图像或视频进行分析和比对,识别出人脸的身份。下面是简要的工作原理。
    发表于 06-30 15:02 921次阅读

    使用语音命令的家庭自动化

    电子发烧友网站提供《使用语音命令的家庭自动化.zip》资料免费下载
    发表于 06-30 11:15 0次下载
    使<b class='flag-5'>用语音</b>命令的家庭自动化

    用语音控制的语音命令门锁制作

    电子发烧友网站提供《用语音控制的语音命令门锁制作.zip》资料免费下载
    发表于 06-12 10:48 1次下载
    <b class='flag-5'>用语音</b>控制的<b class='flag-5'>语音</b>命令门锁制作

    语音识别技术的概念及应用前景

    解决的问题,就是使得设备可以用听觉感知周围的世界,用声音和人做最自然的交互,让操控和生活更为便捷。 智能语音的基础在于通过神经网络技术,提升语音识别的识别率,同时可以用语义理解分析出人
    发表于 05-27 09:41

    语音芯片在复杂环境中如何提升抗干扰能力

    。为提高语音芯片在复杂环境中的抗干扰能力,需要从以下几个方面进行改进。 噪声处理技术的改进 在复杂噪声环境中,语音信号往往会被环境噪声淹没,导致语音识别效果下降。当前,针对这一问题,主
    的头像 发表于 05-12 15:27 440次阅读

    国产工业级RK3568核心板-AI人脸识别产品方案

    迅为RK3568开发板采用瑞芯微推出的一款高性能、低功耗的RK3568处理器,其拥有强大的AI计算能力和图像处理能力,非常适合用于人脸识别终端产品的设计。 针对
    发表于 05-06 14:30