0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用语音直接画出人脸,AI再添新能力

hl5C_deeptechch 来源:YXQ 2019-07-17 09:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

听声辨人,利用声纹进行解锁,这种技术已广泛应用,人类的声音含有该个体的一定特征,从而可以进行区分。那么仅通过声音,能否画出人像,并且尽可能地与讲话者相似呢?

近日,卡内基梅隆大学的Yandong Wen 等人,利用生成对抗网络模型(generative adversarial networks, GANs)首次对这一问题作出研究,利用讲话者的语音生成一些匹配原说话者面部特征的人脸,并用交叉模态匹配(cross-modal matching task)评估了模型表现,可谓是语音画像领域的一大突破

模型框架

一个人的声音和骨骼结构、发声部位的形状等特征的确有关,但利用语音直接画出人脸,如何做到?

该由声音重建人脸的模型框架主要由四个卷积网络:语音嵌入模型(voice embedding network)、生成器(Generator)、判别器(Discriminator)、分类器(classifier)组成。

语音嵌入模型(voice embedding network)将输入的语音数据,梅尔倒频谱(log mel-spectrograms)转换为含有该声音特征的向量 e。该模型含有 5 层一维卷积神经网络,每一层均是经由卷积核为 3、步长为 2、padding 为 1 得到,并且都经过归一化层处理和 ReLU 单元激活,最后经过平均池化得到一个 64 维的向量。此模型是通过一个语音识别任务预先训练得到参数,并且参数在生成人脸的训练过程中保持不变。生成器(Generator)输入为语音嵌入模型产生的向量 e,输出是人脸 RGB 图像 f',由 6 层二维反卷积网络构成,激活函数采用 ReLU。

判别器(Discriminator)判断输入的图像 f(或 f')是生成器伪造的图像还是真实的人脸,如果判断为伪造图会加大损失 Ld。由 6 层激活单元为 Leaky ReLU 的二维卷积网络构成,最后经过全连接层得到人脸图像数据。

分类器(classifier)用来将人脸图像与说话者匹配,如果匹配错误会加大损失 Lc。该模型由 6 层二维卷积网络和一个全连接层组成。具体的结构如图表,其中 Conv 3/2,1代表卷积核尺寸为 3,步长为 2,padding 填充为 1。

图 | 从声音重建人脸模型的具体结构。(来源:Yandong Wen, et al./CMU)模型通过最小化判别器与分类器的交叉熵损失 Ld 和 Lc 来训练,以期得到图像逼真且符合说话者特征的人脸。值得一提的是,此模型的测试集和训练集以及验证集相互独立,即测试时的声音是未听过的,人脸也未知。

模型表现

不特意挑选那些人脸和真实讲话者完美一致的结果,一般来讲,该模型的确能输出具有讲话者特征的人脸,即使不完全一模一样,从种族以及一些其他典型的面部特征来看,这个模型的确学习到了一些信息,输出结果和原讲话者非常像,并且语音时间越长,匹配的特征越多,两者越类似

图 | 从不同时长的正常录音生成人脸的结果图,右侧Ref为真实讲话者的不同脸部照片,从上到下的 4 位 Speaker 分别是 Danica McKellar, Cindy Williams, Damian Lewis, and Eva Green. (来源:Yandong Wen, et al./CMU)当然,性别及年龄特征也可以很好地被学习到,左侧输出结果的年龄和性别与右侧真实人脸的年龄性别保持一致。在整个测试集上,生成图和真实讲话者性别相同的概率可以达到 96.5%

图 | 从性别年龄的人脸重建,(a)是从老年声音生成的人脸;(b)是男性声音生成的人脸;(c)是女性声音生成的人脸。其中左侧为生成图,右侧为真实讲话者。(来源:Yandong Wen, et al./CMU)如果用同一个人的不同语音片段,推测产生的人脸会保持相同特征吗?模型结果告诉我们,是这样。选用同一个讲话者的 7 个不同语音片段,不特意挑选完美结果,模型所推测出的大概特征是十分一致的,这也侧面说明,模型的确可以从一个人的语音抽取出一些特征,映射成其脸部的某些特征。

图 | 利用一个人的 7 段不同语音重建人脸,左图(a)是重建的 7 张人脸图,右图(b)是对应的真实人脸在不同情况的照片(来源:Yandong Wen, et al./CMU)进一步来讲,如果从语音中学到的特征真的可以映射成面部的特征,那么生成人脸图必定和真实讲话者的脸部是对应匹配的。换句话说,声音中的特征可以被生成人脸中蕴含的特征替代,那么由声音重组人脸就变成了人脸识别问题,两张脸(生成的和真实的)匹配,那么计划可行,这个匹配率也就成了衡量模型表现的指标。在整个训练集和测试集上,该模型的匹配率分别是 96.83% 和 76.07%;将训练集和测试集按照性别分层,排除性别这一特征的助力,也就是直接比较同一性别上,生成的人脸和讲话者是否相像,匹配率在训练集和测试集上分别是 93.98%和 59.69%,这也证明了模型所学到的信息不仅仅是性别,还有其他更详细的面部特征。该模型表现不仅优于 DIMNets-G,同时,测试集表现不如训练集,说明模型还有很大提升空间。

图 | 不同模型在性别分层以及不分层的数据集上的表现。(来源:Yandong Wen, et al./CMU)

展望

该模型虽然表现尚佳,但仍有可提升的地方,比如头发和图像背景等与声音无关的特征,可以进行数据清洗将其去除,而有一些明显与发声有关的面部特征也可以加以利用,从而模型会更加精确。

总的来说,由音生貌,语音画像问题的一块空白得到了填补。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    90

    文章

    38271

    浏览量

    297309
  • GaN
    GaN
    +关注

    关注

    21

    文章

    2339

    浏览量

    79326

原文标题:仅听声音就画出人脸,GAN再添新能力

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    纳芯微NSSine系列实时控制MCU/DSP新成员

    在工业和能源领域,效率和控制精密度是核心诉求。纳芯微NSSine系列实时控制 MCU/DSP 新成员:中端算力新品 NS800RT5075,高性价比新品 NS800RT1025、NS800RT1035 正式发布。
    的头像 发表于 11-05 09:14 1649次阅读
    纳芯微NSSine系列实时控制MCU/DSP<b class='flag-5'>再</b><b class='flag-5'>添</b>新成员

    【CPKCOR-RA8D1】关于AI人脸检测移植遇到的一些问题

    + CPKEXP-EKRA8X1 扩展板(OV7725 摄像头、4.5\" MIPI-DSI 屏)。 移植详情【CPKCOR-RA8D1】AI人脸检测 - 瑞萨单片机论坛 - 电子技术论坛 - 广受欢迎的专业
    发表于 10-31 13:39

    基于级联分类器的人脸检测基本原理

    基于统计的方法。从高层的输入输出角度来描述,软件输入是一张图像(可以表示为一个uint8_t或者uint16_t的数组),输出是检测的结果,如果检测到人脸会输出人脸的数量和对应的位置,反之则会输出未
    发表于 10-30 06:14

    【CPKCOR-RA8D1】AI人脸检测

    在瑞萨 RA8D1 开发板上集成 AI 人脸检测功能 1. 项目概述 该项目是根据官方AI人脸检测代码,在官方显示屏显示代码的基础上进行修改而得。由于本人实力有限,最后的结果并不理想,
    发表于 10-29 17:59

    如何使用语音指令控制串口输出

    在上两篇文章中, 我们实现了GPIO输出, 和PWM输出(组件介绍在前文中已经介绍过 ),在本章节我们将继续进行使用语音指令控制串口输出。
    的头像 发表于 09-25 15:47 1915次阅读
    如何使<b class='flag-5'>用语音</b>指令控制串口输出

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    是一种快速反应能力,是直接的感知;灵感是一种通过思考和探索获得的创造性想法,是一种创意。 AI怎么模拟直觉与灵感呢?四、AI代替人类的假说 这可能吗? 用机器来生成假说: 1、
    发表于 09-17 11:45

    语音交互革命,广和通AI解决方案加速机器人听觉进化

    ”。面对机器人等新一代智能终端对AI语音交互的新需求,广和通深度整合硬件SoC平台与AI语音算法,通过端云协同方案,助力机器人听觉突破噪声与理解瓶颈,增强
    的头像 发表于 08-26 17:44 653次阅读

    一颗TTS语音芯给产品增加智能语音播报能力

    一颗TTS语音芯片给产品增加智能语音播报能力 传统语音播报芯片可以设置一些固定的语音片段或者内容,但是对于现在各种创新产品层出不穷的时代,传
    的头像 发表于 08-14 16:33 478次阅读

    【嘉楠堪智K230开发板试用体验】K230 AI 功能体验

    。K230 的KPU支持INT8和INT16, 典型网络下实测推理能力可达K210的13.7倍,MAC利用率超70%。 同时K230提供了大量的AI视觉例程、包含:人体识别、物体检测、目标跟踪等多种场合
    发表于 07-15 15:24

    最新人工智能硬件培训AI基础入门学习课程参考2025版(离线AI语音视觉识别篇)

    端侧离线 AI 智能硬件作为 AI 技术的重要载体之一,凭借其无需依赖网络即可实现智能功能的特性,在一些网络条件受限或对数据隐私有较高要求的场景中,发挥着不可或缺的作用。本章基于CSK6大模型语音
    发表于 07-04 11:14

    OBOO鸥柏丨AI数字人触摸屏查询触控人脸识别语音交互一体机上市

    OBOO鸥柏丨AI数字人触摸屏查询触控人脸识别语音交互一体机上市分析OBOO鸥柏品牌推出的AI数字人触摸屏查询触控人脸识别
    的头像 发表于 05-21 20:22 730次阅读
    OBOO鸥柏丨<b class='flag-5'>AI</b>数字人触摸屏查询触控<b class='flag-5'>人脸</b>识别<b class='flag-5'>语音</b>交互一体机上市

    90元打造小智AI腕表,语音交互超有趣!

    的右下方。所以,方便左手携带。设计这个助手的初衷,就是下班途中,可以和AI聊聊未尽事宜,问问技术、问问天气,如果AI回答不尽满意,直接触摸屏幕,打断他。 背面视图 TYPE-C 口,可以充电、固件
    发表于 04-16 14:26

    上线!国产AI语音开发板,定制你的聊天伙伴助手,可直接调用DeepSeek/豆包/通义千问

    AiPi-PalChatV1 ,可直接调用三大国产AI模型(DeepSeek/豆包/通义千问),轻松实现自然语言交互。 01概述 AiPi-PalChatV1 是一款接入了 小智 AI 智能体 的微型
    的头像 发表于 04-15 17:11 870次阅读
    上线!国产<b class='flag-5'>AI</b><b class='flag-5'>语音</b>开发板,定制你的聊天伙伴助手,可<b class='flag-5'>直接</b>调用DeepSeek/豆包/通义千问

    安信可AI人脸识别方案

    作为神仙世界的高科技,"无接触式开锁",人脸识别技术也被广泛应用在现代生活中,安信可也有AI人脸识别方案!
    的头像 发表于 02-25 14:39 745次阅读
    安信可<b class='flag-5'>AI</b><b class='flag-5'>人脸</b>识别方案

    芯波微电子突发模式跨阻放大器产品家族新成员

    近日,芯波微电子的50G线性突发模式跨阻放大器XB1251在客户测试中得到业界一流性能。芯波微电子的突发模式跨阻放大器家族(XB12产品族)重要新成员!‍‍‍
    的头像 发表于 02-24 17:21 1085次阅读