0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI使用音频剪辑对与语音匹配的真实感面部建模

倩倩 来源:新经网 2020-04-11 10:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

您是否曾经仅仅根据他们的声音来构造一个从未见过的人的心理形象?人工智能AI)现在可以做到这一点,仅使用简短的音频剪辑作为参考即可生成人脸的数字图像。

这个名为“ Speech2Face” 的神经网络(一种以类似于人脑的方式“思考”的计算机)经过科学家培训,接受了来自互联网的数百万个教育视频,显示了100,000多个不同的人在说话。

研究人员在一项新研究中写道,Speech2Face通过该数据集学习了语音提示与人脸某些物理特征之间的关联。然后,AI使用音频剪辑对与语音匹配的真实感面部建模。

值得庆幸的是,人工智能还不能仅仅根据他们的声音确切地知道特定的人是什么样。研究作者报告说,神经网络识别语音中的某些标记,这些标记指向性别,年龄和种族,是许多人共有的特征。

科学家写道:“因此,该模型只会产生看上去普通的面孔。” “它不会产生特定个人的图像。”

尽管坦率地说,对猫的解释有点让人恐惧,但AI已经证明它可以产生出异常准确的人脸。

由Speech2Face生成的脸部-均面向正面并具有中性表情-与声音背后的人并不完全匹配。但是,根据这项研究,这些图像通常确实可以捕捉到正确的年龄范围,种族和性别。

但是,该算法的解释远非完美。当面对语言变化时,Speech2Face表现出“混合表现”。例如,当AI收听亚洲人讲中文的音频片段时,该程序会产生亚洲人脸的图像。然而,据科学家报道,当同一个人用不同的音频片段讲英语时,人工智能产生了白人的面孔。

该算法还显示出性别偏见,将低音调的声音与男性面孔相关联,将高音调的声音与女性面孔相关联。研究人员写道,由于训练数据集仅代表YouTube上的教育视频,因此“并不代表整个世界人口。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数字图像
    +关注

    关注

    2

    文章

    122

    浏览量

    19620
  • 人工智能
    +关注

    关注

    1820

    文章

    50325

    浏览量

    266967
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26261
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    16位PCM音频DAC AD1856:高性能音频解决方案

    的纯净度和真实感。今天,我们就来详细探讨一款高性能的16位PCM音频DAC——AD1856。 文件下载: AD1856.pdf 一、AD1856概述 AD1856是一款单片、16位脉冲编码调制(PCM
    的头像 发表于 04-14 09:15 416次阅读

    Cadence推出专为新一代语音AI音频应用打造的 Tensilica HiFi iQ DSP

    第六代 HiFi DSP 为基于语音AI 应用和最新沉浸式音频格式带来更出色的性能与能效表现 1 中国上海,2026 年 3 月 19 日 —— 楷登电子(美国 Cadence 公司
    的头像 发表于 03-19 10:24 2.5w次阅读

    一文了解语音AI的运作方式

    语音 AI 是对话式 AI 的一个子集,包括可将人类语音转换为文本的自动语音识别 (ASR) 和文本转
    的头像 发表于 02-27 16:10 520次阅读
    一文了解<b class='flag-5'>语音</b><b class='flag-5'>AI</b>的运作方式

    语音跳线:构建高效音频传输系统的核心组件

    在会议系统、录音棚、广播电台等专业音频场景中,语音跳线作为连接麦克风、调音台、功放等设备的“神经末梢”,其性能直接影响声音信号的保真度与传输稳定性。本文从技术原理、应用场景、选型要点三个维度,解析
    的头像 发表于 01-19 10:12 367次阅读
    <b class='flag-5'>语音</b>跳线:构建高效<b class='flag-5'>音频</b>传输系统的核心组件

    应用 I 音频接口防护方案

    放电损害,怎么让产品稳定可靠的运行,成为我们迫切需要处理的问题。两种信号的优缺点一、模拟信号优点:自然真实感强、实时性好、简单易用、无需转换。缺点:抗干扰能力弱、
    的头像 发表于 12-29 13:37 330次阅读
    应用 I <b class='flag-5'>音频</b>接口防护方案

    新品 | Module ASR,AI智能离线语音模块

    ModuleASR是一款基于CI1302芯片设计的AI智能离线语音模块。配备麦克风用于清晰音频采集,并内置扬声器提供高质量的音频反馈。同时支持中途
    的头像 发表于 12-05 18:15 939次阅读
    新品 | Module ASR,<b class='flag-5'>AI</b>智能离线<b class='flag-5'>语音</b>模块

    深度解析:康谋双模态仿真测试解决方案!

    随着端到端自动驾驶架构的兴起,传统基于规则的仿真测试正面临“真实感不足”与“场景泛化难”的双重挑战。本文深入解析康谋推出的双模态仿真测试解决方案:一方面依托aiSim提供确定性的物理级传感器建模;另一方面通过WorldExtractor实现基于3DGS
    的头像 发表于 11-21 17:32 9060次阅读
    深度解析:康谋双模态仿真测试解决方案!

    安信可小智AI语音模组实测:实现语音控制关灯

    以下作品由安信可社区用户 zzbinfo 制作   这次评测的是安信可科技出品的Ai-WV01-32S的小智AI语音模组。 将从 开箱、配网、语音测试 ,到最终通过 串口指令控制 一个
    的头像 发表于 11-19 16:09 1354次阅读
    安信可小智<b class='flag-5'>AI</b><b class='flag-5'>语音</b>模组实测:实现<b class='flag-5'>语音</b>控制关灯

    AI语音模组】自制小智管家?安信可Ai-WV01-32S测试体验

    项目名:默语小智管家 模组支持: 安信可科技 AI语音模组 作者:安信可论坛用户 molun 这两年, AI 硬件又卷起来了。   语音助手、AI
    的头像 发表于 11-19 16:06 872次阅读
    【<b class='flag-5'>AI</b><b class='flag-5'>语音</b>模组】自制小智管家?安信可<b class='flag-5'>Ai</b>-WV01-32S测试体验

    炬芯科技亮相2025亚洲AI音频大会

    近日,2025亚洲AI音频大会在深圳成功举办,作为中国行业现象级盛会之一,大会分享和展示音频技术的最新成果。炬芯科技便携式音频事业部产品总监张洪波受邀出席,以《全场景
    的头像 发表于 09-29 11:36 4676次阅读

    广州唯创电子混音IC播报语音芯片:革新音频应用的新力量

    音频源智能混音,开启音频交互新纪元在智能化浪潮席卷各行各业的今天,音频处理技术正经历着革命性的变革。传统的单一路径语音播放已无法满足日益复杂的应用场景需求,混音播报
    的头像 发表于 09-24 09:25 698次阅读
    广州唯创电子混音IC播报<b class='flag-5'>语音</b>芯片:革新<b class='flag-5'>音频</b>应用的新力量

    唯创知音AI语音交互芯片与模组介绍

    AI语音交互已经成为智能产品的基础配置,比如常见的AI玩具、智能家居、带AI功能的蓝牙音响,还有汽车的智能车机和智能穿戴设备等。唯创知音顺应市场趋势推出了WT2606A系列的
    的头像 发表于 09-17 15:51 946次阅读
    唯创知音<b class='flag-5'>AI</b><b class='flag-5'>语音</b>交互芯片与模组介绍

    解锁高品质音频体验:探索音频质量评估与测试的科学之道

    高品质音频的科学世界!二、音频质量评估简介语音质量评估就是通过人类或自动化的方法评价语音质量。在实践中,有很多主观和客观的方法评价语音质量。
    发表于 07-22 11:15

    最新人工智能硬件培训AI基础入门学习课程参考2025版(离线AI语音视觉识别篇)

    端侧离线 AI 智能硬件作为 AI 技术的重要载体之一,凭借其无需依赖网络即可实现智能功能的特性,在一些网络条件受限或对数据隐私有较高要求的场景中,发挥着不可或缺的作用。本章基于CSK6大模型语音
    发表于 07-04 11:14

    AI玩具爆发,音频编解码器如何满足语音交互需求

    电子发烧友网综合报道,在AI玩具已经开始逐渐爆发的当下,人机交互已经成为标配功能,而最重要的便是语音控制。而语音控制的第一步,便需要让AI玩具听懂你在说什么这就需要用到
    的头像 发表于 06-20 01:07 7487次阅读