0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI精确复制声音, 真假“比尔·盖茨”难辨

Gv1N_smartman16 来源:yxw 2019-06-15 10:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日, 脸书的研究人员成功克隆了微软总裁比尔·盖茨的声音。

脸书人工智能研究中心的肖恩·瓦斯奎兹(Sean Vasquez)和迈克·刘易斯(Mike Lewis)于本周表示,他们已经努力模仿人类语言有一段时间了。然而,模仿人类语言显然是件难事,当人们听到斯蒂芬·霍金所使用的那套最著名的说话机器发声时,会发现它听起来仍然很不像人类。

但是现在,研究员们似乎已经取得了进展。如果你听了盖茨的克隆所发出的声音,我想你是会同意的。因为它听起来很像比尔·盖茨,你甚至很难分辨出它和他真实声音的区别。

研究人员展示了他们的研究。在这里,机器模仿着盖茨的腔调发声,“请给你珍爱的朋友发一封充满爱意的短信。”其中最不可思议的是,这台机器在说“珍爱(cherish)”时,准确无误地捕捉到盖茨不断上升的语调变化的。

这项技术被称为MelNet,可以用来复制人类的语调。到目前为止,盖茨和其他许多人的声音都被它完美地再现了。瓦斯奎兹和刘易斯说,克隆的音频取自各类Ted演讲。

两位研究人员还表示,直到最近,文本到语音转换软件还不能很好地工作的原因是它使用了波形图记录声音。这些图显示了声音在几秒钟内的音阶变化。如果你听到过盖茨说“珍爱”这个词,就知道他的语气是变化剧烈的。在试图模仿一个人的时候,深度学习机器必须预测到所有这些细微的变化,这很不容易。

瓦斯奎兹和刘易斯说,他们通过使用一种叫做光谱图的东西来训练机器,成功地克隆了声音。

研究人员说:“光谱图的时间轴比波形图的时间轴紧凑几个数量级,这意味着在波形中跨越数万个时间步长的依赖关系在光谱图中只跨越数百个时间步长。这使得我们的光谱图模型能够在数秒内记录各种语音和音乐样本,并保持它们一致性。”

不过,他们也经历了一些挫折。研究小组表示,对他们来说,几乎完美地复制一个句子并不难,难的是复制那些在长达几十秒或几分钟的时间里,显示了情绪变化的复杂语调”。尽管如此,当涉及到人机交互时,研究小组说,在只涉及简短对话的情境中,这项技术可能会带来革命性的变化。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296493
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136230
  • 智能语音
    +关注

    关注

    11

    文章

    821

    浏览量

    50040

原文标题:AI精确复制声音, 真假“比尔·盖茨”难辨

文章出处:【微信号:smartman163,微信公众号:网易智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    释放声音的维度:高性能评估板为沉浸式音频体验快速便捷构建声场工具

    A316-V71-Game-V1是一款基于XMOS XU316技术的虚拟7.1游戏声卡评估平台,能够将立体声音频转换为虚拟7.1声道环绕声,为游戏玩家提供身临其境的音频体验,帮助精确定位游戏中的声音方向。
    的头像 发表于 09-30 14:14 331次阅读
    释放<b class='flag-5'>声音</b>的维度:高性能评估板为沉浸式音频体验快速便捷构建声场工具

    如何进行声音定位?

    文章主要介绍了如何利用一种简单的TDOA算法进行声音点位,并使用数据采集卡进行声音定位的实验。
    的头像 发表于 09-23 15:47 1047次阅读
    如何进行<b class='flag-5'>声音</b>定位?

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    复制人类智能的AI---AGI。 走向AGI的五个层次发现阶段: ①L1,聊天机器人:具备基础的对话能力,能够理解和回应简单的文本输入 ②L2,推理者:具备基本的逻辑推理能力,能够分析复杂信息并进行推断
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五个范式了,与实验科学、理论科学、计算科学、数据驱动科学一起构成
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    的不同。随着AI热潮的兴起,大脑的抽象模型已被提炼成各种的AI算法,并使用半导体芯片技术加以实现。 而大脑是一个由无数神经元通过突触连接而成的复杂网络,是极其复杂和精密的。大脑在本质上就是一台湿润的软组织
    发表于 09-06 19:12

    声源定位模块-AR1105# 声源定位# 声音定位

    声音降噪
    深圳市声讯电子有限公司
    发布于 :2025年08月01日 16:01:09

    正点原子 AI BOX0 智能伴侣,1.54寸高清屏+长效续航,语音畅聊,情景对话,知识科普,多色可选,随身携带!

    品非它莫属! 为什么选择小智AI? 真人级交互体验 ① AI情感对话:不止问答,更能陪你聊心事、讲笑话,像朋友一样懂你! ② 10+音色百变:温柔御姐、萌趣童声、磁性男神… 每天换一种声音陪伴
    发表于 04-24 16:11

    百度AI手语数字人助力听障人士“听见”声音

    近几年,百度先后与天津理工大学、鲸言科技合作,共同研发出百度智能云曦灵AI手语平台与双向手语翻译机,让手语的“声音”,被更多人听见。
    的头像 发表于 02-21 11:29 1295次阅读

    行业集结:共同定制 RK3566 集成 AI 眼镜的前沿 AR 方案

    硬编码· 超低功耗,路由器连接保活况下功耗低于 150uA· 内置语音唤醒 / 命令词· 方案成熟度高,声音和图像上传手机和服务器已有多个成熟案例,并有配套 APP适用场景与产品特性AI 眼镜具备
    发表于 02-20 18:44

    hyper-v复制,Hyper-V 复制的操作步骤

        在使用Hyper-V虚拟化技术时,数据安全和业务连续性至关重要。Hyper-V复制功能就像是给虚拟机数据上了一份“保险”,能在关键时刻发挥重要作用。    什么是Hyper-V复制
    的头像 发表于 02-10 10:29 808次阅读
    hyper-v<b class='flag-5'>复制</b>,Hyper-V <b class='flag-5'>复制</b>的操作步骤

    hyper v 复制,hyper v 复制如何操作

    工作效率。今天就为大家介绍hyperv复制如何操作。    Hyper-V提供了多种方法来实现文件复制和共享,以下是几种常见的操作方法:    方法一:通过网络共享复制文件    在主机上创建共享文件夹:    在主机系统中创建
    的头像 发表于 01-22 16:01 1553次阅读
    hyper v <b class='flag-5'>复制</b>,hyper v <b class='flag-5'>复制</b>如何操作

    如何辨别网线真假

    辨别网线的真假可以从以下几个方面入手: 一、查看包装和标识 检查包装:正品网线的包装通常比较精美,纸质较好,上面的印刷信息清晰,包括产品产地、执行标准、种类、长度等。有些品牌还会在外包装上贴上防伪
    的头像 发表于 01-10 10:28 2915次阅读

    KT148A语音芯片的声音小,如何让喇叭声音变大?声音影响注意点

    声音的大小是一个系统的工作,KT148A本身驱动声音的能力是很大的,达到200mA,通过电流也可以看出来。所以一般8欧姆1w以内的,不需要考虑外挂功放 喇叭的选择原则上越大越好,视结构而定。 尽量选择纸盆类型的喇叭【某宝搜搜】,发声更清晰,更大,也就贵一点点而已
    的头像 发表于 01-10 09:53 1206次阅读
    KT148A语音芯片的<b class='flag-5'>声音</b>小,如何让喇叭<b class='flag-5'>声音</b>变大?<b class='flag-5'>声音</b>影响注意点