Facebook机器学习模仿真人声音,安全性引人担忧-电子发烧友网

机器语音系统一直有点令人失望：即使是最好的文本语音转换系统也摆脱不了机械的特性，缺乏人类说话时的基本语调变化。斯蒂芬·霍金使用的语音系统就是一个很好的例子。

但近年来，机器学习取得了巨大进步，也改善了机器语音系统的一些缺点。

最近，Facebook 人工智能研究中心的 Sean Vasquez 和 Mike Lewis 发现了一种可以克服从文本到语音系统转换限制，完全由机器生成而且音频片段极其逼真的方法。这一系统被称为 MelNet，它不仅可以复制人类的语调，而且可以用与真人相同的声音。于是，研究小组开始训练该系统，让它模仿出比尔·盖茨等人的说话。这项工作让人类和电脑之间更真实的互动成为可能，不仅如此，它的逼真程度，很可能引发虚假音频内容骗术的新问题。

图丨比尔·盖茨（来源：麻省理工科技评论）

现实中的文本—语音转换系统进展缓慢并非是因为缺乏尝试。许多团队一直在尝试训练深度学习算法，利用大型音频数据库重现真实的语音模式。

Vasquez 和 Lewis 说，这种方法的问题在于使用的数据类型。到目前为止，大多数工作都集中在音频波形记录上。这些音频波形显示了声音的振幅如何随时间而变化，它每秒记录的音频包含数万个时间步长。

这些波形能在许多不同的尺度上显示出特定模式。例如，在几秒钟的讲话中，波形反映了与单词序列相关的特征模式。但是在微秒级的片段中，波形显示了与声音的音高和音色相关的特征。在其他尺度上，波形反映了说话人的语调、音素结构等。

另一种方法是将波形在一个时间步长和下一个时间步长之间的关联性考虑进来。所以，在给定的时间范围内，一个单词开头的声音与后面的声音是有关联的。

深度学习系统理应善于学习这些类型的关联性，并对它们进行复制。但问题出在不同时间尺度的关联性上，深度学习系统只能在有限的时间尺度上研究这些关联性。这是因为深度学习使用了一种叫做反向传播的学习过程，这种学习过程不断地重新连接网络，根据所看到的示例改进其性能。

重复率限制了系统学习关联性的时间尺度。因此，深度学习网络可以学习长时间或短时间内音频波形的关联性，但不能同时兼顾两者。这就是为什么它们在复制语音方面表现如此糟糕的原因。

Vasquez 和 Lewis 则有不同的方法。他们使用声谱图而不是音频波形来训练他们的深度学习网络。声谱图记录了整个音频频谱及其随时间的变化。所以当波形捕捉到随时间变化的一个参数，例如振幅时，光谱图则捕捉到了不同频率范围内的振幅变化。

这意味着音频信息被更密集地打包到了这种类型的数据中。研究者认为：声谱图的时间轴比波形的时间轴紧凑几个数量级，这意味着在波形中跨越数万个时间步长的依赖关系只跨越声谱图中的数百个时间步长。

这使得深度学习系统更容易获得关联性。他们说：“这使得我们的声谱模型能够在数秒内产生一致的无条件语音和音乐样本。”

图丨声谱图 VS 波形图（来源：Facebook）

最后的结果令人印象深刻。通过使用 TED 演讲中的普通语音训练系统，MelNet 能够在几秒钟内复制 TED 演讲者的声音，或多或少地说出一些内容。Facebook 的研究人员利用比尔·盖茨的 TED 演讲来训练 MelNet，然后用比尔·盖茨的声音说出一系列随机的短语，以此展示了 MelNet 的灵活性。

当然，该方法也有一些限制。普通言语包含了更长时间尺度上的相关性。例如，在几十秒或几分钟的演讲进程中，人们会使用语调的变化来表示主题或情绪的变化。Facebook 的机器系统似乎还无法做到这一点。

因此，尽管 MelNet 可以创造出非常逼真的短语，但团队还不能让机器完成较长的句子、段落或整个故事。这个目标似乎不是很快就能实现。

然而，这项工作可能会对人机交互产生重大影响。人机交互中许多对话只包含简短的短语。电话接线员和服务台尤其可以使用一系列相对简短的短语。因此，这项技术可以用一种比当前系统更接近人类的方式来优化这些交互。

不过，目前 Vasquez 和 Lewis 对潜在的应用前景守口如瓶。

当然，自然发声的机器也存在潜在的问题，尤其是那些能够逼真模仿人类的机器。很容易想象，这种技术可能被用于恶作剧的场景。正因为如此，这是人工智能的又一进步，它提出的伦理问题比它所能回答的问题要更多。它所能回答的问题要更多。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Facebook

Facebook

+关注

关注
3

文章
1427

浏览量
54020
机器学习

机器学习

+关注

关注
66

文章
8095

浏览量
130516

原文标题：Facebook 的 AI，已经可以用比尔·盖茨的声音说话

文章出处：【微信号：deeptechchina，微信公众号：deeptechchina】欢迎添加关注！文章转载请注明出处。

创新与乐趣的融合 —— 探索唯创知音独家录音变音芯片在学舌玩具领域的应用

限的乐趣。我们的技术团队不断优化变音算法让WTR096A芯片不仅录音语音，更能在播放时将录制的声音在老人声音，机器人声音，小孩声音，回音，卡通

发表于 04-18 18:00 •210次阅读

求助，为什么说电气隔离安全性比较高？

为什么说电气隔离安全性比较高？

发表于 11-02 08:22

LED灯具散热建模仿真关键问题研究（一）

电子发烧友网站提供《LED灯具散热建模仿真关键问题研究（一）.doc》资料免费下载

发表于 11-01 11:34 •0次下载

LED灯具散热建<b class='flag-5'>模仿真</b>关键问题研究（一）

LED灯具散热建模仿真关键问题研究(二)

电子发烧友网站提供《LED灯具散热建模仿真关键问题研究(二).doc》资料免费下载

发表于 11-01 09:33 •0次下载

LED灯具散热建<b class='flag-5'>模仿真</b>关键问题研究(二)

Maple—多领域系统级建模仿真和科学计算软件

MapleSim是一个多学科系统级建模仿真环境，从数字孪生实现虚拟调试到车辆实时仿真、重型机械仿真分析等，MapleSim帮助企业降低开发风险、支持创新。MapleMBSE是一个基于Excel用户界面、面向特定任务视图的系统工程

发表于 10-25 13:18 •303次阅读

Maple—多领域系统级建<b class='flag-5'>模仿真</b>和科学计算软件

MCU是怎么为物联网端点设备提高安全性的？

MCU 是怎么为物联网端点设备提高安全性的？

发表于 10-17 08:53

STM32H5 MCU系列提升性能与信息安全性

强大的Arm® Cortex®-M33 MCU运行频率高达250 MHz的Arm®Cortex®-M33内核32位MCU满足绝大多数工业应用的需求安全性可扩展，满足各类需求从基本的安全构建模块到经过

发表于 09-06 06:29

机器学习技术是什么？机器学习技术在新型电力系统安全稳定中的应用

机器学习技术是什么？机器学习技术在新型电力系统安全稳定中的应用机器

发表于 08-17 16:30 •782次阅读

机器学习有哪些算法？机器学习分类算法有哪些？机器学习预判有哪些算法？

发表于 08-17 16:30 •1370次阅读

机器学习可以分为哪几类？机器学习技术有哪些？

对自然语言、图像、声音、视频等数据进行分析、分类、预测的重要方法之一。在日常生活和工作中，我们可以看到机器学习广泛应用于推荐系统、搜索引擎、语音识别、自然语言处理、计算机视觉、医学诊断等领域。

发表于 08-17 16:11 •4330次阅读

MCU应用安全性

MCU应用安全性

发表于 08-10 11:04 •391次阅读

ARMv8系统中的安全性

TrustZone体系结构为系统设计人员提供了一种帮助保护系统的方法TrustZone安全扩展和安全外设。低级程序员应该理解TrustZone架构对系统的设计要求;即使他们不使用安全功能。 ARM

发表于 08-02 18:10

可靠性与安全性

安全性促进可靠性设计：安全性要求通常会推动可靠性设计的实施。为了满足安全性要求，产品设计人员需要考虑风险评估、故障预防和容错设计等措施。这些措施有助于提高产品的可靠性，减少故障率，增加产品在不

发表于 07-12 10:44 •3222次阅读

情感语音合成，让机器如真人一样和我们交流

在语音交互领域，语音合成是重要的一环，其技术也在不断发展。近年来，人们对情感合成的兴趣和需求越来越高。情感语音合成会让机器如真人一样和我们交流，它可以用愤怒的声音、开心的声音、悲伤的

发表于 06-24 03:57 •499次阅读

RISC-V如何保证高权限模式程序及外设的安全性？

RISC-V有机器模式、监管模式和用户模块，但无论在哪个模式下当TRAP发生时都会转到机器模式，是不是也就意味着在用户模式下进入中断服务程序也会拥有机器模式的权限，那我们如何保证高权限模式程序及外设的

发表于 05-26 08:11

搜索历史

Facebook机器学习模仿真人声音,安全性引人担忧

评论