RealTalk系统利用文本输入生成逼近真人声音社会影响巨大-电子发烧友网

加拿大创业公司 Dessa 开发出一个语音合成系统 RealTalk，与以往基于语音输入学习人声的系统不同，它可以仅基于文本输入生成完美逼近真人的声音。不过，出于伦理、社会影响等方面的考虑，Dessa 并未公布该项目的研究细节、模型和数据集。

加拿大创业公司 Dessa 近日发布了一项新研究：利用其最新开发的 RealTalk 系统，仅利用文本输入即可生成完美逼近真人的声音。其 demo 中展示了美国著名脱口秀喜剧演员、主持人 Joe Rogan 的声音（Joe Rogan 就是那个让马斯克在节目中嗨了的主持人）。

所有音频均为机器学习模型使用文本输入生成的。音频中包括换气声、「um」「ah」等词语和噪声。

视频中，「Joe Rogan」用他一贯的语调和风格，谈论黑猩猩曲棍球队、快速说绕口令，甚至模拟了一段「Joe Rogan 被人工智能研究者困在机器中」的情境……

Joe Rogan 本人在听了模拟音频后表示：「it's terrifyingly accurate」。有 twitter 网友评论道「你应该和 AI Joe Rogan 来一次访谈，lol」……

Joe Rogan 发 ins 表示：「我的立场就是惊讶地耸肩摇头，然后接受它。未来越来越奇怪了，朋友们。」

复制 Rogan 声音这一项目是由 Dessa 公司机器学习工程师 Hashiam Kadhim、Joe Palermo 和 Rayhane Mama 组成的团队创造的，他们使用了一个文本转语音的深度学习系统 RealTalk，可以仅基于文本输入生成逼真的语音。

是不是很疯狂？Dessa 首席机器学习架构师 Alex Krizhevsky （是的没错，他就是 AlexNet 的发明者）认为这是「我所看到的人工智能领域最酷也最恐怖的事件之一。与理论上 40100 年后才会出现的奇点不同，语音合成已经成为现实。」也许大家和他的想法是一样的。

这意味着什么？会产生什么社会影响？

想想看，Dessa 的工程师用 AI 合法地创建了 Joe Rogan 声音的逼真复制品，多么不可思议。而且，该模型能够复制任何人的声音，只要能够获得足够的训练数据。

而作为构建现实世界应用的 AI 从业者，Dessa 也考虑到了这一点：这项技术会带来什么影响？

很明显，语音合成等技术的社会影响是巨大的。它会影响到每一个人：不管有钱没钱，不管是企业还是政府。

目前，要创建像 RealTalk 这样性能良好的模型需要技术知识、独创性、计算能力和数据。所以，不是任何人都可以实现它。但是在接下来的几年里（甚至更短的时间内），技术可能会发展到只需要几秒钟的音频就能复制出世界上任何人的声音。

这样就很恐怖了。

如果这种技术落入坏人之手，可能会发生下面的情况：

垃圾邮件发送者假冒你母亲或者爱人来获取你的个人信息；

以霸凌或骚扰为目的冒充别人；

冒充政府官员进入绝密区域；

利用政客的「audio deepfake」来操纵选举或引发社会暴动；

……

除了消极影响之外，Dessa 也考虑了这项技术的积极一面。

如果这项技术被正确利用的话，则：

和语音助手说话的时候感觉很自然，就像与朋友聊天一样。

可以定制语音应用程序，比如，健身 app 里鼓励大家锻炼的个性化话语来自阿诺·施瓦辛格。

为只能通过文本-语音设备进行交流的人提供了一种交流选项，比如患有卢·格里克病（渐冻人症，ALS）的人。

用任何语言为任意媒体文件自动配音。

正如牛津大学人类未来研究所在最近发布的一份报告《The Malicious Use of Artificial Intelligence》中所提到的那样：人工智能领域的进步不仅扩大了现有威胁，还带来了新的威胁。

如何从伦理方面考虑来构建这个技术，Dessa 还没有完全得出答案。但未来几年里，这项技术将不可避免地建立起来并应用到现实世界中。因此，除了提高意识和承认问题以外，Dessa 表示希望这项研究能够开启关于语音合成技术的对话和讨论。

每个人都应该知道，随着语音合成技术的发展，可能会发生什么样的情况。正如 Deepfake 技术出现时我们看到的那样，公众意识和对话促使政府、政策制定者、立法者迅速采取行动并制定对策。

Dessa 在相关博客中表示：作为应用人工智能公司，Dessa 的一个重要责任是，了解在研究领域探索 AI 和在现实中应用 AI 有着巨大的差别。为了负责任地对待这种技术，他们认为在开源该项目之前，应该让公众首先意识到语音合成模型的影响。

也因此，Dessa 目前没有公开研究细节、模型或数据集。

Dessa 表示后续将发布博客，介绍 RealTalk 的工作原理和构建过程。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
26356

浏览量
263945
机器学习

机器学习

+关注

关注
66

文章
8095

浏览量
130514
语音合成技术

语音合成技术

+关注

关注
0

文章
8

浏览量
2451

原文标题：语音版deepfake出现：从文本到逼真人声，被模仿者高呼真得可怕

文章出处：【微信号：smartman163，微信公众号：网易智能】欢迎添加关注！文章转载请注明出处。

将为人们生活带来深刻影响的5大生成式AI用例

从ChatGPT推出以来，全世界都为AI的巨大潜力而着迷。ChatGPT开启了生成式AI时代，生成式AI利用基于大量数据训练的模型，可根据简单文本

发表于 03-07 11:38 •453次阅读

探索OpenAI Sora视频AI生成技术及其应用如何使用指南

的应用范围从娱乐和教育到营销和内容创作等各个领域都有巨大潜力。 Sora视频AI的介绍 Sora视频AI是一种先进的人工智能工具，它利用深度学习算法根据用户提供的文本描述生成视频。这意

发表于 02-20 12:01 •797次阅读

求助，逐次逼近型AD芯片的输入问题

问题1：逐次逼近型AD芯片内部的输入电阻阻值是不是不太高，一般也就是K欧级别的，并且AD内部的输入电阻阻值会随采样率的增加而降低？问题2：逐次逼近型AD前端运放电路如何设计，运放的

发表于 12-11 06:57

Stability AI推出Stable audio的文本到音频生成人工智能平台

Stability AI是一家主要以人工智能生成的视觉效果而闻名的公司，它推出了一个名为Stable audio的文本到音频生成人工智能平台。 Stable Audio使用扩散模型，与该公司更受欢迎

发表于 09-20 10:20 •932次阅读

车载语音识别数据的社会影响与未来展望

随着车载语音识别数据的技术不断进步，其社会影响也变得愈发显著。车载语音识别技术的普及不仅将改变驾驶员与车辆之间的互动方式，还将深刻影响交通安全、用户体验以及出行方式。

发表于 08-28 16:55 •274次阅读

Meta发布一款可以使用文本提示生成代码的大型语言模型Code Llama

今天，Meta发布了Code Llama，一款可以使用文本提示生成代码的大型语言模型（LLM）。

发表于 08-25 09:06 •926次阅读

通过循环训练实现忠实的低资源数据文本生成

从结构化数据中自然语言生成（NLG）往往会产生多种错误，从而限制了这些模型在面向客户的应用中的实用性。当NLG 模型在生成的输出文本时注入与输入结构化数据无关的无意义词语或信息就会产生

发表于 08-24 14:53 •259次阅读

人工智能生成技术的深度伪造技术的挑战

随着人工智能模型创作虚假视频的逼真程度不断提高，深度伪造技术日益被视为“巨大的社会威胁”。例如，一个名为ModelScope的新型创意人工智能系统现在已经可以根据文本提示制作短视频。

发表于 07-24 11:04 •300次阅读

基于扩散模型的图像生成过程

近年来，扩散模型在文本到图像生成方面取得了巨大的成功，实现了更高图像生成质量，提高了推理性能，也可以激发扩展创作灵感。不过仅凭文本来控制图

发表于 07-17 11:00 •2062次阅读

面向结构化数据的文本生成技术研究

今天我们要讲的文本生成是现在最流行的研究领域之一。文本生成的目标是让计算机像人类一样学会表达，目前看基本上接近实现。这些突然的技术涌现，使得计算机能够撰写出高质量的自然文本，满足特定的需求。

发表于 06-26 14:39 •336次阅读

基于文本到图像模型的可控文本到视频生成

1. 论文信息 2. 引言大规模扩散模型在文本到图像合成方面取得了巨大的突破，并在创意应用方面取得了成功。一些工作试图在视频领域复制这个成功，即在野外世界建模高维复杂视频分布。然而，训练这样

发表于 06-14 10:39 •574次阅读

Meta开源文本如何生成音乐大模型

非商业用途免费使用。在进入正文前，我们先听两段 MusicGen 生成的音乐。我们输入文本描述「a man walks in the rain, come accross a beautiful

发表于 06-12 15:11 •534次阅读

识别「ChatGPT造假」，效果超越OpenAI：北大、华为的AI生成检测器来了

解放无数文书的双手，它以假乱真的强劲能力也为一些不法分子所利用，造成了一系列社会问题：来自北大、华为的研究者们提出了一种识别各式 AI 生成语料的可靠文本检测器。根据长短

发表于 06-06 11:05 •331次阅读

微软提出Control-GPT：用GPT-4实现可控文本到图像生成！

该研究提出了一个简单而有效的框架 Control-GPT，它利用 LLM 的强大功能根据文本 prompt 生成草图。Control-GPT 的工作原理是首先使用 GPT-4 生成 T

发表于 06-05 15:31 •478次阅读

什么是生成式AI？生成式AI的四大优势

生成式AI是一种特定类型的AI，专注于生成新内容，如文本、图像和音乐。这些系统在大型数据集上进行训练，并使用机器学习算法生成与训练数据相似的

发表于 05-29 14:12 •2603次阅读