AI算法5秒钟就能克隆你的声音-电子发烧友网

今天，给大家介绍一个算法。

AI 算法 5 秒钟，就能克隆你的声音，你信吗？

听听这段音频，猜猜看是 AI 合成音，还是真人录音？

答案是：AI 合成。

这个人的原始声音在这里：

你给这个 AI 克隆声音的算法打几分？

录制一段音频，就可以根据输入的文字，5s 即可自动生成对应的合成音。

突然有个大胆的想法，你说女朋友要是哪天突然不承认自己说过了某句话，我就给她造一份！

兄弟们，我做的对吗？

MockingBird这个算法是基于比较著名的 Real Time Voice Cloning 实现的。

MockingBird 是最近开源的中文版。

论文的名字是：

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

简单介绍下：

算法分为三个模块：encoder模块、systhesis模块、vocoder模块。

encoder模块将说话人的声音转换成人声的数字编码（speaker embedding）

synthesis 模块将文本转换成梅尔频谱（mel-spectrogram）

vocoder模块将梅尔频谱（mel-spectrogram）转换成（波形）waveform

具体的算法原理，大家可以先看论文：

https://arxiv.org/pdf/1806.04558.pdf

今天主要聊聊，这个算法怎么玩。

项目地址：https://github.com/babysor/MockingBird

有深度学习基础的话，这个应该不难。

就是部署环境，分四步：

Anaconda 配置 Pytorch 开发环境

根据项目 requirements.txt 安装第三方库依赖

下载权重文件

下载训练集，这个几十G，有点大

具体的配置方法，直接看这里：

https://github.com/babysor/MockingBird/blob/main/README-CN.md

环境搭建搞定后，就可以运行代码了。

有两种模式可以启动，Web 模式和工具箱模式。

在项目根目录运行：

python web.py

即可开启 Web ，打开地址 http://localhost:8080 就能操作了。

这个界面比较简陋，建议使用工具箱模式。

python demo_toolbox.py -d 《datasets_root》

datasets_root就是下载好的数据集的地址。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语音

语音

+关注

关注
3

文章
361

浏览量
37626
AI

AI

+关注

关注
87

文章
26413

浏览量
264021

原文标题：危险！我克隆了女朋友的声音

文章出处：【微信号：LinuxHub，微信公众号：Linux爱好者】欢迎添加关注！文章转载请注明出处。

云知声AIGC内容创作平台蓝藻AI全新升级

近日，云知声AIGC内容创作平台蓝藻AI宣布完成全新升级，并推出超值会员服务，旨在为广大创作者提供更丰富多元的声音选择，助力内容创作更高效、更精彩。此次升级聚焦于AI声音

发表于 03-16 14:05 •676次阅读

AI克隆技术可用于创建虚拟人物形象！它的技术原理和发展趋势

电子发烧友网报道（文/李弯弯）AI克隆技术主要指的是人工智能技术用于复制或克隆人类的行为、声音、形象等方面的技术。这种技术可以用于生成虚拟人物、虚拟角色、虚拟明星等，以及为其创建独特的

发表于 01-08 08:28 •1483次阅读

<b class='flag-5'>AI</b><b class='flag-5'>克隆</b>技术可用于创建虚拟人物形象！它的技术原理和发展趋势

求助：需要一个特定物品发出的声音记录系统【某一种声音的计数器】，酬劳感谢

各位大神，小弟有一个需求，就是要记录某一种声音的发生次数，这个声音发生是频率在1秒钟左右，但是不是持续发生，是某一时间发生。就是当这个声音发生后记录，然后对接在我自己开发的系统后来里

发表于 12-24 11:58

首例“AI声音侵权案”，声音AI化用于短视频

电子发烧友网报道（文/李弯弯）AI技术的应用，给我们的生活带来了巨大改变。同时，它的不当使用也带来了侵权、诈骗等风险。近日，北京互联网法院首次组成五人合议庭，依法公开审理全国首例“AI声音侵权案

发表于 12-20 00:28 •1241次阅读

在语音时代，声音深度假音如何分辨？

声音深度假音的创造植根于复杂的人工智能系统，尤其是自动编码器，它可以捕捉和复制人类语言的微妙之处。这些系统不只是克隆声音;他们分析和重现情感变化和特定的语调，使每个声音都独一无二。

发表于 11-14 16:04 •325次阅读

abview声音采集为什么从0.6秒后波形图上才有信号波形？

abview声音采集为什么从0.6秒后波形图上才有信号波形

发表于 10-19 08:24

AI算法有哪些？

AI算法有哪些？随着人工智能技术的不断发展和应用，越来越多的AI算法被发明和应用于各个领域。本文将介绍一些常见难度较低但易于理解的AI

发表于 08-24 15:40 •1947次阅读

AI听键盘声就能偷你密码，准确率高达95%

来源：量子位你没听错，现在键盘敲字也不安全了，简直防不胜防。编辑：感知芯视界无了个大语！以后AI靠听键盘声就能偷你密码，准确率高达95%！最近，来自杜伦大学等三所高校的研究人员训练了个AI

发表于 08-21 09:21 •523次阅读

ai算法和模型的区别

ai算法和模型的区别人工智能（AI）是当今最热门的技术领域之一。虽然AI被广泛应用于各种领域，但其核心是由算法和模型组成的。

发表于 08-08 17:35 •2789次阅读

灰豚AI数字人直播克隆系统源码交付，数字人产业正式迎来普及化

灰豚AI数字人直播克隆系统是利用人工智能加AIGC技术，利用人类的形象将人类克隆成数字人，从意义上讲，人类被克隆成数字人后就获得永生。

发表于 06-19 17:58 •1105次阅读

灰豚<b class='flag-5'>AI</b>数字人直播<b class='flag-5'>克隆</b>系统源码交付，数字人产业正式迎来普及化

Quapple四链路克隆开源分享

电子发烧友网站提供《Quapple四链路克隆开源分享.zip》资料免费下载

发表于 06-07 10:35 •0次下载

首批网红明星AI克隆人上线，一种新商业模式崛起！

电子发烧友网报道（文/李弯弯）日前，小冰公司宣布启动“GPT克隆人计划”，最短只要采集三分钟数据，即可为明星、专家学者或普通人创造源于本人性格、技能、声音、外貌的AI克隆人。同时将提供

发表于 06-06 00:07 •1392次阅读

首批网红明星“AI克隆人”上线

最近，一家人工智能公司表示，已经在中国和日本市场启动了“人工智能克隆人计划”。现在第一个网红明星“ai克隆人”已经提前在线公开。在他的背后，参加ai

发表于 06-05 11:46 •1686次阅读

如何使用定制板上的FlexCAN模块在一秒钟内发送3000个CAN帧？

我写信是想询问我们 i.MX8QM-Apalis-Ixora 板上的 FlexCAN 模块。我们目前正在测试使用 FlexCAN 模块在一秒钟内发送 3000 个 CAN 帧的能力，但我们面临一些

发表于 05-18 06:16

EsP12F运行flash几秒钟然后崩溃了的原因？如何解决？

OLED 屏幕不会瞬间闪烁。 2）有时它会工作几秒钟，例如 1 或 2 秒。几毫秒意味着，我可以看到内置 LED 的瞬间闪烁，也可以在 OLED 上显示几秒钟，然后显示卡住。这种奇怪的行为是由于

发表于 05-15 06:25

搜索历史

AI算法5秒钟就能克隆你的声音

评论