借助深度学习算法实现5秒内克隆你的声音-电子发烧友网

大家应该都知道声音克隆技术，通俗的来说就是借助深度学习算法，可以完全模拟某个人的声音，而且由机器合成的语音连情绪都能够完美表达出来，基本可以以假乱真，只要不见面，你根本就察觉不出来向你发出声音的知识一个机器。

语音克隆最大的创新之一是减少创建语音所需的原始数据量。过去，该系统需要数十甚至数百小时的音频。但是，今天猿妹要和大家分享的这个工具5秒钟就可以克隆成功，这个工具名叫——MockingBird。

MockingBird已经登上Github热榜，收获3.5K的Star，累计分支 303（Github地址：https://github.com/babysor/MockingBird）

MockingBird具有如下特性：

支持普通话并使用多种中文数据集进行测试

适用于 pytorch，已在 1.9.0 版本（最新于 2021 年 8 月）中测试，GPU Tesla T4 和 GTX 2060

支持 Windows + Linux

仅使用新训练的合成器（synthesizer）就有良好效果，复用预训练的编码器/声码器

MockingBird如何使用

MockingBird的安装要求如下：

首先，MockingBird需要Python 3.7 或更高版本

安装 PyTorch

安装 ffmpeg。

运行pip install -r requirements.txt 来安装剩余的必要包。

安装 webrtcvad 用 pip install webrtcvad-wheels。

接着，你需要使用数据集训练合成器：

下载数据集并解压：确保您可以访问 train 文件夹中的所有音频文件（如.wav）

使用音频和梅尔频谱图进行预处理：python synthesizer_preprocess_audio.py 《datasets_root》可以传入参数 --dataset {dataset} 支持 adatatang_200zh， magicdata， aishell3

预处理嵌入：python synthesizer_preprocess_embeds.py 《datasets_root》/SV2TTS/synthesizer

训练合成器：python synthesizer_train.py mandarin 《datasets_root》/SV2TTS/synthesizer

当你在训练文件夹 synthesizer/saved_models/ 中看到注意线显示和损失满足您的需要时，请转到下一步。

使用预先训练好的合成器，如果没有设备或者不想慢慢调试，可以使用网友贡献的模型。

训练声码器

预处理数据： python vocoder_preprocess.py 《datasets_root》

训练声码器： python vocoder_train.py mandarin 《datasets_root》

启动工具箱

然后你可以尝试使用工具箱：python demo_toolbox.py -d 《datasets_root》

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

开源

开源

+关注

关注
3

文章
2985

浏览量
41715
克隆

克隆

+关注

关注
0

文章
22

浏览量
7669
深度学习

深度学习

+关注

关注
73

文章
5235

浏览量
119893

原文标题：5秒内克隆你的声音，并生成任何内容，这个工具细思极恐...还特么的开源~

文章出处：【微信号：AndroidPush，微信公众号：Android编程精选】欢迎添加关注！文章转载请注明出处。

目前主流的深度学习算法模型和应用案例

深度学习在科学计算中获得了广泛的普及，其算法被广泛用于解决复杂问题的行业。所有深度学习算法都使用

发表于 01-03 10:28 •520次阅读

目前主流的<b class='flag-5'>深度</b><b class='flag-5'>学习</b><b class='flag-5'>算法</b>模型和应用案例

主流的深度学习模型有哪些？AI开发工程师必备！

深度学习在科学计算中获得了广泛的普及，其算法被广泛用于解决复杂问题的行业。所有深度学习算法都使用

发表于 12-29 08:26 •669次阅读

主流的<b class='flag-5'>深度</b><b class='flag-5'>学习</b>模型有哪些？AI开发工程师必备！

在语音时代，声音深度假音如何分辨？

声音深度假音的创造植根于复杂的人工智能系统，尤其是自动编码器，它可以捕捉和复制人类语言的微妙之处。这些系统不只是克隆声音;他们分析和重现情感变化和特定的语调，使每个

发表于 11-14 16:04 •325次阅读

深度学习的由来深度学习的经典算法有哪些

深度学习作为机器学习的一个分支，其学习方法可以分为监督学习和无监督学习。两种方法都具有其独特的

发表于 10-09 10:23 •354次阅读

<b class='flag-5'>深度</b><b class='flag-5'>学习</b>的由来 <b class='flag-5'>深度</b><b class='flag-5'>学习</b>的经典<b class='flag-5'>算法</b>有哪些

瑞萨电子深度学习算法在缺陷检测领域的应用

浪费大量的人力成本。因此，越来越多的工程师开始将深度学习算法引入缺陷检测领域，因为深度学习在特征提取和定位方面取得了非常好的效果。

发表于 09-22 12:19 •493次阅读

瑞萨电子<b class='flag-5'>深度</b><b class='flag-5'>学习</b><b class='flag-5'>算法</b>在缺陷检测领域的应用

启英泰伦通话降噪方案，采用深度学习降噪算法，让通话更清晰

的使用体验。启英泰伦通话降噪方案具备以下特点： 1、采用深度学习降噪算法：利用深度神经网络进行模型训练，从而达到降噪效果，让目标声音更清晰

发表于 08-22 17:36

深度学习框架和深度学习算法教程

深度学习框架和深度学习算法教程深度学习是机器

发表于 08-17 16:11 •707次阅读

深度学习算法mlp介绍

深度学习算法mlp介绍深度学习算法是人工智能领域的热门话题。在这个领域中，多层感知机（mul

发表于 08-17 16:11 •2633次阅读

深度学习算法库框架学习

深度学习算法库框架学习深度学习是一种非常强大的机器学习

发表于 08-17 16:11 •432次阅读

深度学习算法的选择建议

深度学习算法的选择建议随着深度学习技术的普及，越来越多的开发者将它应用于各种领域，包括图像识别、自然语言处理、

发表于 08-17 16:11 •379次阅读

深度学习框架的作用是什么

深度学习框架的作用是什么深度学习是一种计算机技术，它利用人工神经网络来模拟人类的学习过程。由于其高度的精确性和精度，

发表于 08-17 16:10 •1155次阅读

什么是深度学习算法？深度学习算法的应用

什么是深度学习算法？深度学习算法的应用深度

发表于 08-17 16:03 •1465次阅读

深度学习算法工程师是做什么

深度学习算法工程师是做什么深度学习算法工程师是一种高级技术人才，是数据科学中创新的推动者，也是

发表于 08-17 16:03 •803次阅读

深度学习算法简介深度学习算法是什么深度学习算法有哪些

深度学习算法简介深度学习算法是什么?深度

发表于 08-17 16:02 •6784次阅读

MATLAB深度学习简介电子书

深度学习是机器学习的一个类型，该类型的模型直接从图像、文本或声音中学习执行分类任务。通常使用神经网络架构

发表于 05-29 09:16 •1次下载

搜索历史

借助深度学习算法实现5秒内克隆你的声音

评论

目前主流的深度学习算法模型和应用案例

主流的深度学习模型有哪些？AI开发工程师必备！

在语音时代，声音深度假音如何分辨？

深度学习的由来深度学习的经典算法有哪些

瑞萨电子深度学习算法在缺陷检测领域的应用

启英泰伦通话降噪方案，采用深度学习降噪算法，让通话更清晰

深度学习框架和深度学习算法教程

深度学习算法mlp介绍

深度学习算法库框架学习

深度学习算法的选择建议

深度学习框架的作用是什么

什么是深度学习算法？深度学习算法的应用

深度学习算法工程师是做什么

深度学习算法简介深度学习算法是什么深度学习算法有哪些

MATLAB深度学习简介电子书