0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

借助深度学习算法实现5秒内克隆你的声音

Android编程精选 来源:开源前线整理 作者:开源前线整理 2021-09-29 11:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大家应该都知道声音克隆技术,通俗的来说就是借助深度学习算法,可以完全模拟某个人的声音,而且由机器合成的语音连情绪都能够完美表达出来,基本可以以假乱真,只要不见面,你根本就察觉不出来向你发出声音的知识一个机器。

语音克隆最大的创新之一是减少创建语音所需的原始数据量。过去,该系统需要数十甚至数百小时的音频。但是,今天猿妹要和大家分享的这个工具5秒钟就可以克隆成功,这个工具名叫——MockingBird。

MockingBird已经登上Github热榜,收获3.5K的Star,累计分支 303(Github地址:https://github.com/babysor/MockingBird)

MockingBird具有如下特性:

支持普通话并使用多种中文数据集进行测试

适用于 pytorch,已在 1.9.0 版本(最新于 2021 年 8 月)中测试,GPU Tesla T4 和 GTX 2060

支持 Windows + Linux

仅使用新训练的合成器(synthesizer)就有良好效果,复用预训练的编码器/声码器

MockingBird如何使用

MockingBird的安装要求如下:

首先,MockingBird需要Python 3.7 或更高版本

安装 PyTorch

安装 ffmpeg。

运行pip install -r requirements.txt 来安装剩余的必要包。

安装 webrtcvad 用 pip install webrtcvad-wheels。

接着,你需要使用数据集训练合成器:

下载 数据集并解压:确保您可以访问 train 文件夹中的所有音频文件(如.wav)

使用音频和梅尔频谱图进行预处理:python synthesizer_preprocess_audio.py 《datasets_root》 可以传入参数 --dataset {dataset} 支持 adatatang_200zh, magicdata, aishell3

预处理嵌入:python synthesizer_preprocess_embeds.py 《datasets_root》/SV2TTS/synthesizer

训练合成器:python synthesizer_train.py mandarin 《datasets_root》/SV2TTS/synthesizer

当你在训练文件夹 synthesizer/saved_models/ 中看到注意线显示和损失满足您的需要时,请转到下一步。

使用预先训练好的合成器,如果没有设备或者不想慢慢调试,可以使用网友贡献的模型。

训练声码器

预处理数据: python vocoder_preprocess.py 《datasets_root》

训练声码器: python vocoder_train.py mandarin 《datasets_root》

启动工具箱

然后你可以尝试使用工具箱:python demo_toolbox.py -d 《datasets_root》

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4031

    浏览量

    45568
  • 克隆
    +关注

    关注

    0

    文章

    22

    浏览量

    8003
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123905

原文标题:5秒内克隆你的声音,并生成任何内容,这个工具细思极恐...还特么的开源~

文章出处:【微信号:AndroidPush,微信公众号:Android编程精选】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    行业市场具备深度学习能力的视觉系统占比已突破40%,催生大量复合型技术岗位需求: • 岗位缺口:视觉算法工程师全国缺口15万+,缺陷检测专项人才招聘响应率仅32% • 薪资水平:掌握LabVIEW+
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战可(11大系列课程,共5000+分钟)

    领域主流开发环境,LabVIEW与深度学习的集成一直是行业痛点。课程提供独家开发的labview调用框架,实现从模型训练(Python)到部署(LabVIEW)的无缝衔接,已成功应用于DIP、AOI
    发表于 12-03 13:50

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于学习的外观质量标
    的头像 发表于 11-27 10:19 54次阅读

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保护科学

    Cat M-1 用于遥测/连接。 用于边缘处理和机器学习的 ARMSoM 计算模块 (CM5)。 项目背景 []() 通过聆听自然界的声音,我们可以监测动物之间的交流方式,并获得基本的基线数据,从而
    发表于 10-27 09:18

    重大更新,LVGL有UI编辑器用了,2秒内加载,快到飞起!

    凭借对平台的深度适配与轻量化优势,成为图形界面开发的最优解。LVGL与Linux系统的高度协同性,完美平衡了开发效率与硬件资源占用,适配从ARM到X86再到RISC
    的头像 发表于 10-21 12:58 1076次阅读
    重大更新,LVGL有UI编辑器用了,2<b class='flag-5'>秒内</b>加载,快到飞起!

    思必驰声音转换算法通过国家备案

    近日,国家互联网信息办公室公告第十三批深度合成服务算法备案信息,思必驰声音转换算法通过备案,这也是思必驰第7项通过备案的算法,标志着思必驰在
    的头像 发表于 09-18 14:05 684次阅读

    零基础在智能硬件上克隆原神可莉实现桌面陪伴(提供人设提示词、知识库、固件下载)

    个步骤:1、创建智能体:配置可莉的基础信息2、声音复刻:克隆可莉的声音3、配置知识库:配置可莉和嘟嘟可的背景、故事经历、语录等知识库 4、自定义唤醒词:修改唤醒词和唤醒回复语 (篇尾提供修改了唤醒词
    发表于 08-22 19:51

    思必驰声音复刻算法获得深度合成服务算法备案

    近日,国家互联网信息办公室正式发布第十二批深度合成服务算法备案信息,思必驰声音复刻算法通过此次备案。该算法能够高精度复刻人类
    的头像 发表于 07-31 17:42 690次阅读

    思必驰7月份大事件回顾

    近日,思必驰声音复刻算法通过国家互联网信息办公室第十二批深度合成服务算法备案。该算法能够高精度复刻人类
    的头像 发表于 07-28 17:52 615次阅读

    【高云GW5AT-LV60 开发套件试用体验】基于开发板进行深度学习实践,并尽量实现皮肤病理图片的识别,第二阶段

    算法一个一个的去用verilog实现,我还是有点吃力的?因为我有几个问题还没有弄清楚? 1、图像的采集,保存,以及相关处理,以便符合后续model的需要? 当然谈到model,这里有好多可以
    发表于 06-23 18:37

    正点原子 AI BOX0 智能伴侣,1.54寸高清屏+长效续航,语音畅聊,情景对话,知识科普,多色可选,随身携带!

    ! ③ 声音克隆黑科技:录制声音,定制专属家人的声音,异地也能温暖相伴! 全场景覆盖的神器 ① 学习加速器:孩子作业辅导、英语对话练习、百科
    发表于 04-24 16:11

    SDK如何控制DLP4500在一秒内投影60张图片?

    如何利用SDK进行二次开发,实现的功能为,控制DLP4500在一秒内投影60张图片,相机(灰点)同步拍摄。请问可以提供一下参考程序代码吗?
    发表于 02-25 07:58

    军事应用中深度学习的挑战与机遇

    人工智能尤其是深度学习技术的最新进展,加速了不同应用领域的创新与发展。深度学习技术的发展深刻影响了军事发展趋势,导致战争形式和模式发生重大变化。本文将概述
    的头像 发表于 02-14 11:15 818次阅读

    BP神经网络与深度学习的关系

    ),是一种多层前馈神经网络,它通过反向传播算法进行训练。BP神经网络由输入层、一个或多个隐藏层和输出层组成,通过逐层递减的方式调整网络权重,目的是最小化网络的输出误差。 二、深度学习的定义与发展
    的头像 发表于 02-12 15:15 1340次阅读

    AI自动化生产:深度学习在质量控制中的应用

    随着科技的飞速发展,人工智能(AI)与深度学习技术正逐步渗透到各个行业,特别是在自动化生产中,其潜力与价值愈发凸显。深度学习软件不仅使人工和基于规则的
    的头像 发表于 01-17 16:35 1210次阅读
    AI自动化生产:<b class='flag-5'>深度</b><b class='flag-5'>学习</b>在质量控制中的应用