0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI算法5秒钟就能克隆你的声音

Linux爱好者 来源:Jack Cui 作者:Jack Cui 2021-11-17 10:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今天,给大家介绍一个算法

AI 算法 5 秒钟,就能克隆你的声音,你信吗?

听听这段音频,猜猜看是 AI 合成音,还是真人录音?

答案是:AI 合成。

这个人的原始声音在这里:

你给这个 AI 克隆声音的算法打几分?

录制一段音频,就可以根据输入的文字,5s 即可自动生成对应的合成音。

突然有个大胆的想法,你说女朋友要是哪天突然不承认自己说过了某句话,我就给她造一份!

兄弟们,我做的对吗?

MockingBird这个算法是基于比较著名的 Real Time Voice Cloning 实现的。

MockingBird 是最近开源的中文版。

论文的名字是:

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

简单介绍下:

算法分为三个模块:encoder模块、systhesis模块、vocoder模块。

encoder模块将说话人的声音转换成人声的数字编码(speaker embedding)

synthesis 模块将文本转换成梅尔频谱(mel-spectrogram

vocoder模块将梅尔频谱(mel-spectrogram)转换成(波形)waveform

具体的算法原理,大家可以先看论文:

https://arxiv.org/pdf/1806.04558.pdf

今天主要聊聊,这个算法怎么玩。

项目地址:https://github.com/babysor/MockingBird

深度学习基础的话,这个应该不难。

就是部署环境,分四步:

Anaconda 配置 Pytorch 开发环境

根据项目 requirements.txt 安装第三方库依赖

下载权重文件

下载训练集,这个几十G,有点大

具体的配置方法,直接看这里:

https://github.com/babysor/MockingBird/blob/main/README-CN.md

环境搭建搞定后,就可以运行代码了。

有两种模式可以启动,Web 模式和工具箱模式。

在项目根目录运行:

python web.py

即可开启 Web ,打开地址 http://localhost:8080 就能操作了。

这个界面比较简陋,建议使用工具箱模式。

python demo_toolbox.py -d 《datasets_root》

datasets_root就是下载好的数据集的地址。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音
    +关注

    关注

    3

    文章

    403

    浏览量

    39487
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296463

原文标题:危险!我克隆了女朋友的声音

文章出处:【微信号:LinuxHub,微信公众号:Linux爱好者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何进行声音定位?

    文章主要介绍了如何利用一种简单的TDOA算法进行声音点位,并使用数据采集卡进行声音定位的实验。
    的头像 发表于 09-23 15:47 1044次阅读
    如何进行<b class='flag-5'>声音</b>定位?

    思必驰声音转换算法通过国家备案

    近日,国家互联网信息办公室公告第十三批深度合成服务算法备案信息,思必驰声音转换算法通过备案,这也是思必驰第7项通过备案的算法,标志着思必驰在人工智能
    的头像 发表于 09-18 14:05 676次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    当今社会,AI已经发展很迅速了,但是了解AI的发展历程吗?本章作者将为我们打开AI的发展历程以及需求和挑战的面纱。 从2017年开始生成式AI
    发表于 09-12 16:07

    零基础在智能硬件上克隆原神可莉实现桌面陪伴(提供人设提示词、知识库、固件下载)

    个步骤:1、创建智能体:配置可莉的基础信息2、声音复刻:克隆可莉的声音3、配置知识库:配置可莉和嘟嘟可的背景、故事经历、语录等知识库 4、自定义唤醒词:修改唤醒词和唤醒回复语 (篇尾提供修改了唤醒词
    发表于 08-22 19:51

    思必驰声音复刻算法获得深度合成服务算法备案

    近日,国家互联网信息办公室正式发布第十二批深度合成服务算法备案信息,思必驰声音复刻算法通过此次备案。该算法能够高精度复刻人类声音,为个性化语
    的头像 发表于 07-31 17:42 681次阅读

    AI的未来,属于那些既能写代码,又能焊电路的“双栖人才”

    在WAIC的产业对接会上,我们和多位用人单位交流,有几个共同的声音:“招算法工程师容易,招一个能干硬件又懂部署的工程师太难了。”“AI正从软件产业变成硬件产业,堆算力的时代已经过去了。”“产业未来真正
    发表于 07-30 16:15

    思必驰7月份大事件回顾

    近日,思必驰声音复刻算法通过国家互联网信息办公室第十二批深度合成服务算法备案。该算法能够高精度复刻人类声音,通过少量的录音训练得到极为相似的
    的头像 发表于 07-28 17:52 610次阅读

    AP-0316 语音模组:不止是降噪神器,更是即插即用的 USB 声卡全能王

    ,还是带 USB 口的智能设备,插上 AP-0316 就能被识别为 USB 声卡,WIN / 安卓 / Linux 全兼容,免驱直连。无需懂电路设计,不用调复杂参数,5 完成连接 —— 麦克风接入、喇叭
    发表于 07-18 10:06

    为何时钟晶振用32.768kHz怎么定义一秒钟

    在电子设备的时钟系统中,32.768kHz的晶振极为常见,它的应用与精确计时紧密相连。要理解为何选用这个频率,以及它如何定义一秒钟,需要从时间计量的基本原理和电子电路的特性入手。 32.768kHz
    的头像 发表于 07-01 11:00 789次阅读
    为何时钟晶振用32.768kHz怎么定义一<b class='flag-5'>秒钟</b>

    声纹解锁个性化!启明云端硅思物语AI平台让设备“认准声音

    启明云端依托旗下硅思物语AI平台,通过声纹采集技术,在ESP32-S3潮玩手办伴侣上构建的个性化智能助手的真实落地应用场景。声纹采集:声音就是“生物密码”什么是声纹?声纹如同指
    的头像 发表于 06-17 18:02 1147次阅读
    声纹解锁个性化!启明云端硅思物语<b class='flag-5'>AI</b>平台让设备“认准<b class='flag-5'>你</b>的<b class='flag-5'>声音</b>”

    正点原子 AI BOX0 智能伴侣,1.54寸高清屏+长效续航,语音畅聊,情景对话,知识科普,多色可选,随身携带!

    正点原子 AI BOX0携小智AI来袭,专属的智能伴侣!的全能AI伙伴,懂你更贴心 正点原子ESP32
    发表于 04-24 16:11

    Arm与Stability AI携手合作加快文本转音频的响应速度

    ”,几秒钟后,的设备就会为生成合适的声音,甚至无需联网就可实现。得益于 Arm 和 Stability AI 的新合作,这种完全在端侧直
    的头像 发表于 03-25 15:54 693次阅读

    AI算法托管平台是什么

    AI算法托管平台是一种提供AI模型运行、管理和优化等服务的云端或边缘计算平台。下面,AI部落小编带您详细了解AI
    的头像 发表于 03-06 10:22 838次阅读

    商汤科技AI生产力工具重磅升级

    截图、输入、发送,10秒钟,一个网页复刻成功。
    的头像 发表于 02-25 17:17 889次阅读

    AI赋能边缘网关:开启智能时代的新蓝海

    中,把握技术趋势、深耕应用场景的企业将赢得先机。随着5G网络的普及和AI算法的持续优化,AI边缘网关将在更多领域展现其价值,推动产业智能化升级,创造新的商业奇迹。
    发表于 02-15 11:41