0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI算法5秒钟就能克隆你的声音

Linux爱好者 来源:Jack Cui 作者:Jack Cui 2021-11-17 10:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今天,给大家介绍一个算法

AI 算法 5 秒钟,就能克隆你的声音,你信吗?

听听这段音频,猜猜看是 AI 合成音,还是真人录音?

答案是:AI 合成。

这个人的原始声音在这里:

你给这个 AI 克隆声音的算法打几分?

录制一段音频,就可以根据输入的文字,5s 即可自动生成对应的合成音。

突然有个大胆的想法,你说女朋友要是哪天突然不承认自己说过了某句话,我就给她造一份!

兄弟们,我做的对吗?

MockingBird这个算法是基于比较著名的 Real Time Voice Cloning 实现的。

MockingBird 是最近开源的中文版。

论文的名字是:

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

简单介绍下:

算法分为三个模块:encoder模块、systhesis模块、vocoder模块。

encoder模块将说话人的声音转换成人声的数字编码(speaker embedding)

synthesis 模块将文本转换成梅尔频谱(mel-spectrogram

vocoder模块将梅尔频谱(mel-spectrogram)转换成(波形)waveform

具体的算法原理,大家可以先看论文:

https://arxiv.org/pdf/1806.04558.pdf

今天主要聊聊,这个算法怎么玩。

项目地址:https://github.com/babysor/MockingBird

深度学习基础的话,这个应该不难。

就是部署环境,分四步:

Anaconda 配置 Pytorch 开发环境

根据项目 requirements.txt 安装第三方库依赖

下载权重文件

下载训练集,这个几十G,有点大

具体的配置方法,直接看这里:

https://github.com/babysor/MockingBird/blob/main/README-CN.md

环境搭建搞定后,就可以运行代码了。

有两种模式可以启动,Web 模式和工具箱模式。

在项目根目录运行:

python web.py

即可开启 Web ,打开地址 http://localhost:8080 就能操作了。

这个界面比较简陋,建议使用工具箱模式。

python demo_toolbox.py -d 《datasets_root》

datasets_root就是下载好的数据集的地址。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音
    +关注

    关注

    3

    文章

    407

    浏览量

    40091
  • AI
    AI
    +关注

    关注

    91

    文章

    41138

    浏览量

    302608

原文标题:危险!我克隆了女朋友的声音

文章出处:【微信号:LinuxHub,微信公众号:Linux爱好者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    还在手动拼接 AI 代码?的 IDE 早就该升级了

    的专用IDE——PPEC Workbench,让AI开发从繁琐拼接回归高效便捷,为嵌入式开发开启全新效率革命。 一、传统IDE中AI应用的核心痛点 嵌入式开发的核心价值,在于工业控制业务逻辑设计、核心算法
    发表于 03-11 10:25

    如何查看小智是否成功进入声音设置?

    可以通过后台页面状态、设备反馈、语音测试三种方式,快速确认小智是否成功进入声音设置并生效。 一、后台页面直接查看(最准) 登录小智AI后台:https://xiaozhi.me/console
    发表于 02-16 06:39

    欢迎使用中国香河英茂科工豆包智能体

    、决策 1. 用豆包快速创建(5分钟) 打开豆包App/网页 → 右上角「+」→ 创建AI智能体 填名称:如「张三的分身」 粘贴设定描述(提示词模板): 是我的AI分身,性格:严谨/
    发表于 02-14 07:22

    使用NORDIC AI的好处

    <5 KB),可在任何 Nordic SoC/SiP 的主 CPU 上运行,适合加速度计、IMU、PPG、温度、电流等时序传感器数据的 AI 任务。[Nordic Edge AI 技术页
    发表于 01-31 23:16

    如何进行声音定位?

    文章主要介绍了如何利用一种简单的TDOA算法进行声音点位,并使用数据采集卡进行声音定位的实验。
    的头像 发表于 09-23 15:47 2135次阅读
    如何进行<b class='flag-5'>声音</b>定位?

    思必驰声音转换算法通过国家备案

    近日,国家互联网信息办公室公告第十三批深度合成服务算法备案信息,思必驰声音转换算法通过备案,这也是思必驰第7项通过备案的算法,标志着思必驰在人工智能
    的头像 发表于 09-18 14:05 1107次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    当今社会,AI已经发展很迅速了,但是了解AI的发展历程吗?本章作者将为我们打开AI的发展历程以及需求和挑战的面纱。 从2017年开始生成式AI
    发表于 09-12 16:07

    零基础在智能硬件上克隆原神可莉实现桌面陪伴(提供人设提示词、知识库、固件下载)

    个步骤:1、创建智能体:配置可莉的基础信息2、声音复刻:克隆可莉的声音3、配置知识库:配置可莉和嘟嘟可的背景、故事经历、语录等知识库 4、自定义唤醒词:修改唤醒词和唤醒回复语 (篇尾提供修改了唤醒词
    发表于 08-22 19:51

    思必驰声音复刻算法获得深度合成服务算法备案

    近日,国家互联网信息办公室正式发布第十二批深度合成服务算法备案信息,思必驰声音复刻算法通过此次备案。该算法能够高精度复刻人类声音,为个性化语
    的头像 发表于 07-31 17:42 1012次阅读

    AI的未来,属于那些既能写代码,又能焊电路的“双栖人才”

    在WAIC的产业对接会上,我们和多位用人单位交流,有几个共同的声音:“招算法工程师容易,招一个能干硬件又懂部署的工程师太难了。”“AI正从软件产业变成硬件产业,堆算力的时代已经过去了。”“产业未来真正
    发表于 07-30 16:15

    思必驰7月份大事件回顾

    近日,思必驰声音复刻算法通过国家互联网信息办公室第十二批深度合成服务算法备案。该算法能够高精度复刻人类声音,通过少量的录音训练得到极为相似的
    的头像 发表于 07-28 17:52 912次阅读

    AP-0316 语音模组:不止是降噪神器,更是即插即用的 USB 声卡全能王

    ,还是带 USB 口的智能设备,插上 AP-0316 就能被识别为 USB 声卡,WIN / 安卓 / Linux 全兼容,免驱直连。无需懂电路设计,不用调复杂参数,5 完成连接 —— 麦克风接入、喇叭
    发表于 07-18 10:06

    为何时钟晶振用32.768kHz怎么定义一秒钟

    在电子设备的时钟系统中,32.768kHz的晶振极为常见,它的应用与精确计时紧密相连。要理解为何选用这个频率,以及它如何定义一秒钟,需要从时间计量的基本原理和电子电路的特性入手。 32.768kHz
    的头像 发表于 07-01 11:00 1334次阅读
    为何时钟晶振用32.768kHz怎么定义一<b class='flag-5'>秒钟</b>

    声纹解锁个性化!启明云端硅思物语AI平台让设备“认准声音

    启明云端依托旗下硅思物语AI平台,通过声纹采集技术,在ESP32-S3潮玩手办伴侣上构建的个性化智能助手的真实落地应用场景。声纹采集:声音就是“生物密码”什么是声纹?声纹如同指
    的头像 发表于 06-17 18:02 1807次阅读
    声纹解锁个性化!启明云端硅思物语<b class='flag-5'>AI</b>平台让设备“认准<b class='flag-5'>你</b>的<b class='flag-5'>声音</b>”