0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI精确复制声音, 真假“比尔·盖茨”难辨

Gv1N_smartman16 来源:yxw 2019-06-15 10:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日, 脸书的研究人员成功克隆了微软总裁比尔·盖茨的声音。

脸书人工智能研究中心的肖恩·瓦斯奎兹(Sean Vasquez)和迈克·刘易斯(Mike Lewis)于本周表示,他们已经努力模仿人类语言有一段时间了。然而,模仿人类语言显然是件难事,当人们听到斯蒂芬·霍金所使用的那套最著名的说话机器发声时,会发现它听起来仍然很不像人类。

但是现在,研究员们似乎已经取得了进展。如果你听了盖茨的克隆所发出的声音,我想你是会同意的。因为它听起来很像比尔·盖茨,你甚至很难分辨出它和他真实声音的区别。

研究人员展示了他们的研究。在这里,机器模仿着盖茨的腔调发声,“请给你珍爱的朋友发一封充满爱意的短信。”其中最不可思议的是,这台机器在说“珍爱(cherish)”时,准确无误地捕捉到盖茨不断上升的语调变化的。

这项技术被称为MelNet,可以用来复制人类的语调。到目前为止,盖茨和其他许多人的声音都被它完美地再现了。瓦斯奎兹和刘易斯说,克隆的音频取自各类Ted演讲。

两位研究人员还表示,直到最近,文本到语音转换软件还不能很好地工作的原因是它使用了波形图记录声音。这些图显示了声音在几秒钟内的音阶变化。如果你听到过盖茨说“珍爱”这个词,就知道他的语气是变化剧烈的。在试图模仿一个人的时候,深度学习机器必须预测到所有这些细微的变化,这很不容易。

瓦斯奎兹和刘易斯说,他们通过使用一种叫做光谱图的东西来训练机器,成功地克隆了声音。

研究人员说:“光谱图的时间轴比波形图的时间轴紧凑几个数量级,这意味着在波形中跨越数万个时间步长的依赖关系在光谱图中只跨越数百个时间步长。这使得我们的光谱图模型能够在数秒内记录各种语音和音乐样本,并保持它们一致性。”

不过,他们也经历了一些挫折。研究小组表示,对他们来说,几乎完美地复制一个句子并不难,难的是复制那些在长达几十秒或几分钟的时间里,显示了情绪变化的复杂语调”。尽管如此,当涉及到人机交互时,研究小组说,在只涉及简短对话的情境中,这项技术可能会带来革命性的变化。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    40982

    浏览量

    302534
  • 机器学习
    +关注

    关注

    67

    文章

    8561

    浏览量

    137208
  • 智能语音
    +关注

    关注

    11

    文章

    829

    浏览量

    50340

原文标题:AI精确复制声音, 真假“比尔·盖茨”难辨

文章出处:【微信号:smartman163,微信公众号:网易智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    还在手动拼接 AI 代码?你的 IDE 早就该升级了

    的定位是代码编辑与编译,本身不具备 AI 生成与优化能力。开发者进行 AI 相关开发时,不得不同时打开多个工具:一边是编写主程序的 IDE,一边是生成 AI 代码的第三方工具。 ▌ 手动
    发表于 03-11 10:25

    如何查看小智是否成功进入声音设置?

    你可以通过后台页面状态、设备反馈、语音测试三种方式,快速确认小智是否成功进入声音设置并生效。 一、后台页面直接查看(最准) 登录小智AI后台:https://xiaozhi.me/console
    发表于 02-16 06:39

    Transformer 入门:从零理解 AI 大模型的核心原理

    : 身高:175cm 体重:70kg 年龄:25岁 我们可以把这些数字排成一排:[175, 70, 25],这就是一个向量! arduino 体验AI代码助手 代码解读 复制代码 向量就像一张
    发表于 02-10 16:33

    使用NORDIC AI的好处

    运动/手势识别、可穿戴健康监测、预测性维护、楼宇与工业传感网络本地分析、声音/关键词/图像识别等,都有官方明确提到的典型用例。[Unlock Edge AI 博客; Nordic Edge AI 技术页]
    发表于 01-31 23:16

    纯4G?血版AI小智产品方案 #小智AI #AI方案商 #4G通话 #AI终端产品

    AI
    不太正经的攻城狮
    发布于 :2025年12月21日 14:36:55

    IC声音放大芯片怎么焊接区分啊,好小感觉四面都一样?

    想做一个简单的基于ESP32的AI语音识别助手,焊接好的声音输出一直是000。
    发表于 12-09 22:08

    【CPKCOR-RA8D1】关于AI人脸检测移植遇到的一些问题

    /MainLoop_obj.cc、src/ai_apps/common/Main.cc 等文件已复制到项目并未被排除在构建之外。 确认工程配置包含 C++ 编译器 设置,并在 C++ 编译选项加入 -std=c++11(或更高
    发表于 10-31 13:39

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    释放声音的维度:高性能评估板为沉浸式音频体验快速便捷构建声场工具

    A316-V71-Game-V1是一款基于XMOS XU316技术的虚拟7.1游戏声卡评估平台,能够将立体声音频转换为虚拟7.1声道环绕声,为游戏玩家提供身临其境的音频体验,帮助精确定位游戏中的声音方向。
    的头像 发表于 09-30 14:14 538次阅读
    释放<b class='flag-5'>声音</b>的维度:高性能评估板为沉浸式音频体验快速便捷构建声场工具

    如何进行声音定位?

    文章主要介绍了如何利用一种简单的TDOA算法进行声音点位,并使用数据采集卡进行声音定位的实验。
    的头像 发表于 09-23 15:47 2111次阅读
    如何进行<b class='flag-5'>声音</b>定位?

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    复制人类智能的AI---AGI。 走向AGI的五个层次发现阶段: ①L1,聊天机器人:具备基础的对话能力,能够理解和回应简单的文本输入 ②L2,推理者:具备基本的逻辑推理能力,能够分析复杂信息并进行推断
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五个范式了,与实验科学、理论科学、计算科学、数据驱动科学一起构成
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    的不同。随着AI热潮的兴起,大脑的抽象模型已被提炼成各种的AI算法,并使用半导体芯片技术加以实现。 而大脑是一个由无数神经元通过突触连接而成的复杂网络,是极其复杂和精密的。大脑在本质上就是一台湿润的软组织
    发表于 09-06 19:12

    声源定位模块-AR1105# 声源定位# 声音定位

    声音降噪
    深圳市声讯电子有限公司
    发布于 :2025年08月01日 16:01:09

    正点原子 AI BOX0 智能伴侣,1.54寸高清屏+长效续航,语音畅聊,情景对话,知识科普,多色可选,随身携带!

    品非它莫属! 为什么选择小智AI? 真人级交互体验 ① AI情感对话:不止问答,更能陪你聊心事、讲笑话,像朋友一样懂你! ② 10+音色百变:温柔御姐、萌趣童声、磁性男神… 每天换一种声音陪伴
    发表于 04-24 16:11