0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音领域的GPT时刻:Meta 发布「突破性」生成式语音系统,一个通用模型解决多项任务

智能感知与物联网技术研究所 来源:未知 2023-06-18 21:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

继开源 LLaMA 之后,Meta 在生成式 AI 方向又公布一项重大研究。

我们知道,GPT、DALL-E 等大规模生成模型彻底改变了自然语言处理和计算机视觉研究。这些模型可以生成高保真文本或图像,而且它们有个重要特点就是「通才」,可以解决没训过的任务。相比之下,语音生成模型在规模和任务泛化方面一直没有「突破性」成果。 今日,Meta 介绍了一种「突破性」的生成式语音系统,它可以合成六种语言的语音,执行噪声消除、内容编辑、转换音频风格等。Meta 称之为最通用的语音生成 AI。

ab49431c-0ddb-11ee-962d-dac502259ad0.png

相关研究论文也已公布。接下来我们具体看下这下项研究。

ab689302-0ddb-11ee-962d-dac502259ad0.png

论文:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/ Meta 表示,Voicebox 是第一个没有经过专门针对语音生成的训练,却可以泛化到语音生成任务的模型。 与图像和文本的生成一样,Voicebox 可以创建多种样式的语音输出,包括从头开始创建输出和修改给定的样本。Voicebox 可以合成六种语言的语音,以及执行噪声去除、内容编辑、风格转换和多样化样本生成。 在 Voicebox 出现之前,生成语音的 AI 需要使用精心准备的训练数据对每项任务进行特定训练。而 Voicebox 仅需要从原始音频和随附的转录文本中学习,并且 Voicebox 可以修改给定样本的任何部分。 Voicebox 基于一种称为流匹配(Flow Matching)的方法,该方法已被证明可以改进扩散模型。 在生成效果方面,Voicebox 的可懂度(词错率:1.9% VS 5.9%)和音频相似度(0.681 VS 0.580)优于当前英文语音生成 SOTA 模型 VALL-E,并且速度快了 20 倍。在跨语言风格迁移任务上,Voicebox 优于 YourTTS,将平均词错率从 10.9% 降低到 5.2%,将音频相似度从 0.335 提高到 0.481。

ab7baaa0-0ddb-11ee-962d-dac502259ad0.png

Voicebox 在词错率指标上的表现优于 Vall-E 和 YourTTS,实现新的 SOTA。

ab87e856-0ddb-11ee-962d-dac502259ad0.png

在英语和多语言基准的音频风格相似度指标上,Voicebox 都取得了新的最佳结果。 语音生成新方法 现有语音合成器的一大主要局限是它们的训练数据都是针对目标任务准备的。这些输入基本都要求是单调的干净数据,也因此难以获取,数据量很有限,并且用这些数据训练出的模型也只能输出单调的声音。 Voicebox 基于流匹配(Flow Matching)模型,这是 Meta 在非自回归生成模型方面的最新进展,其可以学习到文本和语音之间高度非确定性的映射关系。非确定性映射很有用,因为这能让 Voicebox 学习不同的语音数据而无需仔细标注这些变体。也就是说,Voicebox 可以在更多样化的数据上训练,因此可使用数据的范围也大得多。 Meta 训练 Voicebox 时使用的数据来自英语、法语、德语、西班牙语、波兰语、葡萄牙语这六种语言,包含 50000 小时的录音和转录文本以及公共领域的有声书。Voicebox 的训练目标是根据周围语音和某片段的转录文本来预测该片段的语音。学习过基于上下文填充语音之后,该模型就能让其用于各种语音生成任务,包括生成音频录音中的缺失片段(无需重建整个输入)。 Voicebox 的这种多功能性使其可以很好地执行多种不同任务,包括: 基于语境的文本转语音合成:仅需使用长度 2 秒的输入音频样本,Voicebox 就能匹配样本的音频风格并将其用于文本转语音生成。这一能力具有重要的应用前景,比如可以为难以说话的人带来语音表达能力,还能让用户为 NPC 角色和虚拟助手定制声音。 跨语言风格迁移:给定一段语音样本和对应的文本片段,不管是英语、法语、德语,还是西班牙语、波兰语、葡萄牙语,Voicebox 都能以该语言读出该文本。这是一种激动人心的能力,因为这能帮助人们自然而真实地交流 —— 即便他们不说同一种语言。 语音降噪和编辑:Voicebox 的上下文学习能力让它可以在音频录音中生成无缝衔接的片段。要是音频中出现了被噪声污染的片段,它也可以为其重新合成,甚至无需重新录音就能替换原音频中说错的词句。用户可以辨别原始音频中被噪声(比如犬吠声)污染的片段,然后将其裁剪下来,再指示 Voicebox 重新生成该片段。这项能力有望让音频编辑变得非常简单,就像现在流行的图像编辑工具调整图像一样。 多样化的语音采样:Voicebox 学习了多样化的野外数据,所以可以生成就像在现实世界中说话的声音,并且支持上述六种语言。未来,这种能力可用于合成数据,然后用于训练语音助理模型等。Meta 的实验结果表明,基于 Voicebox 合成语音训练的语音识别模型的表现几乎不逊于使用真实语音训练的模型 —— 错误率仅高了 1%;而要是使用之前的文本转语音模型合成的数据训练,错误率会提升 45%-70%。 Meta 表示,Voicebox 作为首个能成功执行任务泛化的高效的多功能模型,将开创一个语音生成式 AI 的新时代。 但 Meta 也没有否认这项技术可能被误用乃至被恶意使用。为了应对这种可能性,降低潜在的风险,Meta 还构建了一种分类器,其宣称可有效分辨真实语音和 VoiceBox 生成的音频。 Voicebox 是生成式 AI 研究的重要一步。具备任务泛化能力的生成式 AI 模型正在催生出涉及文本、图像和视频生成的实际应用,这将让生成式 AI 更上一层楼。 参考内容:https://www.engadget.com/metas-open-source-speech-ai-recognizes-over-4000-spoken-languages-161508200.htmlhttps://ai.facebook.com/blog/voicebox-generative-ai-model-speech/


原文标题:语音领域的GPT时刻:Meta 发布「突破性」生成式语音系统,一个通用模型解决多项任务

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2951

    文章

    48348

    浏览量

    420316

原文标题:语音领域的GPT时刻:Meta 发布「突破性」生成式语音系统,一个通用模型解决多项任务

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    GPT-5震撼发布:AI领域的重大飞跃

    跃升重新定义了人工智能的能力边界。OpenAI首席执行官山姆·奥特曼在发布会上直言:“这不仅是模型的升级,更是通往通用人工智能(AGI)的关键里程碑。”     GPT-5:集成
    的头像 发表于 08-09 07:44 1.1w次阅读
    <b class='flag-5'>GPT</b>-5震撼<b class='flag-5'>发布</b>:AI<b class='flag-5'>领域</b>的重大飞跃

    《多模态大模型 前沿算法与实战应用 第季》精品课程简介

    技术,需要开发者同时具备模态编码、跨模态对齐、系统优化等跨领域能力。从算法原理到项目落地,关键在于理解不同模态的互补,并通过合理的融合策略释放多模态数据的协同价值。随着大模型与多模态
    发表于 05-01 17:46

    文了解语音AI的运作方式

    语音 AI 是对话 AI 的子集,包括可将人类语音转换为文本的自动语音识别 (ASR) 和
    的头像 发表于 02-27 16:10 660次阅读
    <b class='flag-5'>一</b>文了解<b class='flag-5'>语音</b>AI的运作方式

    上海交大发布国产光学大模型Optics GPT

    电子发烧友网综合报道 1月25日,上海交通大学正式推出光学领域垂直大语言模型——Optics GPT(光学大模型),这是款完全自主研发的国
    的头像 发表于 01-26 09:59 2366次阅读
    上海交大<b class='flag-5'>发布</b>国产光学大<b class='flag-5'>模型</b>Optics <b class='flag-5'>GPT</b>

    端侧大模型上车:从“语音助手”到“车内 AI 智能体”的跃迁革命

    2025年,智能汽车的座舱不再只是“语音助手”的舞台,而是搭载生成AI和大语言模型(LLM
    的头像 发表于 01-13 09:10 1090次阅读

    今日看点:消息称已有模组企业调整原定产品规划;华为将发布 AI 领域突破性技术

    华为将发布 AI 领域突破性技术 业内消息指出,华为将于 11 月 21 日发布项 AI 领域
    发表于 11-17 10:47 1383次阅读

    GPT-5.1发布 OpenAI开始拼情商

    OpenAI正式上线了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有网友实测发现OpenAI新发布GPT
    的头像 发表于 11-13 15:49 921次阅读

    openDACS 2025 开源EDA与芯片赛项 赛题七:基于大模型生成原理图设计

    智能生成。 4. 赛题内容 4.1赛题描述 本赛题要求参赛队伍构建合理规模的知识库,运用提示词工程,构建完整的生成原理图设计
    发表于 11-13 11:49

    广州唯创电子WT588E02B-B2语音芯片:支持远程更换语音,引领汽车电子、医疗器械等多领域创新

    推动着多个行业的智能化创新进程。突破性远程语音更换功能,重塑产品维护体验WT588E02B-B2语音芯片的最大亮点在于支持远程语音更换,彻底改变了传统
    的头像 发表于 10-28 08:52 975次阅读
    广州唯创电子WT588E02B-B2<b class='flag-5'>语音</b>芯片:支持远程更换<b class='flag-5'>语音</b>,引领汽车电子、医疗器械等多<b class='flag-5'>领域</b>创新

    突破性创新:WTN6 F系列CMOS语音芯片IC重塑行业性价比标杆

    在成本与性能的平衡中寻求突破,广州唯创电子WTN6F系列以宽电压工作与可重复烧写特性,开启语音芯片应用新纪元01核心技术突破:重新定义语音芯片价值标准1.1革命
    的头像 发表于 10-11 08:48 1510次阅读
    <b class='flag-5'>突破性</b>创新:WTN6 F系列CMOS<b class='flag-5'>语音</b>芯片IC重塑行业性价比标杆

    摩尔线程发布模型训练仿真工具SimuMax v1.0

    近日,摩尔线程正式发布并开源大模型分布训练仿真工具SimuMax 1.0版本。该版本在显存和性能仿真精度上实现突破性提升,同时引入多项关键
    的头像 发表于 09-11 18:19 4041次阅读
    摩尔线程<b class='flag-5'>发布</b>大<b class='flag-5'>模型</b>训练仿真工具SimuMax v1.0

    端到端语音交互数据 精准赋能语音模型进阶

    语音模型从“能识别”向“懂语境”跨越的关键阶段,高质量场景化语音数据已成为制约技术突破的核心瓶颈。传统语音识别数据集采用孤立标注,在
    的头像 发表于 09-11 17:17 935次阅读

    广和通发布自研端侧语音识别大模型FiboASR

    7月,全球领先的无线通信模组及AI解决方案提供商广和通,发布其自主研发的语音识别大模型FiboASR。该模型专为端侧设备上面临的面对面实时对话及多人会议场景深度优化,在低延迟
    的头像 发表于 08-04 11:43 1892次阅读

    EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程

    1Whisper简介Whisper是OpenAI开源的,识别语音识别能力已达到人类水准自动语音识别系统。Whisper作为
    的头像 发表于 07-25 15:21 1087次阅读
    EASY EAl Orin Nano(RK3576) whisper<b class='flag-5'>语音</b>识别训练部署教程

    EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程

    Whisper是OpenAI开源的,识别语音识别能力已达到人类水准自动语音识别系统。Whisper作为
    的头像 发表于 07-17 14:55 2152次阅读
    EASY EAl Orin Nano(RK3576) whisper<b class='flag-5'>语音</b>识别训练部署教程