0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

能够直接翻译两种语言间语音的模型

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2021-10-26 15:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

语音转语音翻译 (S2ST) 是打破世界各地人与人之间语言障碍的关键。自动 S2ST 系统通常由语音识别、机器翻译和语音合成子系统级联组成。然而,此类级联系统可能会面临较长的延迟、信息(尤其是副语言和非语言信息)丢失,以及各子系统之间的错误叠加等问题。

2019 年,我们推出了 Translatotron,这是首款能够直接翻译两种语言间语音的模型。此款直接 S2ST 模型能够有效地进行端到端训练,并拥有一个独特功能——在生成的翻译语音中保留源说话者声音(非语言信息)。

Translatotron

https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html

不过,尽管该模型能够生成听起来自然的高保真翻译语音,但与强大的基准级联 S2ST 系统(例如,由语音转文字直接翻译模型[1、2]和 Tacotron 2 TTS 模型组成的系统)相比,其表现仍然欠佳。

1

https://arxiv.org/abs/1703.08581

2

https://arxiv.org/abs/1811.02050

Tacotron 2

https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html

在“Translatotron 2:稳健的语音转语音直接翻译 (Translatotron 2:Robust direct speech-to-speech translation)” 一文中,我们介绍了 Translatotron 的一个改进版本。该版本的表现得到显著提高,同时我们还应用了一种新的方法来将源说话者的声音转换到翻译的语音中。即使输入语音中存在多位说话者轮流说话的情况,经过修订的语音转换方法也能取得成功,同时还能减少滥用的可能性,并且更加符合我们的 AI 原则。使用三个不同语料库进行的实验一致表明,Translatotron 2 在翻译质量、语音自然度和语音稳健性方面的表现明显优于原始版本 Translatotron。

Translatotron 2:稳健的语音转语音直接翻译

https://arxiv.org/abs/2107.08661

AI 原则

https://ai.google/responsibilities/

Translatotron 2

Translatotron 2 由四个主要组件组成:语音编码器、目标音素 (Phoneme) 解码器、目标语音合成器,以及将它们连接起来的注意力模块。编码器、注意力模块和解码器的组合类似于典型的语音转文字直接翻译 (ST) 模型。合成器则使用编码器和注意力模块的输出作为条件。

Translatotron 2 的模型架构

(将西班牙语语音翻译为英语语音)

相较于 Translatotron ,Translatotron 2 的更高表现主要源于以下三点新变化:

1. 尽管在原始版本 Translatotron 中,目标音素解码器的输出仅用作辅助损失使用,但在 Translatotron 2 中,它是声谱图合成器的输入之一。这一强大条件使 Translatotron 2 更易于训练,且表现更好。

2. 与 Tacotron 2 TTS 模型类似,原始版本 Translatotron 中的声谱图合成器基于注意力,因此其也存在类似 Tacotron 2 所表现出的稳健性问题。相比之下,Translatotron 2 中使用的是基于持续时间的声谱图合成器(类似于 Non-Attentive Tacotron 使用的声谱图合成器),这能够大大提高合成语音的稳健性。

3. Translatotron 和 Translatotron 2,都使用基于注意力的连接到编码的源语音。然而,在 Translatotron 2 中,这种基于注意力的连接由音素解码器而非声谱图合成器驱动,这确保了声谱图合成器所获取的声学信息与其合成的翻译内容相一致,从而有助于在不同说话者轮流说话时保留每位说话者的声音。

更强大、更负责任的声音保留

原始版本 Translatotron 能够在生成的翻译语音中保留源说话者的声音,方法是将其解码器限定于由单独训练的说话者编码器生成的说话者嵌入向量之上。然而,如果使用目标说话者的录音片段作为说话者编码器的参考音频,或者目标说话者的嵌入向量直接可用,则这种方法还能以不同说话者的声音生成翻译后的语音。虽然这一功能非常强大,但有可能遭到滥用,如使用任意内容制作欺诈音频,这会给生产部署带来问题。

为解决这一问题,Translatotron 2 这样设计:只使用一个语音编码器,该编码器同时负责语言理解和语音录制。这样,训练后的模型便无法用于重现非源语音。这种方法也可以应用于原始版本 Translatotron。

为了在翻译过程中保留说话者的声音,研究人员通常倾向于使用两端都是同一位说话者声音的平行说话内容来训练 S2ST 模型。这样一个两边都有人类录音的数据集很难收集,因为它需要大量流利的双语使用者。为了避免这一难题,我们使用了 PnG NAT 的修改版本,这是一种能够跨语言语音转换来合成此类训练目标的 TTS 模型。我们的修改版 PnG NAT 模型采用了与旧版 TTS 工作方式相同(即使用的策略与原始版本 Translatotron 相同)的单独训练的说话者编码器,因此能够实现零样本语音传输。

旧版 TTS 工作方式

https://arxiv.org/abs/1806.04558

以下是使用 Translatotron 2 进行语音转语音直接翻译的示例,其中保留了源说话者的声音:

输入(西班牙语):

TTS 合成的参考音频(英语):

Translatotron 2 预测(英语):

Translatotron 预测(英语):

当输入语音包含多个说话者轮流说话时,为了使 S2ST 模型能够在翻译后的语音中保留每个说话者的声音,我们提出了一种简单的基于串联的数据增强技术,称为 ConcatAug。该方法会对成对的训练示例随机采样,并将源语音、目标语音和目标音素序列串联成新的训练示例,以增强训练数据。由此得到的样本在源语音和目标语音中都包含两位说话者的声音,这使模型能够根据不同说话者轮流说话的示例进行学习。以下来自 Translatotron 2 的音频样本展示了不同说话者轮流说话的场景:

输入(西班牙语):

TTS 合成的参考音频(英语):

Translatotron 2(采用 ConcatAug)预测(英语):

Translatotron 2(未采用 ConcatAug)预测(英语):

点击此处获取更多音频样本。

此处

https://google-research.github.io/lingvo-lab/translatotron2/

表现

在我们衡量的各个方面,Translatotron 2 的表现都大大优于原始版本 Translatotron:更高的翻译质量(以 BLEU 衡量,数值越高越好),更好的语音自然度(以 MOS 衡量,数值越高越好),以及更强的语音稳健性(以 UDR 衡量,数值越低越好)。它在难度更大的 Fisher 语料库上表现尤为出色。Translatotron 2 在翻译质量和语音质量方面的表现接近强大的基准级联系统,并且在语音稳健性方面优于级联基准。

UDR

https://arxiv.org/abs/2010.04301

Fisher 语料库

https://catalog.ldc.upenn.edu/LDC2014T23

使用两个西班牙语-英语语料库评估的翻译质量

(以 BLEU 衡量,数值越高越好)

使用两个西班牙语-英语语料库评估的语音自然度

(以 MOS 衡量,数值越高越好)

使用两个西班牙语-英语语料库评估的语音稳健性

(以 UDR 衡量,数值越低越好)

多语言语音翻译

除了西班牙语到英语的 S2ST,我们还评估了 Translatotron 2 在多语言情境中的表现,该模型接收四种不同语言的语音输入并将其翻译为英语。由于事先未提供输入语音的语言,这迫使模型需要自行检测语言。

源语言frdeesca

Translatotron 2 27.018.827.722.5

Translatotron18.910.818.813.9

ST(Wang

等人,2020)27.018.928.023.9

训练目标 82.186.085.189.3

使用 CoVoST 2 语料库评估的多语言 X=》En S2ST 表现

Wang 等人

https://arxiv.org/abs/2007.10310

CoVoST 2

https://arxiv.org/abs/2007.10310

在此任务中,Translatotron 2 的表现同样明显优于原始版本 Translatotron。尽管 S2ST 和 ST 之间的结果没有直接可比性,但接近的数字表明Translatotron 2的翻译质量与基准语音转文字翻译模型相当。这些结果表明,Translatotron 2 在多语言 S2ST 上也非常有效。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音
    +关注

    关注

    3

    文章

    403

    浏览量

    39488
  • AI
    AI
    +关注

    关注

    89

    文章

    38091

    浏览量

    296578
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51712

原文标题:Translatotron 2:高质量、稳健、负责任的语音转语音直接翻译

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    视美泰发布AI即时翻译机解决方案,硬核配置+多语种覆盖破解跨语言沟通难题

    、机器翻译语音合成和大模型四项能力构建高效同声传译链路,实现70+语言全覆盖的强大能力,为跨境商贸、文化交流、户外出行等场景提供高效精准
    的头像 发表于 12-03 10:50 572次阅读
    视美泰发布AI即时<b class='flag-5'>翻译</b>机解决方案,硬核配置+多语种覆盖破解跨<b class='flag-5'>语言</b>沟通难题

    使用Firebase AI Logic生成图像模型两种新功能

    为您的应用添加自定义图像,能够显著改善和个性化用户体验,有效提高用户参与度。本文将探讨使用 Firebase AI Logic 生成图像的两种新功能: 其一是 Imagen 专属编辑功能预览版;其二
    的头像 发表于 11-30 09:28 208次阅读

    两种散热路径的工艺与应用解析

    背景:两种常见的散热设计思路 在大电流或高功率器件应用中,散热和载流能力是PCB设计中必须解决的难题。常见的两种思路分别是: 厚铜板方案:通过整体增加铜箔厚度(如3oz、6oz甚至更高),增强导热
    的头像 发表于 09-15 14:50 462次阅读

    国庆出国游,时空壶新T1翻译机,首个端侧模型突破助力跨语言交流

    国庆将至,众多游客计划出国旅行,跨语言交流的顺畅与否成为影响旅行体验的重要因素。时空壶新T1翻译机作为行业技术领先产品,凭借其独特优势,为游客在海外的沟通交流保驾护航。新T1作为时空壶翻译机品类中
    的头像 发表于 09-12 12:20 830次阅读
    国庆出国游,时空壶新T1<b class='flag-5'>翻译</b>机,首个端侧<b class='flag-5'>模型</b>突破助力跨<b class='flag-5'>语言</b>交流

    翻译失去网络,时空壶新T1翻译机开创首个离线模型赋能全球沟通新体验

    在全球化交流日益紧密的当下,跨语言沟通工具的重要性愈发凸显。近日,时空壶推出的T1翻译机凭借其强大的离线模型与便捷应用,成为市场焦点,为人们在跨国交流场景中带来前所未有的便利。时空壶T1翻译
    的头像 发表于 09-08 16:52 909次阅读
    当<b class='flag-5'>翻译</b>失去网络,时空壶新T1<b class='flag-5'>翻译</b>机开创首个离线<b class='flag-5'>模型</b>赋能全球沟通新体验

    广和通发布自研端侧语音识别大模型FiboASR

    7月,全球领先的无线通信模组及AI解决方案提供商广和通,发布其自主研发的语音识别大模型FiboASR。该模型专为端侧设备上面临的面对面实时对话及多人会议场景深度优化,在低延迟语音交互、
    的头像 发表于 08-04 11:43 1372次阅读

    【BPI-CanMV-K230D-Zero开发板体验】+两种开发板的比较

    之所以产生出在两种开发板进行比较的想法,是与当初申请的一个想法相关的就是,就是利用该开发板来完成一个考生识别的作品。 但在后来的资料分析时才发现,它可能并不具备这方面的基础。这就有请我们的下一
    发表于 07-17 21:40

    贴片晶振中两种常见封装介绍

    贴片晶体振荡器作为关键的时钟频率元件,其性能直接关系到系统运行的稳定性。今天,凯擎小妹带大家聊聊贴片晶振中两种常见封装——金属面封装与陶瓷面封装。
    的头像 发表于 07-04 11:29 964次阅读
    贴片晶振中<b class='flag-5'>两种</b>常见封装介绍

    两种驱动方式下永磁直线开关磁链电机的研究

    摘要:永磁开关磁链电机数学模型可以等效为永磁无刷电机,普遍采用方波驱动方式。在有限元基础上分析6/7极直线式磁链电机反电势波形,采用方波和正弦波驱动方式,比较两种方式下的电流、电压、平均推力大小
    发表于 06-09 16:18

    两种感应电机磁链观测器的参数敏感性研究

    模式和发电模式下对闭环电压电流模型磁链观测器和滑模磁链观测器参数敏感性进行了研究,通过仿真和实验比较了这两种观测器对定、转子电阻及励磁电感的敏感性。同时还研究了基于这两种观测器的模型
    发表于 06-09 16:16

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域,大型语言模型(LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成自然语言文本,完成各种复杂的任
    的头像 发表于 04-30 18:34 1062次阅读
    小白学大<b class='flag-5'>模型</b>:从零实现 LLM<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    AD7701ARZ有没有能够直接替换,或者原设计线路商改动较少的型号?

    AD7701ARZ有没有能够直接替换,或者原设计线路商改动较少的型号
    发表于 04-15 07:32

    一文详解视觉语言模型

    视觉语言模型(VLM)是一多模态、生成式 AI 模型能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3240次阅读
    一文详解视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    AI助力实时翻译耳机

    是一能够实时将一语言翻译成另一语言的耳机设备。
    的头像 发表于 01-24 11:14 3275次阅读
    AI助力实时<b class='flag-5'>翻译</b>耳机

    LLMWorld上线代码翻译新工具——问丫·码语翻译侠,快来体验!

    01. 工具介绍 aicode.llmworld.net 问丫·码语翻译侠 是一款由LLMWorld新推出的代码翻译工具,支持各种语言之间的翻译,包括计算机
    的头像 发表于 12-09 11:11 1603次阅读
    LLMWorld上线代码<b class='flag-5'>翻译</b>新工具——问丫·码语<b class='flag-5'>翻译</b>侠,快来体验!