0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

能够直接翻译两种语言间语音的模型

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2021-10-26 15:57 次阅读

语音转语音翻译 (S2ST) 是打破世界各地人与人之间语言障碍的关键。自动 S2ST 系统通常由语音识别、机器翻译和语音合成子系统级联组成。然而,此类级联系统可能会面临较长的延迟、信息(尤其是副语言和非语言信息)丢失,以及各子系统之间的错误叠加等问题。

2019 年,我们推出了 Translatotron,这是首款能够直接翻译两种语言间语音的模型。此款直接 S2ST 模型能够有效地进行端到端训练,并拥有一个独特功能——在生成的翻译语音中保留源说话者声音(非语言信息)。

Translatotron

https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html

不过,尽管该模型能够生成听起来自然的高保真翻译语音,但与强大的基准级联 S2ST 系统(例如,由语音转文字直接翻译模型[1、2]和 Tacotron 2 TTS 模型组成的系统)相比,其表现仍然欠佳。

1

https://arxiv.org/abs/1703.08581

2

https://arxiv.org/abs/1811.02050

Tacotron 2

https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html

在“Translatotron 2:稳健的语音转语音直接翻译 (Translatotron 2:Robust direct speech-to-speech translation)” 一文中,我们介绍了 Translatotron 的一个改进版本。该版本的表现得到显著提高,同时我们还应用了一种新的方法来将源说话者的声音转换到翻译的语音中。即使输入语音中存在多位说话者轮流说话的情况,经过修订的语音转换方法也能取得成功,同时还能减少滥用的可能性,并且更加符合我们的 AI 原则。使用三个不同语料库进行的实验一致表明,Translatotron 2 在翻译质量、语音自然度和语音稳健性方面的表现明显优于原始版本 Translatotron。

Translatotron 2:稳健的语音转语音直接翻译

https://arxiv.org/abs/2107.08661

AI 原则

https://ai.google/responsibilities/

Translatotron 2

Translatotron 2 由四个主要组件组成:语音编码器、目标音素 (Phoneme) 解码器、目标语音合成器,以及将它们连接起来的注意力模块。编码器、注意力模块和解码器的组合类似于典型的语音转文字直接翻译 (ST) 模型。合成器则使用编码器和注意力模块的输出作为条件。

Translatotron 2 的模型架构

(将西班牙语语音翻译为英语语音)

相较于 Translatotron ,Translatotron 2 的更高表现主要源于以下三点新变化:

1. 尽管在原始版本 Translatotron 中,目标音素解码器的输出仅用作辅助损失使用,但在 Translatotron 2 中,它是声谱图合成器的输入之一。这一强大条件使 Translatotron 2 更易于训练,且表现更好。

2. 与 Tacotron 2 TTS 模型类似,原始版本 Translatotron 中的声谱图合成器基于注意力,因此其也存在类似 Tacotron 2 所表现出的稳健性问题。相比之下,Translatotron 2 中使用的是基于持续时间的声谱图合成器(类似于 Non-Attentive Tacotron 使用的声谱图合成器),这能够大大提高合成语音的稳健性。

3. Translatotron 和 Translatotron 2,都使用基于注意力的连接到编码的源语音。然而,在 Translatotron 2 中,这种基于注意力的连接由音素解码器而非声谱图合成器驱动,这确保了声谱图合成器所获取的声学信息与其合成的翻译内容相一致,从而有助于在不同说话者轮流说话时保留每位说话者的声音。

更强大、更负责任的声音保留

原始版本 Translatotron 能够在生成的翻译语音中保留源说话者的声音,方法是将其解码器限定于由单独训练的说话者编码器生成的说话者嵌入向量之上。然而,如果使用目标说话者的录音片段作为说话者编码器的参考音频,或者目标说话者的嵌入向量直接可用,则这种方法还能以不同说话者的声音生成翻译后的语音。虽然这一功能非常强大,但有可能遭到滥用,如使用任意内容制作欺诈音频,这会给生产部署带来问题。

为解决这一问题,Translatotron 2 这样设计:只使用一个语音编码器,该编码器同时负责语言理解和语音录制。这样,训练后的模型便无法用于重现非源语音。这种方法也可以应用于原始版本 Translatotron。

为了在翻译过程中保留说话者的声音,研究人员通常倾向于使用两端都是同一位说话者声音的平行说话内容来训练 S2ST 模型。这样一个两边都有人类录音的数据集很难收集,因为它需要大量流利的双语使用者。为了避免这一难题,我们使用了 PnG NAT 的修改版本,这是一种能够跨语言语音转换来合成此类训练目标的 TTS 模型。我们的修改版 PnG NAT 模型采用了与旧版 TTS 工作方式相同(即使用的策略与原始版本 Translatotron 相同)的单独训练的说话者编码器,因此能够实现零样本语音传输。

旧版 TTS 工作方式

https://arxiv.org/abs/1806.04558

以下是使用 Translatotron 2 进行语音转语音直接翻译的示例,其中保留了源说话者的声音:

输入(西班牙语):

TTS 合成的参考音频(英语):

Translatotron 2 预测(英语):

Translatotron 预测(英语):

当输入语音包含多个说话者轮流说话时,为了使 S2ST 模型能够在翻译后的语音中保留每个说话者的声音,我们提出了一种简单的基于串联的数据增强技术,称为 ConcatAug。该方法会对成对的训练示例随机采样,并将源语音、目标语音和目标音素序列串联成新的训练示例,以增强训练数据。由此得到的样本在源语音和目标语音中都包含两位说话者的声音,这使模型能够根据不同说话者轮流说话的示例进行学习。以下来自 Translatotron 2 的音频样本展示了不同说话者轮流说话的场景:

输入(西班牙语):

TTS 合成的参考音频(英语):

Translatotron 2(采用 ConcatAug)预测(英语):

Translatotron 2(未采用 ConcatAug)预测(英语):

点击此处获取更多音频样本。

此处

https://google-research.github.io/lingvo-lab/translatotron2/

表现

在我们衡量的各个方面,Translatotron 2 的表现都大大优于原始版本 Translatotron:更高的翻译质量(以 BLEU 衡量,数值越高越好),更好的语音自然度(以 MOS 衡量,数值越高越好),以及更强的语音稳健性(以 UDR 衡量,数值越低越好)。它在难度更大的 Fisher 语料库上表现尤为出色。Translatotron 2 在翻译质量和语音质量方面的表现接近强大的基准级联系统,并且在语音稳健性方面优于级联基准。

UDR

https://arxiv.org/abs/2010.04301

Fisher 语料库

https://catalog.ldc.upenn.edu/LDC2014T23

使用两个西班牙语-英语语料库评估的翻译质量

(以 BLEU 衡量,数值越高越好)

使用两个西班牙语-英语语料库评估的语音自然度

(以 MOS 衡量,数值越高越好)

使用两个西班牙语-英语语料库评估的语音稳健性

(以 UDR 衡量,数值越低越好)

多语言语音翻译

除了西班牙语到英语的 S2ST,我们还评估了 Translatotron 2 在多语言情境中的表现,该模型接收四种不同语言的语音输入并将其翻译为英语。由于事先未提供输入语音的语言,这迫使模型需要自行检测语言。

源语言frdeesca

Translatotron 2 27.018.827.722.5

Translatotron18.910.818.813.9

ST(Wang

等人,2020)27.018.928.023.9

训练目标 82.186.085.189.3

使用 CoVoST 2 语料库评估的多语言 X=》En S2ST 表现

Wang 等人

https://arxiv.org/abs/2007.10310

CoVoST 2

https://arxiv.org/abs/2007.10310

在此任务中,Translatotron 2 的表现同样明显优于原始版本 Translatotron。尽管 S2ST 和 ST 之间的结果没有直接可比性,但接近的数字表明Translatotron 2的翻译质量与基准语音转文字翻译模型相当。这些结果表明,Translatotron 2 在多语言 S2ST 上也非常有效。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音
    +关注

    关注

    3

    文章

    361

    浏览量

    37625
  • AI
    AI
    +关注

    关注

    87

    文章

    26364

    浏览量

    263958
  • 模型
    +关注

    关注

    1

    文章

    2701

    浏览量

    47662

原文标题:Translatotron 2:高质量、稳健、负责任的语音转语音直接翻译

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    你好 tms570能够直接运行在片内 sram上吗?

    你好 tms570能够直接跑在sram上吗? 从flash加载程序1之后,程序1把程序2搬移到sram中,然后在sram中运行程序。TMS570支持这样运行不?
    发表于 01-19 09:24

    重塑翻译与识别技术:开源语音识别模型Whisper的编译优化与部署

    模型介绍Whisper模型是一个由OpenAI团队开发的通用语音识别模型。它的训练基于大量不同的音频数据集,是一个多任务模型,可以执行
    的头像 发表于 01-06 08:33 603次阅读
    重塑<b class='flag-5'>翻译</b>与识别技术:开源<b class='flag-5'>语音</b>识别<b class='flag-5'>模型</b>Whisper的编译优化与部署

    2023年科技圈热词“大语言模型”,与自然语言处理有何关系

    电子发烧友网报道(文/李弯弯)大语言模型(LLM)是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还
    的头像 发表于 01-02 09:28 1366次阅读

    语言模型概述

    的人工智能模型,旨在理解和生成自然语言文本。这类模型的核心是深度神经网络,通过大规模的训练数据和强大的计算能力,使得模型能够学习到
    的头像 发表于 12-21 17:53 705次阅读

    在线研讨会 | 大模型时代语音 AI 模型的训练、优化与应用

    AI 大模型语音识别、自然语言处理等领域已经取得了令人瞩目的成就。语音 AI(Speech AI)技术已经广泛应用在数字人、实时翻译
    的头像 发表于 12-15 15:50 246次阅读
    在线研讨会 | 大<b class='flag-5'>模型</b>时代<b class='flag-5'>语音</b> AI <b class='flag-5'>模型</b>的训练、优化与应用

    语言模型简介:基于大语言模型模型全家桶Amazon Bedrock

    本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶:Bedrock对大语言模型进行介绍。大语言模型
    的头像 发表于 12-04 15:51 401次阅读

    常见的ARM架构分为两种是M系列另外一是A系列,这两种有什么区别啊?

    现在市面上常见的ARM架构分为两种是M系列另外一是A系列,这两种有什么区别啊,用的时候他们一般分别用在什么地方啊。
    发表于 10-26 07:00

    模型未来的产业发展趋势和挑战是什么

    在自然语言处理领域的最新进展。目前在机器翻译语言理解、聊天机器人、图像识别,图像视频生成、语音识别、语音合成,推荐系统等等领域都获得了革命
    的头像 发表于 09-13 16:33 699次阅读
    大<b class='flag-5'>模型</b>未来的产业发展趋势和挑战是什么

    FPGA加速器支撑ChatGPT类大语言模型创新

    ,大型语言模型(Large Language Models,LLM)彻底改变了自然语言处理领域,使机器能够生成类似人类的文本并进行有意义的对话。这些
    的头像 发表于 09-04 16:55 366次阅读
    FPGA加速器支撑ChatGPT类大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>创新

    语言模型的发展历程 基于神经网络的语言模型解析

    简单来说,语言模型能够以某种方式生成文本。它的应用十分广泛,例如,可以用语言模型进行情感分析、标记有害内容、回答问题、概述文档等等。但理论上
    发表于 07-14 11:45 500次阅读
    <b class='flag-5'>语言</b><b class='flag-5'>模型</b>的发展历程 基于神经网络的<b class='flag-5'>语言</b><b class='flag-5'>模型</b>解析

    机器翻译研究进展

    机器翻译使用计算机将一种语言翻译成另一种语言,具有低成本、高效率和高翻译质量等优势,在语音
    的头像 发表于 07-06 11:19 409次阅读
    机器<b class='flag-5'>翻译</b>研究进展

    大型语言模型的应用

       大型语言模型(LLM) 是一种深度学习算法,可以通过大规模数据集训练来学习识别、总结、翻译、预测和生成文本及其他内容。大语言模型(LL
    的头像 发表于 07-05 10:27 1605次阅读

    邱锡鹏团队提出SpeechGPT:具有内生跨模态能力的大语言模型

    虽然现有的级联方法或口语语言模型能够感知和生成语音,但仍存在一些限制。首先,在级联模型中,LLM 仅充当内容生成器。由于
    的头像 发表于 05-22 10:19 412次阅读
    邱锡鹏团队提出SpeechGPT:具有内生跨模态能力的大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    语言模型的多语言机器翻译能力分析

    以ChatGPT为代表的大语言模型(Large Language Models, LLM)在机器翻译(Machine Translation, MT)任务上展现出了惊人的潜力。
    的头像 发表于 05-17 09:56 974次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的多<b class='flag-5'>语言</b>机器<b class='flag-5'>翻译</b>能力分析

    RS485总线是否能够直接与MCU单片机直接相连?

    RS485总线是否能够直接与MCU单片机直接相连?或者需要485转232的接口?
    发表于 04-27 17:56