谷歌发布Translatotron语音翻译系统-电子发烧友网

今天，谷歌发布Translatotron语音翻译系统，这是第一个可以直接将一个人的声音从一种语言转换成另一种语言，同时保持说话人的声音和节奏的翻译模型。

让说不同语言的人更容易地、直接地相互交流，这是语音到语音的翻译系统(Speech-to-speech translation)的目的，这样的系统在过去几十年里取得了不错的进展。

传统上，语音翻译系统通常有3个独立的部分：自动语音识别将源语音转录为文本，机器翻译将转录的文本翻译成目标语言，最后，文本到语音合成(TTS)系统将翻译文本转换成目标语言的语音。

许多商业语音到语音翻译的产品都采用这样的系统，包括Google Translate。但是，这类系统依赖于中间文本，准确率不高，而且效率较低。

谷歌的新工具Translatotron舍弃了将语音翻译为文本再返回语音的步骤，而是采用端到端的技术，直接将说话者的声音翻译成另一种语言。这使它能够快速地翻译，但更重要的是，能够更容易反映说话人的语调和节奏。

在论文《基于序列到序列模型的直接语音到语音翻译》(Direct speech-to-speech translation with a sequence-to-sequence model）中，谷歌的研究人员提出一种基于单个注意力序列到序列模型的直接语音到语音翻译的新实验系统，该系统不依赖于中间文本表示。

这个系统被称为Translatotron，避免了将任务划分为独立的阶段，比级联系统更有优势，包括推理速度快、自然地避免了识别和翻译之间的复合错误，能够在翻译后保留原说话者的声音，以及能够更好地处理不需要翻译的单词(如名称和专有名词)。

Translatotron：不依赖中间文本，直接翻译语音

语音翻译端到端模型的出现始于2016年，当时研究人员证明了使用单个序列到序列模型进行语音到文本翻译的可行性。2017年，我们证明了这种端到端模型可以超越级联模型(cascade models)。

最近有许多工作进一步改进了端到端语音到文本翻译模型的方法，包括同样来自谷歌的利用弱监督数据的工作(https://arxiv.org/abs/1811.02050)。

Translatotron更进一步，证明了单个序列到序列模型可以直接将一种语言的语音翻译成另一种语言的语音，而不需要像级联系统那样依赖于任何一种语言的中间文本表示。

Translatotron基于一个sequence-to-sequence网络，它将源声谱图(spectrograms)作为输入，生成目标语言翻译内容的声谱图。

输入和生成的声谱图

此外，Translatotron还使用了另外两个单独训练的组件：一个神经声音编码器(neuralvocoder)，可以将输出声谱图转换为时域波形；另外，还可以选择使用一个speaker encoder，用于在合成翻译语音时保持源speaker的语音特征。

在训练过程中，序列到序列模型使用一个多任务目标预测源和目标转录文本，同时生成目标声谱图。然而，推理过程中不需要使用转录文本或其他中间文本表示。

Translatotron的模型结构

性能

谷歌通过测量BLEU分数来验证Translatotron的翻译质量。该分数是通过语音识别系统转录的文本计算的。虽然结果落后于传统的级联系统，但已经证明了端到端直接语音到语音转换的可行性。

对比Translatotron到基线级联方法的直接语音到语音翻译输出，在这种情况下，两个系统都提供合适的翻译并使用相同的规范语音很自然的说话。

保持声音特征

通过结合扬声器编码器网络，Translatotron还能够在翻译的语音中，保留原始说话者的声音特征，这使得翻译的语音听起来更自然，不那么刺耳。

此功能利用了之前针对TTS的演讲者验证和演讲者调整的Google研究。扬声器编码器在演讲者验证任务上进行预训练，学习从简短的示例话语对扬声器特性进行编码。在该编码上调节频谱图解码器，即使内容是在不同的语言中，也可以合成具有类似扬声器特性的语音。

谷歌提供了诸多使用示例，如下面的例子，Translatotron将西班牙语对话转换为英语，下面的音频分别是西班牙语输入、真人参考翻译，以及Translatotron的翻译。

（由于微信智能插入一个音频，请点击原文链接听更多语音。）

Translatotron的翻译：

更多示例：

https://google-research.github.io/lingvo-lab/translatotron/#conversational

在这个例子中，Translatotron提供比基线级联模型更准确的平移，同时能够保留原始说话者的声音特征。保留原始说话者声音的Translatotron输出训练的数据，少于使用规范声音的数据，因此它们产生的翻译略有不同。

结论

谷歌声称，Translatotron是第一个可以直接将一种语言的语音，翻译成另一种语言的语音的端到端模型。它还能够在翻译的语音中保留源说话者的声音。谷歌希望这项工作可以作为未来端到端语音转语音翻译系统研究的起点。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
41

文章
3360

浏览量
131509
谷歌

谷歌

+关注

关注
27

文章
5855

浏览量
103250
语音

语音

+关注

关注
3

文章
361

浏览量
37626

原文标题：同声传译被攻陷！谷歌发布Translatotron直接语音翻译系统

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

谷歌发布用于辅助编程的代码大模型CodeGemma

谷歌发布了用于辅助编程的代码大模型 CodeGemma。CodeGemma 基于谷歌今年 2 月发布的轻量级开源大模型 Gemma，针对 Gemma 的两个不同参数规模的版本 Gemm

发表于 04-17 16:07 •125次阅读

<b class='flag-5'>谷歌</b><b class='flag-5'>发布</b>用于辅助编程的代码大模型CodeGemma

谷歌发布开源AI大模型Gemma

近日，谷歌发布了全新AI大模型Gemma，这款模型为各种规模的组织提供了前所未有的机会，以负责任的方式在商业应用中进行分发。

发表于 02-28 17:38 •403次阅读

谷歌交互世界模型重磅发布

谷歌模型

北京中科同志科技股份有限公司

发布于 :2024年02月28日 09:13:06

恩智浦发布新一代智能语音技术组合的语音识别引擎

恩智浦发布新一代智能语音技术组合的语音识别引擎。本文将探讨开发人员在嵌入式语音控制设计中面临的挑战、恩智浦新的Speech to Intent引擎，以及您如何在应用中使用它。

发表于 01-26 09:15 •246次阅读

恩智浦<b class='flag-5'>发布</b>新一代智能<b class='flag-5'>语音</b>技术组合的<b class='flag-5'>语音</b>识别引擎

重塑翻译与识别技术：开源语音识别模型Whisper的编译优化与部署

模型介绍Whisper模型是一个由OpenAI团队开发的通用语音识别模型。它的训练基于大量不同的音频数据集，是一个多任务模型，可以执行语音识别、语言翻译、语言识别。下面是模型的整体架构：使用方法如下

发表于 01-06 08:33 •724次阅读

重塑<b class='flag-5'>翻译</b>与识别技术：开源<b class='flag-5'>语音</b>识别模型Whisper的编译优化与部署

谷歌发布多模态Gemini大模型及新一代TPU系统Cloud TPU v5p

谷歌亦发布新一代TPU 系统——Cloud TPU v5p，以帮助训练尖端的 AI 模型。目

发表于 12-12 10:50 •802次阅读

<b class='flag-5'>谷歌</b><b class='flag-5'>发布</b>多模态Gemini大模型及新一代TPU<b class='flag-5'>系统</b>Cloud TPU v5p

基于数字化语音存储回放及GSM语音传输系统设计

电子发烧友网站提供《基于数字化语音存储回放及GSM语音传输系统设计.pdf》资料免费下载

发表于 11-17 16:48 •0次下载

基于数字化<b class='flag-5'>语音</b>存储回放及GSM<b class='flag-5'>语音</b>传输<b class='flag-5'>系统</b>设计

基于AT89C2051单片机语音模块的语音报价系统设计

电子发烧友网站提供《基于AT89C2051单片机语音模块的语音报价系统设计.pdf》资料免费下载

发表于 10-13 10:52 •3次下载

基于AT89C2051单片机<b class='flag-5'>语音</b>模块的<b class='flag-5'>语音</b>报价<b class='flag-5'>系统</b>设计

仿真人类的微软AI翻译系统

从历史上看，曾经主流的机器学习技术在行业中应用是统计机器翻译 (SMT)。SMT 使用先进的统计分析，从一句话中上下文的几个词中来估计最佳可能的翻译。SMT自20 世纪中期以来的为所有主要翻译服务提供商所使用，其中包括微软。

发表于 10-11 15:27 •556次阅读

如何使用模仿患者声音的计算机程序将文本重新翻译成语音

的新记录，带来了前所未有的将大脑信号翻译成句子的能力——速度接近正常语音，词汇量超过1000个单词。这些进步为那些不能说话的人提供了以接近对话水平的速度进行交流的能力，甚至展示了如何使用模仿患者声音的计算机程序将文本重新翻译成语

发表于 09-04 11:33 •567次阅读

如何使用模仿患者声音的计算机程序将文本重新<b class='flag-5'>翻译成语音</b>

启英泰伦新成果发布交流会线上直播预约开启

将为大家带来主题为《用AI解锁声音的奥秘——启英泰伦新成果发布交流会》的线上直播。 01 发布CI231系列AI语音BLE芯片为了提供更丰富的设备连接选项和更个性化的语音交互体验，

发表于 08-15 14:31

人工智能会取代翻译吗

在某些场景下，如翻译普通商务文档、新闻报道以及其他非技术性的文章等，机器翻译的正确率已经非常接近人类翻译了。然而，在涉及到一些重要的领域，例如法律、药学甚至是文学等相关领域，机器翻译仍

发表于 08-14 14:29 •762次阅读

机器翻译研究进展

机器翻译使用计算机将一种语言翻译成另一种语言，具有低成本、高效率和高翻译质量等优势，在语音翻译、同声传译自动化等许多领域得到广泛应用。随着

发表于 07-06 11:19 •414次阅读

谷歌又终止AR眼镜研发

在 2020 年收购的加拿大初创公司 North 的一款名为“Focals”的产品。谷歌还在一段显示实时AR翻译功能的视频中演示了一个较新版本。

发表于 07-04 16:34 •431次阅读

放弃谷歌百度，和chatGPT结对编程。效率会不会更高。#编程 #chatgpt #ai #程序员

谷歌

学习电子知识

发布于 :2023年07月03日 20:16:25

搜索历史

谷歌发布Translatotron语音翻译系统

评论