谷歌推出端到端语音翻译技术,让优质高效的机器翻译不再遥遥无期-电子发烧友网

40年前，英国科幻作家Douglas Ad ams在他的《银河系漫游指南》中这样描述巴别鱼（bable fish）：迷你黄色生物，水蛭状，以声音中的语言概念为食，消化后排出跟寄主同频的脑波。只要塞到耳朵里去，就可以听懂各种语言。

而在这个充满嬉皮风格的科幻作品中，来自地球的Arthur Dent也因为这条丑陋的鱼，能够完美地理解并与他遇到的各种外星种族交流。

自小说诞生，巴别鱼便成为了即时语音翻译的代名词。但在当时，人类的翻译技术距离这一目标仍遥不可及。

直到2014年，加拿大蒙特利尔大学的Kyunghyun Cho、Yoshua Bengio等人发布了一篇在机器翻译领域应用神经网络的论文——Neural Machine Translation by Jointly Learning to Align and Translate。

神经网络的出现，让优质高效的机器翻译不再遥遥无期。

每次技术的突破都让我们离巴别鱼更近一步，直到今天，谷歌的发布了一项新研究Translatotron，这是一种可以实现端到端的语音转语音的翻译技术。该工具放弃了将语音翻译成文本在返回语音的步骤，可以直接从一种语言转换称另外一种语言，并同时保持说话着的语调和节奏。

告别Siri，我们先来感受一下翻译的调调：

通过结合扬声器编码器网络，使得Translatotron能够在翻译的语音中保留原始扬声器的声音特征，这使得翻译的语音听起来更自然，更少刺耳。

更多声音样本可以在Translatotron的Google Research的Github页面上找到。

此功能利用了谷歌之前specker verification 和 speaker adaptation for TTS 的研究。扬声器编码器在specker verification任务上预先训练，学习从简短的示例话语对扬声器特性进行编码。即使内容是不同的语言，该编码上调节频谱图解码器也可使得合成具有类似扬声器特性的语音。

Translatotron模型

其实语音翻译的端到端模型的早在2016年就开始出现了，当时研究人员证明了使用单个序列到序列模型进行语音到文本翻译的可行性。

2017年，谷歌研究员们证明了这种端到端模型可以胜过cascade模型。之后又进一步改进许多端到端语音到文本翻译模型的方法。

最终在2019年，谷歌的研究员们在arXiv发表Translatotron模型，通过证明单个序列到序列模型可以直接将语言从一种语言翻译成另一种语言的语音，而不依赖于任何一种语言的中间文本表示。

Translatotron基于序列到序列网络将源光谱图作为输入并生成目标语言中的翻译内容的光谱图输出。它还使用了另外两个经过单独训练的组件：神经声码器将输出频谱图转换为时域波形，使用扬声器编码器来保持合成的翻译语音中源说话者的语音的特征。

在训练期间，序列到序列模型使用多任务目标来在生成目标谱图的同时预测源和目标转录物。