0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌发布Translatotron语音翻译系统

DPVg_AI_era 来源:lq 2019-05-19 10:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今天,谷歌发布Translatotron语音翻译系统,这是第一个可以直接将一个人的声音从一种语言转换成另一种语言,同时保持说话人的声音和节奏的翻译模型。

让说不同语言的人更容易地、直接地相互交流,这是语音到语音的翻译系统(Speech-to-speech translation)的目的,这样的系统在过去几十年里取得了不错的进展。

今天,谷歌发布Translatotron语音翻译系统,这是第一个可以直接将一个人的声音从一种语言转换成另一种语言,同时保持说话人的声音和节奏的翻译模型。

传统上,语音翻译系统通常有3个独立的部分:自动语音识别将源语音转录为文本,机器翻译将转录的文本翻译成目标语言,最后,文本到语音合成(TTS)系统将翻译文本转换成目标语言的语音。

许多商业语音到语音翻译的产品都采用这样的系统,包括Google Translate。但是,这类系统依赖于中间文本,准确率不高,而且效率较低。

谷歌的新工具Translatotron舍弃了将语音翻译为文本再返回语音的步骤,而是采用端到端的技术,直接将说话者的声音翻译成另一种语言。这使它能够快速地翻译,但更重要的是,能够更容易反映说话人的语调和节奏。

在论文《基于序列到序列模型的直接语音到语音翻译》(Direct speech-to-speech translation with a sequence-to-sequence model)中,谷歌的研究人员提出一种基于单个注意力序列到序列模型的直接语音到语音翻译的新实验系统,该系统不依赖于中间文本表示。

这个系统被称为Translatotron,避免了将任务划分为独立的阶段,比级联系统更有优势,包括推理速度快、自然地避免了识别和翻译之间的复合错误,能够在翻译后保留原说话者的声音,以及能够更好地处理不需要翻译的单词(如名称和专有名词)。

Translatotron:不依赖中间文本,直接翻译语音

语音翻译端到端模型的出现始于2016年,当时研究人员证明了使用单个序列到序列模型进行语音到文本翻译的可行性。2017年,我们证明了这种端到端模型可以超越级联模型(cascade models)。

最近有许多工作进一步改进了端到端语音到文本翻译模型的方法,包括同样来自谷歌的利用弱监督数据的工作(https://arxiv.org/abs/1811.02050)。

Translatotron更进一步,证明了单个序列到序列模型可以直接将一种语言的语音翻译成另一种语言的语音,而不需要像级联系统那样依赖于任何一种语言的中间文本表示。

Translatotron基于一个sequence-to-sequence网络,它将源声谱图(spectrograms)作为输入,生成目标语言翻译内容的声谱图。

输入和生成的声谱图

此外,Translatotron还使用了另外两个单独训练的组件:一个神经声音编码器(neuralvocoder),可以将输出声谱图转换为时域波形;另外,还可以选择使用一个speaker encoder,用于在合成翻译语音时保持源speaker的语音特征。

在训练过程中,序列到序列模型使用一个多任务目标预测源和目标转录文本,同时生成目标声谱图。然而,推理过程中不需要使用转录文本或其他中间文本表示。

Translatotron的模型结构

性能

谷歌通过测量BLEU分数来验证Translatotron的翻译质量。该分数是通过语音识别系统转录的文本计算的。虽然结果落后于传统的级联系统,但已经证明了端到端直接语音到语音转换的可行性。

对比Translatotron到基线级联方法的直接语音到语音翻译输出,在这种情况下,两个系统都提供合适的翻译并使用相同的规范语音很自然的说话。

保持声音特征

通过结合扬声器编码器网络,Translatotron还能够在翻译的语音中,保留原始说话者的声音特征,这使得翻译的语音听起来更自然,不那么刺耳。

此功能利用了之前针对TTS的演讲者验证和演讲者调整的Google研究。扬声器编码器在演讲者验证任务上进行预训练,学习从简短的示例话语对扬声器特性进行编码。在该编码上调节频谱图解码器,即使内容是在不同的语言中,也可以合成具有类似扬声器特性的语音。

谷歌提供了诸多使用示例,如下面的例子,Translatotron将西班牙语对话转换为英语,下面的音频分别是西班牙语输入、真人参考翻译,以及Translatotron的翻译。

(由于微信智能插入一个音频,请点击原文链接听更多语音。)

Translatotron的翻译:

更多示例:

https://google-research.github.io/lingvo-lab/translatotron/#conversational

在这个例子中,Translatotron提供比基线级联模型更准确的平移,同时能够保留原始说话者的声音特征。保留原始说话者声音的Translatotron输出训练的数据,少于使用规范声音的数据,因此它们产生的翻译略有不同。

结论

谷歌声称,Translatotron是第一个可以直接将一种语言的语音,翻译成另一种语言的语音的端到端模型。它还能够在翻译的语音中保留源说话者的声音。谷歌希望这项工作可以作为未来端到端语音转语音翻译系统研究的起点。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    4026

    浏览量

    143751
  • 谷歌
    +关注

    关注

    27

    文章

    6271

    浏览量

    112197
  • 语音
    +关注

    关注

    3

    文章

    408

    浏览量

    40152

原文标题:同声传译被攻陷!谷歌发布Translatotron直接语音翻译系统

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    谷歌发布第八代TPU,训练推理分离,搭载自研CPU

    电子发烧友网报道(文/李弯弯)在2026年4月22日举行的谷歌云Next大会上,谷歌正式发布了第八代张量处理单元(TPU)。此次发布的产品包含两款独立的芯片:TPU 8t和TPU 8i
    的头像 发表于 04-24 09:03 6430次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>发布</b>第八代TPU,训练推理分离,搭载自研CPU

    谷歌发布Gemini for Science

    2026年5月20日,谷歌I/O开发者大会上,谷歌正式推出Gemini for Science——一款专门面向科研场景的AI模型。这不是又一个能帮你查文献的聊天机器人,而是谷歌试图让AI真正参与科学发现本身的一次
    的头像 发表于 05-21 10:42 1071次阅读

    谷歌正式发布Gemini Spark

    5月20日,谷歌在I/O 2026上正式发布了Gemini Spark——一款全天候运行的个人AI助手。它基于Gemini 3.5打造,运行在Google Cloud虚拟机上,用户通过Gemini
    的头像 发表于 05-21 10:39 511次阅读

    谷歌正抢先布局移动端AI

    近日,距离谷歌I/O开发者大会开幕仅剩一周,谷歌抢先公布了一系列Android系统重大升级,正式宣布将旗下Gemini模型从聊天机器人升级为部署在手机、浏览器、车载与笔记本电脑上的系统
    的头像 发表于 05-14 10:27 755次阅读

    谷歌发布安卓17+Gemini Intelligence

    近日,谷歌正式公布了安卓17(Android 17)的详细特性,同时抛出了一颗重磅炸弹—— **Gemini Intelligence** ,谷歌将自家最强AI能力全面植入安卓系统,推动安卓从
    的头像 发表于 05-13 11:26 1176次阅读

    亮亮视野联合智谱AI推出AR+AI会议翻译系统

    2026中关村论坛主会场,亮亮视野(LLVision)联合智谱AI推出并部署了全球首创的AR+AI会议翻译系统,为主论坛及多场平行论坛提供大会翻译保障。这套系统深度融合亮亮视野AR眼镜
    的头像 发表于 03-30 11:39 586次阅读

    谷歌推出TranslateGemma全新开放翻译模型系列

    我们已正式推出 TranslateGemma,这一全新的开放翻译模型系列基于 Gemma 3 构建,并提供 4B、12B 和 27B 三种参数规模。TranslateGemma 的问世标志着开放翻译领域迈出了重要一步,它可帮助人们跨越 55 种语言进行交流,无论身在何处或
    的头像 发表于 02-26 10:22 836次阅读

    谷歌评论卡,碰一碰即可完成谷歌评论 #谷歌评论卡 #NFC标签 #nfc卡

    谷歌
    深圳市融智兴科技有限公司
    发布于 :2026年01月15日 17:02:00

    芯知识|语音芯片是如何让机器“开口说话”的?

    在智能音箱回应你的询问、车载导航提示你转弯、甚至医疗设备发出清晰提醒的瞬间,你是否曾好奇,这些机器是如何“开口说话”的?其背后的核心功臣,正是一枚枚精巧的语音芯片。它如同一个高度集成的“声音翻译
    的头像 发表于 12-29 09:05 505次阅读
    芯知识|<b class='flag-5'>语音</b>芯片是如何让机器“开口说话”的?

    视美泰发布AI即时翻译机解决方案,硬核配置+多语种覆盖破解跨语言沟通难题

    在全球化深入推进与AI技术规模化商用的双重驱动下,跨语言沟通需求正迎来爆发式增长。近日,视美泰正式发布AI即时翻译机解决方案,以“核心硬件+智能算法+多模态交互”的完整技术矩阵,依托在线语音转写
    的头像 发表于 12-03 10:50 1369次阅读
    视美泰<b class='flag-5'>发布</b>AI即时<b class='flag-5'>翻译</b>机解决方案,硬核配置+多语种覆盖破解跨语言沟通难题

    语音识别系统的技术核心:从声音到文字的智能转换

          语音识别技术,也称为自动语音识别(ASR),其核心目标是将人类语音信号转换为对应的文本或指令。随着人工智能的发展,语音识别已成为智能助手、实时
    的头像 发表于 09-05 14:04 1082次阅读

    声智科技出席2025年北京市多语种AI语音翻译大赛

    8月20日,由北京市科委、中关村管委会主办,北京语言大学、北京第二外国语学院、北京市翻译协会、中国人工智能百人会共同承办的“2025年北京市多语种AI语音翻译大赛”在中关村展示中心顺利启幕。声智作为
    的头像 发表于 08-25 17:18 1449次阅读

    广和通发布自研端侧语音识别大模型FiboASR

    7月,全球领先的无线通信模组及AI解决方案提供商广和通,发布其自主研发的语音识别大模型FiboASR。该模型专为端侧设备上面临的面对面实时对话及多人会议场景深度优化,在低延迟语音交互、实时语音
    的头像 发表于 08-04 11:43 1853次阅读

    EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程

    1Whisper简介Whisper是OpenAI开源的,识别语音识别能力已达到人类水准自动语音识别系统。Whisper作为一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据
    的头像 发表于 07-25 15:21 1058次阅读
    EASY EAl Orin Nano(RK3576) whisper<b class='flag-5'>语音</b>识别训练部署教程

    谷歌地图GPS定位

    的导航体验。 GPS(全球定位系统)技术起始于军事应用,现已广泛用于民用领域。谷歌地图通过整合这一技术,让用户能够随时随地获取精确的位置信息。以下是谷歌地图GPS定位的几个关键技术点: 1. **卫星信号接收**:
    的头像 发表于 05-29 16:54 1794次阅读