0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌推出端到端语音翻译技术,让优质高效的机器翻译不再遥遥无期

电子工程师 来源:YXQ 2019-05-17 16:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

40年前,英国科幻作家Douglas Adams在他的《银河系漫游指南》中这样描述巴别鱼(bable fish):迷你黄色生物,水蛭状,以声音中的语言概念为食,消化后排出跟寄主同频的脑波。只要塞到耳朵里去,就可以听懂各种语言。

而在这个充满嬉皮风格的科幻作品中,来自地球的Arthur Dent也因为这条丑陋的鱼,能够完美地理解并与他遇到的各种外星种族交流。

自小说诞生,巴别鱼便成为了即时语音翻译的代名词。但在当时,人类的翻译技术距离这一目标仍遥不可及。

直到2014年,加拿大蒙特利尔大学的Kyunghyun Cho、Yoshua Bengio等人发布了一篇在机器翻译领域应用神经网络的论文——Neural Machine Translation by Jointly Learning to Align and Translate。

神经网络的出现,让优质高效的机器翻译不再遥遥无期。

每次技术的突破都让我们离巴别鱼更近一步,直到今天,谷歌的发布了一项新研究Translatotron,这是一种可以实现端到端的语音转语音的翻译技术。该工具放弃了将语音翻译成文本在返回语音的步骤,可以直接从一种语言转换称另外一种语言,并同时保持说话着的语调和节奏。

告别Siri,我们先来感受一下翻译的调调:

通过结合扬声器编码器网络,使得Translatotron能够在翻译的语音中保留原始扬声器的声音特征,这使得翻译的语音听起来更自然,更少刺耳。

更多声音样本可以在Translatotron的Google Research的Github页面上找到。

此功能利用了谷歌之前specker verification 和 speaker adaptation for TTS 的研究。扬声器编码器在specker verification任务上预先训练,学习从简短的示例话语对扬声器特性进行编码。即使内容是不同的语言,该编码上调节频谱图解码器也可使得合成具有类似扬声器特性的语音。

Translatotron模型

其实语音翻译的端到端模型的早在2016年就开始出现了,当时研究人员证明了使用单个序列到序列模型进行语音到文本翻译的可行性。

2017年,谷歌研究员们证明了这种端到端模型可以胜过cascade模型。之后又进一步改进许多端到端语音到文本翻译模型的方法。

最终在2019年,谷歌的研究员们在arXiv发表Translatotron模型,通过证明单个序列到序列模型可以直接将语言从一种语言翻译成另一种语言的语音,而不依赖于任何一种语言的中间文本表示。

Translatotron基于序列到序列网络将源光谱图作为输入并生成目标语言中的翻译内容的光谱图输出。它还使用了另外两个经过单独训练的组件:神经声码器将输出频谱图转换为时域波形,使用扬声器编码器来保持合成的翻译语音中源说话者的语音的特征。

在训练期间,序列到序列模型使用多任务目标来在生成目标谱图的同时预测源和目标转录物。

Translatotron的模型结构

该团队称,翻译的准确性并不如传统翻译系统那么好,传统系统有更多时间来磨练其准确性。但Translatotron是第一个能够将语言从一种语言直接翻译成另一种语言的语音的端到端模型。他们希望这项工作可以作为未来端到端语音转语音翻译系统研究的起点。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6246

    浏览量

    110295
  • 语音识别
    +关注

    关注

    39

    文章

    1804

    浏览量

    115583

原文标题:巴别鱼雏形,谷歌推出端到端语音翻译技术,还能模仿你说话

文章出处:【微信号:BigDataDigest,微信公众号:大数据文摘】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    视美泰发布AI即时翻译机解决方案,硬核配置+多语种覆盖破解跨语言沟通难题

    机器翻译语音合成和大模型四项能力构建高效同声传译链路,实现70+种语言全覆盖的强大能力,为跨境商贸、文化交流、户外出行等场景提供高效精准的翻译
    的头像 发表于 12-03 10:50 714次阅读
    视美泰发布AI即时<b class='flag-5'>翻译</b>机解决方案,硬核配置+多语种覆盖破解跨语言沟通难题

    国庆出国游,时空壶新T1翻译机,首个侧模型突破助力跨语言交流

    的旗舰机型,最大亮点是搭载业内首个侧AI翻译模型。这一模型将原本依赖云端算力的复杂AI翻译模型,通过先进的模型剪枝、量化压缩等技术,巧妙部署于设备本地,并对神经网
    的头像 发表于 09-12 12:20 839次阅读
    国庆出国游,时空壶新T1<b class='flag-5'>翻译</b>机,首个<b class='flag-5'>端</b>侧模型突破助力跨语言交流

    语音交互数据 精准赋能语音大模型进阶

    模型在多轮对话、噪声环境及语义理解方面表现不佳。 相较于传统数据集仅关注语音-文本的单点转写,语音交互数据集强调在真实多轮对话场景下的
    的头像 发表于 09-11 17:17 585次阅读

    黑芝麻智能全栈式辅助驾驶系统的应用场景

    黑芝麻智能推出的全新一代全栈辅助驾驶系统,以武当C1200系列高算力芯片为基石,深度融合自研感知算法,实现从场景感知车辆控制的完全闭
    的头像 发表于 09-09 17:19 2143次阅读

    翻译失去网络,时空壶新T1翻译机开创首个离线模型赋能全球沟通新体验

    全球首创的离线侧AI翻译模型,这一技术突破堪称行业变革性创举。与传统依赖网络或仅靠静态离线语言包的翻译设备不同,T1的离线模型基于先进的
    的头像 发表于 09-08 16:52 926次阅读
    当<b class='flag-5'>翻译</b>失去网络,时空壶新T1<b class='flag-5'>翻译</b>机开创首个离线模型赋能全球沟通新体验

    当经典IP撞上AI技术:利尔达助力跃然创新推出全球首款AI互动玩具

    //当孩子们手中的奥特曼玩具不仅能发光发声,还能真正智能对话、情感陪伴,传统的玩具行业正经历一场前所未有的技术革命……今日,AI玩具领军企业跃然创新(Haivivi)推出全球首款搭载
    的头像 发表于 08-26 17:37 1723次阅读
    当经典IP撞上AI<b class='flag-5'>技术</b>:利尔达助力跃然创新<b class='flag-5'>推出</b>全球首款<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>AI互动玩具

    声智科技出席2025年北京市多语种AI语音翻译大赛

    8月20日,由北京市科委、中关村管委会主办,北京语言大学、北京第二外国语学院、北京市翻译协会、中国人工智能百人会共同承办的“2025年北京市多语种AI语音翻译大赛”在中关村展示中心顺利启幕。声智作为
    的头像 发表于 08-25 17:18 1041次阅读

    传音斩获WMT 2025国际机器翻译大赛四项冠军

    近日,在由国际计算语言学协会(ACL)主办的WMT 2025国际机器翻译大赛中,传音在低资源印度语言翻译任务(Low-Resource Indic Language Translation)中斩获
    的头像 发表于 08-06 18:21 1062次阅读

    广和通发布自研语音识别大模型FiboASR

    高效会议记录、多语种即时翻译等核心领域实现重大技术突破,致力于为终端用户带来更自然、高效、私密的语音交互体验。
    的头像 发表于 08-04 11:43 1381次阅读

    时空壶 T1 离线翻译机:解锁无网生活沟通自由

    频频“掉链子”。时空壶T1离线翻译机,凭借强大的侧AI模型与离线翻译能力,为人们在多元生活场景中打破语言壁垒,带来高效、稳定且流畅的沟通体验。一、全场景适配,出
    的头像 发表于 06-05 10:30 705次阅读
    时空壶 T1 离线<b class='flag-5'>翻译</b>机:解锁无网生活沟通自由

    小米汽车智驾技术介绍

    后起之秀,小米在宣布造车前被非常多的人质疑,但在“真香”定律下,小米创下了很多友商所不能及的成就。作为科技企业,小米也在智能驾驶领域也不断研发及突破,并推送了自动驾驶系统。 小米
    的头像 发表于 03-31 18:17 4798次阅读
    小米汽车<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>智驾<b class='flag-5'>技术</b>介绍

    AI助力实时翻译耳机

    你是否曾经因为语言障碍而无法与外国人顺畅交流?或者在旅行中因为语言不通而错过了一些精彩的经历?现在,随着AI技术的发展,实时翻译耳机可以帮你轻松解决这些问题。 1 什么是实时翻译耳机 实时翻译
    的头像 发表于 01-24 11:14 3331次阅读
    AI助力实时<b class='flag-5'>翻译</b>耳机

    自动驾驶技术研究与分析

    编者语:「智驾最前沿」微信公众号后台回复:C-0450,获取本文参考报告:《自动驾驶行业研究报告》pdf下载方式。 自动驾驶进入2024年,
    的头像 发表于 12-19 13:07 1528次阅读

    阶跃星辰发布国内首个千亿参数语音大模型

    近日,阶跃星辰在官方公众号上宣布了一项重大突破——推出Step-1o千亿参数语音大模型。该模型被誉为“国内首个千亿参数
    的头像 发表于 12-17 13:43 1069次阅读

    准确性超Moshi和GLM-4-Voice,语音双工模型Freeze-Omni

    GPT-4o 提供的全双工语音对话带来了一股研究热潮,目前诸多工作开始研究如何利用 LLM 来实现语音
    的头像 发表于 12-17 10:21 1333次阅读
    准确性超Moshi和GLM-4-Voice,<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>语音</b>双工模型Freeze-Omni