利用计算机把一种自然语言转变成另一种自然语言的过程就是机器翻译。
机器翻译对于信息时代下海量信息的捕获无疑具有重要作用,事实上,人们对于机器翻译的需求也与日俱增。除了专业的出版水平的翻译,机器翻译还包括以了解信息或以交流信息为目的的机器翻译。
多语言翻译是机器翻译需要面临的一大技术现实。其中,一个理想的模型是一个统一的具备多种语言能力的模型,在遇到新的语言时,临时少量学习即可达到很流利的语言水平。
EMNLP 2020 最新的多语言翻译新范式 multilingual Random Aligned Substitution Pre-training (mRASP)就成功实现了这一理想模型:mRASP通过预训练技术再在具体语种上微调即可达到领先的翻译效果,其在 32 个语种上预训练出的统一模型在 47 个翻译测试集上取得了全面显著地提升。
不同于以往的翻译模式,mRASP树立了翻译的预训练和微调的成功路径。mRASP中的关键思想就是一种新的随机对齐子串技术,它使具有相似意义的单词和短语更接近多种语言的表现空间。研究人员预先训练了32种语言,对联合的mrap模型建立公共数据集。模型就是这样对下游语言对进行微调以获得专门的机器翻译模型。

研究人员在不同环境下对42个翻译方向进行了广泛的实验,包括跨文化的异国语言等。实验结果表明,与传统的mRASP相比,mRASP对训练目标具有显著的性能改进。这也是其第一次验证多个低资源语言对可以用来证明丰富的资源机器翻译,甚至可以提高关于训练前语料库中从未出现过的外来语的翻译质量。
mRASP 主要针对机器翻译任务而设计,它有三个应用优势:
一是打破了资源场景的限制,不论平行双语资源高低都能有所提升。在资源丰富的语言,比如标准英法翻译任务上已经有 4000 万平行语句训练情况下,使用 mRASP 依然能获得显著提升,达到了 44.3 的 BLEU 值。
二是打破了语种数量的限制。任何语言的翻译,无论是孟加拉语到古吉拉特语还是印地语到菲利宾语,只要是地球上的语言,mRASP 都可以直接拿来微调,并且效果可期。
三是资源消耗低。相比于上百张卡的“军备竞赛”预训练玩法,mRASP 更平民,仅需要 8 卡训练一周就可以得到。
随着计算机运算能力的提升和多语言信息资源的爆发式增长,机器翻译技术日益精进,未来还将为普通用户提供更加实时便捷的翻译服务。
责任编辑:xj
-
人工智能
+关注
关注
1813文章
49741浏览量
261561 -
机器翻译
+关注
关注
0文章
141浏览量
15466
发布评论请先 登录
视美泰发布AI即时翻译机解决方案,硬核配置+多语种覆盖破解跨语言沟通难题
智能“翻译官”:MODBUS转PROFIBUS网关,解锁搅拌站无人装载新纪元
亮亮视野AR翻译眼镜闪耀2025进博会国际论坛
声智科技AI翻译耳机重塑智能听觉体验
国庆出国游,时空壶新T1翻译机,首个端侧模型突破助力跨语言交流
当翻译失去网络,时空壶新T1翻译机开创首个离线模型赋能全球沟通新体验
声智科技出席2025年北京市多语种AI语音翻译大赛
挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器
挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!
传音斩获WMT 2025国际机器翻译大赛四项冠军
时空壶 T1 离线翻译机:解锁无网生活沟通自由
我国生成式人工智能的发展现状与趋势
影目科技发布全球首款同传翻译眼镜INMO GO2
LLMWorld上线代码翻译新工具——问丫·码语翻译侠,快来体验!

人工智能翻译mRASP:可翻译32种语言
评论