0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

跨越专业翻译的语言之墙:百度翻译的技术攀登

脑极体 来源:脑极体 作者:脑极体 2022-12-06 09:26 次阅读

作为一个科技从业者,阅读AI顶会的最新论文、浏览国内外创新的最新动向,是我工作的重要部分。平时接触的开发者、科学家、企业研究人员等,工作生活中也涉及大量专业阅读。

于是乎,我就会经常听到这样的抱怨:

PDF格式的论文,很多翻译软件需要手动复制粘贴,效率还不如直接查字典;

不动脑子按段落甚至句子直译,信达雅一个都没有,机翻完我还要花时间二次review;

海外开发社区的技术文档专业词汇太多,翻译得不准,好几天的代码都白写了……

这可能是AI技术里非常容易让人迷惑的地方。近几年随着AI技术快速进步,机器翻译水平也大幅提升,结果一遇到外文文献、外刊投稿、办公文档、商业报告、海外网站技术文档之类的专业翻译需求,很多产品还是不能满足。

这些问题说明,总体可读可懂,满足出国旅游、购物娱乐等日常沟通的场景,只是机器翻译的基本功能。进一步的市场需求,是深度专业内容的跨语言交流,让商业、科研、技术等专业信息可以实现无缝对接。

跨越这堵语言之墙,也成为一场NLP领域的全球竞赛。一直深耕机器翻译的百度翻译团队,从来没有停止过攀登的脚步。

我们从机器翻译的新技术动向说起,聊聊百度给机器翻译带来的新可能。

机器翻译的技术攀登:百度引领NMT革新

跨越语言之墙还需要哪些技术突破?想要回答这个问题,有必要先回答:机器翻译今天发展到哪一步了。

过去几十年间,人们一直在探索如何使得机器翻译达到人类的翻译水平,翻译方法不断迭代。基于规则的机器翻译,依靠人工编纂的双语词典和专家总结的规则进行翻译;基于实例的机器翻译,从双语对照的实例库中选择与原文相似度高的实例,通过模仿和修改进行翻译;基于统计的机器翻译,对翻译过程进行数学建模,并从大量的训练数据中自动学习翻译知识。

变革发生在2014年,通过循环神经网络(RNN)来对语言向量进行编码解码,并且使用长短期记忆网络(LSTM)来增强长句翻译能力的神经机器翻译(NMT),为机器翻译领域带来新的研发范式。百度、谷歌、微软等一批NLP领域的优等生推进深度学习在机器翻译领域的研发和应用,百度翻译在2015年发布了全球首个互联网NMT系统,领先谷歌1年多。现在,大家用翻译软件进行日常交流、旅游商务等活动,已经基本没有问题了。

而专业领域的翻译想要令人惊喜的进展,总的来说需要做到两件事:

一是技术突破。推动机器翻译不断接近专业翻译能力。头部厂商主要从几个方面努力:1. 预训练大模型,例如文心、GPT-3、BERT;2. 多语言统一建模和翻译;3. 面向垂直领域的高精度翻译模型。其中,百度作为更早进入NMT时代的科技企业,就在机器翻译技术上取得了国际领先的成果。2020 年,咨询机构Gartner在 《Hype Cycle for Natural Language Technologies》报告中,就将百度翻译列为神经网络机器翻译标杆机构。

二是产品设计。技术有所突破,还要通过成熟的产品设计和应用体验,让用户感知到专业机器翻译的价值。一些机器翻译产品可能技术很强,但由技术人员来主导产品设计,导致用户体验很糟糕。在这方面,具备互联网产品设计相关经验的厂商,自然能够更好地实现技术落地。比如百度翻译就打造了非常丰富的产品矩阵,支持PC端、移动端等各类终端设备,面向C端、B端的多种应用;支持文本、文档、图片、语音等多模态翻译,全方位满足各种翻译需求。百度翻译的产品优势,让普通用户可以低门槛、更便捷地用上专业机器翻译能力,目前日均响应的翻译请求已达千亿字符

从这个角度来看,百度翻译是国内少有的,能够同时占据技术和产品两个机器翻译高地的科技企业。那么,百度翻译究竟是如何翻越专业翻译的语言之墙?

耸立的语言墙:机器翻译进入专业领域的三道门槛

你可能会问,机器翻译都搞了快七十年,怎么专业领域的语言之墙依旧没有被攻克?

专业信息、学术资源、商业文件等翻译需求,是一块巨大的商业蛋糕,同时也是从未被彻底解决的痛点。这是因为专业领域的翻译,存在“三高”的要求:内容安全要求高、翻译准确率要求高、翻译效率与体验要求高。

内容安全要求高:专业文档往往涉及到科研创新、商业往来等信息,翻译过程中需要上传到云端或软件服务商的服务器进行操作,一旦硬件来源或软件使用权受限,或者服务不稳定,都会给专业用户带来麻烦和风险。

翻译准确率要求高:信达雅,信(即翻译准确率)排在第一位,专业翻译中存在大量专业单词、复杂长句子,容易出现歧义,软件翻译失之毫厘,内容准确度就谬以千里。

翻译效率与体验要求高:翻译软件的效率、易用性,直接影响到用户体验。很多人可能有这样的经历,有的软件不支持整篇文档翻译,手动复制粘贴连分段都不准确,翻译效果难以直视;有的PDF文档翻译成word后,原本的排版被打乱,还需要自己手动调整……这些都给用户带来了额外的负担。

所以,我们就从安全可靠、效果、效率这三个方面,来评测一下百度翻译的解决思路。

首先,安全可靠。

作为一名知识内容生产者,文档承载的是我安身立命之本,所以,数据安全几乎是我是否使用一款翻译工具的首要考量因素。同理,论文数据之于科研工作者、商业报告之于企业从业者、技术文档之于工程人员,安全隐私都是至关重要的。

深度学习平台是每个神经网络机器翻译模型的底层技术框架,市面上相当一部分翻译厂商的底层技术框架仍然使用TensorFlow(美国谷歌)和PyTorch(美国脸书)为代表的海外框架。非国产自研,可能在未来遭遇无硬件可搭载和无框架使用的窘境。

比如在使用海外平台DeepL的过程中,我就会经常遇到加载缓慢、连接不上的问题。海外翻译软件往往需要上传到海外企业的服务器,比如DeepL上传的文档会被发送到美国的Adobe公司

0a3e42787a2c4c3e8cbac2233560ce4a~tplv-tt-shrink:640:0.image

与之相比,国内翻译产品就不会遇到这个困扰。以百度翻译为例,产品基于全面自研的飞桨深度学习框架,同时采用多种措施来保障数据安全,获得ISO27001等多项国内外权威信息安全管理认证。存储前,会先进行安全的加密操作;数据传输中,采用安全传输层协议(TLS),保障保密性和数据完整性,并提供完备的密钥管理机制和加密措施;用户删除数据后,后台将同步删除相关内容,不会留存。总体来说,在可靠性和安全性上更有保障。

第二,翻译效果。

专业翻译最终要靠结果的“信、达、雅”说话。包括专业术语翻译是否准确,语序是否流畅连贯,一些特定文化背景的表达是否地道……

可以看到,百度翻译通过多个专业领域模型,有效增强翻译准确度。我们随机选取了《自然》杂志的一篇生物领域论文《A pan-cancer compendium of chromosomal instability染色体不稳定性的泛癌症纲要》,选择百度翻译的“生物医药“模型后,结合上下文语义给出了准确的翻译。可以看到,生物医药这类充满大量专业术语的领域,百度翻译的结果并没有让人失望。

c00cdd27ce7f477cac8369465eef4bf5~tplv-tt-shrink:640:0.image

对于学术文章中复杂的长句子和特定格式,百度翻译能够识别论文格式中的各种基本要素,如正文、引用、尾注等,避免错译、漏译。以这篇AAAI 2022的顶会论文《Meta-Learning for Online Update of Recommender Systems》为例,百度翻译就准确保留了参考文献引用信息,这对阅读专业文献非常有帮助。

3f5b2eef4aeb48ea8c548616da5681bf~tplv-tt-shrink:640:0.image

第三,翻译效率。

专业领域的机器翻译,用户的一个关键痛点是:很多地方需要用户“不厌其烦”地手动操作或反复修改。而拥有十多年翻译产品经验的百度,自然也在应用能力上游刃有余。百度翻译将这些“烦点”一一消解,提升翻译效率和文档的可读性、易读性,从而减少用户手动调整、修改的麻烦,将时间精力放在更有创造力的事情上。

首先,百度翻译支持多种格式文档,一键上传就能进行全篇翻译。像PDF这种不能编辑的文档,可以完整地保留样式和排版,不需要用户手动将文字复制粘贴到翻译软件中,并且提供整页预览模式、逐句对照模式等,不同需求的用户可以自主选择来提升效率。

比如下面这份《英国人工智能研发商业化和标准》,这类咨询机构的商业报告,是很多产业研究者、高校师生、政策制定者等工作学习中的参考读物,快捷、高效地阅读体验,能够帮大家节省不少时间。将PDF文件一键上传到百度翻译,就能快速得到准确地译文,排版格式也与原文保持高度一致,大大方便了阅读。

d1d0d8bb6c9e4f9aa9d5577785fa1ec9~tplv-tt-shrink:640:0.image

输入数据的准确性对翻译结果起到至关重要的影响,文本纠错是机器翻译的关键能力之一。专业领域容易遇到一些佶屈聱牙、拼写复杂的专用术语、学术名词等,百度翻译的智能纠错,可以对语句自动检查、实时提示、自动纠错,减少人工校验成本。

此外,百度翻译通过人机共译智能增强,语料自动沉淀,机器自动学习,翻译模型实时增强,逐渐缩小机器翻译与理想译文之间的差距,实现越翻越省力,真正提升效率。

英国诗人塞缪尔·约翰逊曾说过,语言是科学的唯一工具。整体来看,百度翻译已经在专业论文、学术文献等领域,展现出了强大的翻译能力,帮专业人士翻越了语言这堵高墙,把语言这个工具交到了每一个需要在专业领域跨语言协作的人手中。

翻山越岭之后,语言墙背后的宏大场景

从百度翻译的技术体系和产品设计中,可以看到,机器翻译要进入专业领域,不光要有技术,还要有较强的产品设计能力,考验的是企业的综合实力。机器翻译进入专业领域,也推动翻译应用来到了新的赛点。

重建巴别塔。专业领域的语言壁垒,为知识、信息、资源的流动树立起极高的门槛,比如目前全球有六成以上各类文献资料和科研论文都是用英文撰写,其他语种也蕴含着大量的知识宝藏。越来越多的人使用百度翻译来突破语言的阻碍,让专业领域的协作没有障碍,将大大促进全球的知识交流与传播,支撑科技创新、实现知识公平。

重塑机翻格局。专业领域的机器翻译,相比生活化场景,有着更高的壁垒与更强劲的需求,无论市场容量、付费意愿、付费潜力,以及用户忠诚度,都是非常高的。百度翻译凭借优秀的专业翻译能力,可以建立起差异化优势,进入商业化的良性循环,在机器翻译市场格局中进一步领先。

借助翻译,人类社会从相互阻隔走向了相互交往。今天,世界科技、经济与文化更为频繁地展开交流,面对浩如烟海的信息与知识,仅靠数量有限的专业翻译人士,很难满足大众对专业翻译的需求。幸好,机器翻译开辟了一条新的跨语言沟通之路。七十年来,机器翻译技术不断迭代,有着旺盛的生命力,那是一代又一代技术人,在为重建巴别塔的理想而不断努力。

随着百度翻译等产品推动机器翻译向专业领域不断深入,人们可以展开更专业、更精深的跨语言交流,机器翻译正成为助力全球交流的一股重要力量。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26459

    浏览量

    264088
  • 百度
    +关注

    关注

    9

    文章

    2172

    浏览量

    88927
  • 机器翻译
    +关注

    关注

    0

    文章

    138

    浏览量

    14794
  • NMT
    NMT
    +关注

    关注

    0

    文章

    7

    浏览量

    3600
  • rnn
    rnn
    +关注

    关注

    0

    文章

    67

    浏览量

    6803
收藏 人收藏

    评论

    相关推荐

    PLC常用专业英文词汇翻译总结

    PLC编程中我们经常会遇到一些专业英文词汇,对于入门的学员来说过理解起来是非常困难的。本文总结了一些PLC常用专业英文词汇,并做已翻译
    的头像 发表于 03-19 11:40 1034次阅读

    新品上市,公有云轻安防就选目凌云! #人工智能 #目 #目凌云 #百度智能云

    人工智能百度智能云
    jf_98614062
    发布于 :2024年02月19日 11:39:42

    TooliP - 智能专利文件翻译工具,节省80%翻译时间

    在面对专利文件的独特要求,如高度严谨的术语和精准度时,其他普通翻译工具往往显得乏力。TooliP赋予用户简化流程并显著节约时间的机会,平均能节省约80%的翻译时间。
    的头像 发表于 12-20 14:48 511次阅读

    基于机器翻译增加的跨语言机器阅读理解算法

    近日,阿里云人工智能平台 PAI 与华南理工大学朱金辉教授团队、达摩院自然语言处理团队合作在自然语言处理顶级会议 EMNLP2023 上发表基于机器翻译增加的跨语言机器阅读理解算法 X
    的头像 发表于 12-12 10:28 359次阅读
    基于机器<b class='flag-5'>翻译</b>增加的跨<b class='flag-5'>语言</b>机器阅读理解算法

    教你Python自制屏幕翻译工具

    1. 场景 大家如果平常遇到不认识的英文,相信大部分的人都会复制内容后,使用翻译软件,或者拷贝到网站上去执行翻译。 当然,对于 IDE、浏览器可以装一些插件来翻译,有道也有划词翻译
    的头像 发表于 11-02 16:02 350次阅读
    教你Python自制屏幕<b class='flag-5'>翻译</b>工具

    仿真人类的微软AI翻译系统

    从历史上看,曾经主流的机器学习技术在行业中应用是统计机器翻译 (SMT)。SMT 使用先进的统计分析,从一句话中上下文的几个词中来估计最佳可能的翻译。SMT自20 世纪中期以来的为所有主要翻译
    的头像 发表于 10-11 15:27 564次阅读

    使用TouchGFX二进制翻译(Binary Translation)功能实现动态更新翻译

    电子发烧友网站提供《使用TouchGFX二进制翻译(Binary Translation)功能实现动态更新翻译.pdf》资料免费下载
    发表于 09-19 16:48 1次下载
    使用TouchGFX二进制<b class='flag-5'>翻译</b>(Binary Translation)功能实现动态更新<b class='flag-5'>翻译</b>

    鸿蒙升级3.0.0,百度导着航,系统中途会关闭我的定位

    然后百度显示没有定位了,就自动开启智能导航。系统决定我的定位开关设置在哪里,我记得以前开定位是手动开关的。升级后,下拉菜单打开定位,百度导航开着一会系统定位就被关闭了。害得我跑错了好多路。现在就是我的百度导航根本没法用
    发表于 09-03 23:34

    Transformers是什么意思?人工智能transformer怎么翻译

    Transformers是什么意思?transformer怎么翻译?人工智能transformer怎么翻译? Transformers是一个包含自然语言处理中的基础技术的深度神经网络。
    的头像 发表于 08-22 15:59 2222次阅读

    人工智能会取代翻译

    在某些场景下,如翻译普通商务文档、新闻报道以及其他非技术性的文章等,机器翻译的正确率已经非常接近人类翻译了。然而,在涉及到一些重要的领域,例如法律、药学甚至是文学等相关领域,机器
    的头像 发表于 08-14 14:29 764次阅读

    机器翻译研究进展

    机器翻译使用计算机将一种语言翻译成另一种语言,具有低成本、高效率和高翻译质量等优势,在语音翻译
    的头像 发表于 07-06 11:19 420次阅读
    机器<b class='flag-5'>翻译</b>研究进展

    e-AI翻译机V1.4.0使用说明

    e-AI翻译机V1.4.0使用说明
    发表于 07-05 18:51 0次下载
    e-AI<b class='flag-5'>翻译</b>机V1.4.0使用说明

    e-AI翻译机V2.2.0 用户手册

    e-AI翻译机V2.2.0 用户手册
    发表于 06-30 20:55 1次下载
    e-AI<b class='flag-5'>翻译</b>机V2.2.0 用户手册

    PyTorch教程10.5之机器翻译和数据集

    电子发烧友网站提供《PyTorch教程10.5之机器翻译和数据集.pdf》资料免费下载
    发表于 06-05 15:14 0次下载
    PyTorch教程10.5之机器<b class='flag-5'>翻译</b>和数据集

    语言模型的多语言机器翻译能力分析

    以ChatGPT为代表的大语言模型(Large Language Models, LLM)在机器翻译(Machine Translation, MT)任务上展现出了惊人的潜力。
    的头像 发表于 05-17 09:56 1018次阅读
    大<b class='flag-5'>语言</b>模型的多<b class='flag-5'>语言</b>机器<b class='flag-5'>翻译</b>能力分析