0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

跨越专业翻译的语言之墙:百度翻译的技术攀登

脑极体 来源:脑极体 作者:脑极体 2022-12-06 09:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作为一个科技从业者,阅读AI顶会的最新论文、浏览国内外创新的最新动向,是我工作的重要部分。平时接触的开发者、科学家、企业研究人员等,工作生活中也涉及大量专业阅读。

于是乎,我就会经常听到这样的抱怨:

PDF格式的论文,很多翻译软件需要手动复制粘贴,效率还不如直接查字典;

不动脑子按段落甚至句子直译,信达雅一个都没有,机翻完我还要花时间二次review;

海外开发社区的技术文档专业词汇太多,翻译得不准,好几天的代码都白写了……

这可能是AI技术里非常容易让人迷惑的地方。近几年随着AI技术快速进步,机器翻译水平也大幅提升,结果一遇到外文文献、外刊投稿、办公文档、商业报告、海外网站技术文档之类的专业翻译需求,很多产品还是不能满足。

这些问题说明,总体可读可懂,满足出国旅游、购物娱乐等日常沟通的场景,只是机器翻译的基本功能。进一步的市场需求,是深度专业内容的跨语言交流,让商业、科研、技术等专业信息可以实现无缝对接。

跨越这堵语言之墙,也成为一场NLP领域的全球竞赛。一直深耕机器翻译的百度翻译团队,从来没有停止过攀登的脚步。

我们从机器翻译的新技术动向说起,聊聊百度给机器翻译带来的新可能。

机器翻译的技术攀登:百度引领NMT革新

跨越语言之墙还需要哪些技术突破?想要回答这个问题,有必要先回答:机器翻译今天发展到哪一步了。

过去几十年间,人们一直在探索如何使得机器翻译达到人类的翻译水平,翻译方法不断迭代。基于规则的机器翻译,依靠人工编纂的双语词典和专家总结的规则进行翻译;基于实例的机器翻译,从双语对照的实例库中选择与原文相似度高的实例,通过模仿和修改进行翻译;基于统计的机器翻译,对翻译过程进行数学建模,并从大量的训练数据中自动学习翻译知识。

变革发生在2014年,通过循环神经网络(RNN)来对语言向量进行编码解码,并且使用长短期记忆网络(LSTM)来增强长句翻译能力的神经机器翻译(NMT),为机器翻译领域带来新的研发范式。百度、谷歌、微软等一批NLP领域的优等生推进深度学习在机器翻译领域的研发和应用,百度翻译在2015年发布了全球首个互联网NMT系统,领先谷歌1年多。现在,大家用翻译软件进行日常交流、旅游商务等活动,已经基本没有问题了。

而专业领域的翻译想要令人惊喜的进展,总的来说需要做到两件事:

一是技术突破。推动机器翻译不断接近专业翻译能力。头部厂商主要从几个方面努力:1. 预训练大模型,例如文心、GPT-3、BERT;2. 多语言统一建模和翻译;3. 面向垂直领域的高精度翻译模型。其中,百度作为更早进入NMT时代的科技企业,就在机器翻译技术上取得了国际领先的成果。2020 年,咨询机构Gartner在 《Hype Cycle for Natural Language Technologies》报告中,就将百度翻译列为神经网络机器翻译标杆机构。

二是产品设计。技术有所突破,还要通过成熟的产品设计和应用体验,让用户感知到专业机器翻译的价值。一些机器翻译产品可能技术很强,但由技术人员来主导产品设计,导致用户体验很糟糕。在这方面,具备互联网产品设计相关经验的厂商,自然能够更好地实现技术落地。比如百度翻译就打造了非常丰富的产品矩阵,支持PC端、移动端等各类终端设备,面向C端、B端的多种应用;支持文本、文档、图片、语音等多模态翻译,全方位满足各种翻译需求。百度翻译的产品优势,让普通用户可以低门槛、更便捷地用上专业机器翻译能力,目前日均响应的翻译请求已达千亿字符

从这个角度来看,百度翻译是国内少有的,能够同时占据技术和产品两个机器翻译高地的科技企业。那么,百度翻译究竟是如何翻越专业翻译的语言之墙?

耸立的语言墙:机器翻译进入专业领域的三道门槛

你可能会问,机器翻译都搞了快七十年,怎么专业领域的语言之墙依旧没有被攻克?

专业信息、学术资源、商业文件等翻译需求,是一块巨大的商业蛋糕,同时也是从未被彻底解决的痛点。这是因为专业领域的翻译,存在“三高”的要求:内容安全要求高、翻译准确率要求高、翻译效率与体验要求高。

内容安全要求高:专业文档往往涉及到科研创新、商业往来等信息,翻译过程中需要上传到云端或软件服务商的服务器进行操作,一旦硬件来源或软件使用权受限,或者服务不稳定,都会给专业用户带来麻烦和风险。

翻译准确率要求高:信达雅,信(即翻译准确率)排在第一位,专业翻译中存在大量专业单词、复杂长句子,容易出现歧义,软件翻译失之毫厘,内容准确度就谬以千里。

翻译效率与体验要求高:翻译软件的效率、易用性,直接影响到用户体验。很多人可能有这样的经历,有的软件不支持整篇文档翻译,手动复制粘贴连分段都不准确,翻译效果难以直视;有的PDF文档翻译成word后,原本的排版被打乱,还需要自己手动调整……这些都给用户带来了额外的负担。

所以,我们就从安全可靠、效果、效率这三个方面,来评测一下百度翻译的解决思路。

首先,安全可靠。

作为一名知识内容生产者,文档承载的是我安身立命之本,所以,数据安全几乎是我是否使用一款翻译工具的首要考量因素。同理,论文数据之于科研工作者、商业报告之于企业从业者、技术文档之于工程人员,安全隐私都是至关重要的。

深度学习平台是每个神经网络机器翻译模型的底层技术框架,市面上相当一部分翻译厂商的底层技术框架仍然使用TensorFlow(美国谷歌)和PyTorch(美国脸书)为代表的海外框架。非国产自研,可能在未来遭遇无硬件可搭载和无框架使用的窘境。

比如在使用海外平台DeepL的过程中,我就会经常遇到加载缓慢、连接不上的问题。海外翻译软件往往需要上传到海外企业的服务器,比如DeepL上传的文档会被发送到美国的Adobe公司。

0a3e42787a2c4c3e8cbac2233560ce4a~tplv-tt-shrink:640:0.image

与之相比,国内翻译产品就不会遇到这个困扰。以百度翻译为例,产品基于全面自研的飞桨深度学习框架,同时采用多种措施来保障数据安全,获得ISO27001等多项国内外权威信息安全管理认证。存储前,会先进行安全的加密操作;数据传输中,采用安全传输层协议(TLS),保障保密性和数据完整性,并提供完备的密钥管理机制和加密措施;用户删除数据后,后台将同步删除相关内容,不会留存。总体来说,在可靠性和安全性上更有保障。

第二,翻译效果。

专业翻译最终要靠结果的“信、达、雅”说话。包括专业术语翻译是否准确,语序是否流畅连贯,一些特定文化背景的表达是否地道……

可以看到,百度翻译通过多个专业领域模型,有效增强翻译准确度。我们随机选取了《自然》杂志的一篇生物领域论文《A pan-cancer compendium of chromosomal instability染色体不稳定性的泛癌症纲要》,选择百度翻译的“生物医药“模型后,结合上下文语义给出了准确的翻译。可以看到,生物医药这类充满大量专业术语的领域,百度翻译的结果并没有让人失望。

c00cdd27ce7f477cac8369465eef4bf5~tplv-tt-shrink:640:0.image

对于学术文章中复杂的长句子和特定格式,百度翻译能够识别论文格式中的各种基本要素,如正文、引用、尾注等,避免错译、漏译。以这篇AAAI 2022的顶会论文《Meta-Learning for Online Update of Recommender Systems》为例,百度翻译就准确保留了参考文献引用信息,这对阅读专业文献非常有帮助。

3f5b2eef4aeb48ea8c548616da5681bf~tplv-tt-shrink:640:0.image

第三,翻译效率。

专业领域的机器翻译,用户的一个关键痛点是:很多地方需要用户“不厌其烦”地手动操作或反复修改。而拥有十多年翻译产品经验的百度,自然也在应用能力上游刃有余。百度翻译将这些“烦点”一一消解,提升翻译效率和文档的可读性、易读性,从而减少用户手动调整、修改的麻烦,将时间精力放在更有创造力的事情上。

首先,百度翻译支持多种格式文档,一键上传就能进行全篇翻译。像PDF这种不能编辑的文档,可以完整地保留样式和排版,不需要用户手动将文字复制粘贴到翻译软件中,并且提供整页预览模式、逐句对照模式等,不同需求的用户可以自主选择来提升效率。

比如下面这份《英国人工智能研发商业化和标准》,这类咨询机构的商业报告,是很多产业研究者、高校师生、政策制定者等工作学习中的参考读物,快捷、高效地阅读体验,能够帮大家节省不少时间。将PDF文件一键上传到百度翻译,就能快速得到准确地译文,排版格式也与原文保持高度一致,大大方便了阅读。

d1d0d8bb6c9e4f9aa9d5577785fa1ec9~tplv-tt-shrink:640:0.image

输入数据的准确性对翻译结果起到至关重要的影响,文本纠错是机器翻译的关键能力之一。专业领域容易遇到一些佶屈聱牙、拼写复杂的专用术语、学术名词等,百度翻译的智能纠错,可以对语句自动检查、实时提示、自动纠错,减少人工校验成本。

此外,百度翻译通过人机共译智能增强,语料自动沉淀,机器自动学习,翻译模型实时增强,逐渐缩小机器翻译与理想译文之间的差距,实现越翻越省力,真正提升效率。

英国诗人塞缪尔·约翰逊曾说过,语言是科学的唯一工具。整体来看,百度翻译已经在专业论文、学术文献等领域,展现出了强大的翻译能力,帮专业人士翻越了语言这堵高墙,把语言这个工具交到了每一个需要在专业领域跨语言协作的人手中。

翻山越岭之后,语言墙背后的宏大场景

从百度翻译的技术体系和产品设计中,可以看到,机器翻译要进入专业领域,不光要有技术,还要有较强的产品设计能力,考验的是企业的综合实力。机器翻译进入专业领域,也推动翻译应用来到了新的赛点。

重建巴别塔。专业领域的语言壁垒,为知识、信息、资源的流动树立起极高的门槛,比如目前全球有六成以上各类文献资料和科研论文都是用英文撰写,其他语种也蕴含着大量的知识宝藏。越来越多的人使用百度翻译来突破语言的阻碍,让专业领域的协作没有障碍,将大大促进全球的知识交流与传播,支撑科技创新、实现知识公平。

重塑机翻格局。专业领域的机器翻译,相比生活化场景,有着更高的壁垒与更强劲的需求,无论市场容量、付费意愿、付费潜力,以及用户忠诚度,都是非常高的。百度翻译凭借优秀的专业翻译能力,可以建立起差异化优势,进入商业化的良性循环,在机器翻译市场格局中进一步领先。

借助翻译,人类社会从相互阻隔走向了相互交往。今天,世界科技、经济与文化更为频繁地展开交流,面对浩如烟海的信息与知识,仅靠数量有限的专业翻译人士,很难满足大众对专业翻译的需求。幸好,机器翻译开辟了一条新的跨语言沟通之路。七十年来,机器翻译技术不断迭代,有着旺盛的生命力,那是一代又一代技术人,在为重建巴别塔的理想而不断努力。

随着百度翻译等产品推动机器翻译向专业领域不断深入,人们可以展开更专业、更精深的跨语言交流,机器翻译正成为助力全球交流的一股重要力量。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38121

    浏览量

    296675
  • 百度
    +关注

    关注

    9

    文章

    2368

    浏览量

    94238
  • 机器翻译
    +关注

    关注

    0

    文章

    141

    浏览量

    15466
  • NMT
    NMT
    +关注

    关注

    0

    文章

    7

    浏览量

    3814
  • rnn
    rnn
    +关注

    关注

    0

    文章

    91

    浏览量

    7300
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度世界大会亮点 五年五芯 百度宣布打造最硬AI云

    自2006年以来,百度世界大会已连续举办近20届,百度世界大会是百度每年面向行业、媒体、合作伙伴和广大用户的最高级别盛事,作为百度年度最重要的的战略、
    的头像 发表于 11-13 15:47 1087次阅读

    百度世界2025进行中 百度昆仑芯超节点亮相 性能巨幅提升

    百度世界大会是百度每年面向行业、媒体、合作伙伴和广大用户的最高级别盛事,作为百度年度最重要的的战略、技术、产品发布会,自2006年以来已连续举办19年,持续为行业搭建起交流前沿
    的头像 发表于 11-13 11:51 945次阅读

    国庆出国游,时空壶新T1翻译机,首个端侧模型突破助力跨语言交流

    国庆将至,众多游客计划出国旅行,跨语言交流的顺畅与否成为影响旅行体验的重要因素。时空壶新T1翻译机作为行业技术领先产品,凭借其独特优势,为游客在海外的沟通交流保驾护航。新T1作为时空壶翻译
    的头像 发表于 09-12 12:20 831次阅读
    国庆出国游,时空壶新T1<b class='flag-5'>翻译</b>机,首个端侧模型突破助力跨<b class='flag-5'>语言</b>交流

    翻译失去网络,时空壶新T1翻译机开创首个离线模型赋能全球沟通新体验

    全球首创的离线端侧AI翻译模型,这一技术突破堪称行业变革性创举。与传统依赖网络或仅靠静态离线语言包的翻译设备不同,T1的离线模型基于先进的端侧大模型轻量化
    的头像 发表于 09-08 16:52 909次阅读
    当<b class='flag-5'>翻译</b>失去网络,时空壶新T1<b class='flag-5'>翻译</b>机开创首个离线模型赋能全球沟通新体验

    水表界的“翻译官”:让CCLinkIE和Modbus TCP“无障碍聊天”!

    。别急,这位“双语翻译官”——耐达讯通信技术协议转换网关,能让它们秒变“知己”! 专业翻译,消除“语言壁垒” 耐达讯通信技术协议转换网关堪称
    发表于 07-10 15:43

    百度地图重磅发布地图AI开放平台

    近日,在WGDC25全球时空智能大会上,百度地图重磅发布地图AI开放平台。百度地图深耕20年的数据能力、引擎能力与AI技术全面开放,向开发者深度开放四大核心能力和五大场景解决方案。
    的头像 发表于 05-26 11:26 1382次阅读

    百度在AI领域的最新进展

    近日,我们在武汉举办了Create2025百度AI开发者大会,与全球各地的5000多名开发者,分享了百度在AI领域的新进展。
    的头像 发表于 04-30 10:14 1094次阅读

    上汽大众与百度地图达成战略合作

    近日,上海国际车展期间,百度地图与上汽大众举行科技X生态战略合作伙伴签约仪式,双方将基于百度领先的车道级地图产品,为上汽大众千万车主打造更安全、高效的智能化出行体验。上汽大众总经理陶海龙、百度副总裁尚国斌等出席签约仪式。
    的头像 发表于 04-29 17:28 1018次阅读

    百度AI手语数字人助力听障人士“听见”声音

    近几年,百度先后与天津理工大学、鲸言科技合作,共同研发出百度智能云曦灵AI手语平台与双向手语翻译机,让手语的“声音”,被更多人听见。
    的头像 发表于 02-21 11:29 1297次阅读

    百度文心大模型将升级并开源

    百度近日宣布,其文心大模型系列将迎来新版本升级,计划在未来数月内逐步推出文心大模型4.5系列。这一消息无疑为AI领域注入了新的活力。 据悉,百度文心大模型4.5系列将在技术上进行全面优化,旨在为用户
    的头像 发表于 02-14 14:25 744次阅读

    AI助力实时翻译耳机

    你是否曾经因为语言障碍而无法与外国人顺畅交流?或者在旅行中因为语言不通而错过了一些精彩的经历?现在,随着AI技术的发展,实时翻译耳机可以帮你轻松解决这些问题。 1 什么是实时
    的头像 发表于 01-24 11:14 3290次阅读
    AI助力实时<b class='flag-5'>翻译</b>耳机

    百度科启动“繁星计划”

    近日,百度科携手中国科协、中国科学院大学共同举办了史记2024·科学科100词发布会,并在此盛会上正式启动了“繁星计划”。这一计划的核心目标在于利用前沿的AI技术,包括数字人、智能
    的头像 发表于 12-31 10:26 1156次阅读

    百度进军短剧领域,计划全面升级平台

    近日,据天眼查知识产权信息显示,百度在线网络技术(北京)有限公司已经正式申请注册了“百度短剧”商标。该商标的国际分类涵盖了网站服务、科学仪器以及教育娱乐等多个领域,且当前商标状态均为等待实质审查
    的头像 发表于 12-19 10:25 1074次阅读

    百度正式回应进军短剧领域

    近日,百度在线网络技术(北京)有限公司在知识产权领域有了新的动作,据天眼查信息显示,该公司已申请注册“百度短剧”商标,涵盖网站服务、科学仪器、教育娱乐等多个国际分类,目前这些商标均处于等待实质审查
    的头像 发表于 12-17 14:19 853次阅读

    LLMWorld上线代码翻译新工具——问丫·码语翻译侠,快来体验!

    01. 工具介绍 aicode.llmworld.net 问丫·码语翻译侠 是一款由LLMWorld新推出的代码翻译工具,支持各种语言之间的翻译,包括计算机
    的头像 发表于 12-09 11:11 1604次阅读
    LLMWorld上线代码<b class='flag-5'>翻译</b>新工具——问丫·码语<b class='flag-5'>翻译</b>侠,快来体验!