0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

跨越专业翻译的语言之墙:百度翻译的技术攀登

脑极体 来源:脑极体 作者:脑极体 2022-12-06 09:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作为一个科技从业者,阅读AI顶会的最新论文、浏览国内外创新的最新动向,是我工作的重要部分。平时接触的开发者、科学家、企业研究人员等,工作生活中也涉及大量专业阅读。

于是乎,我就会经常听到这样的抱怨:

PDF格式的论文,很多翻译软件需要手动复制粘贴,效率还不如直接查字典;

不动脑子按段落甚至句子直译,信达雅一个都没有,机翻完我还要花时间二次review;

海外开发社区的技术文档专业词汇太多,翻译得不准,好几天的代码都白写了……

这可能是AI技术里非常容易让人迷惑的地方。近几年随着AI技术快速进步,机器翻译水平也大幅提升,结果一遇到外文文献、外刊投稿、办公文档、商业报告、海外网站技术文档之类的专业翻译需求,很多产品还是不能满足。

这些问题说明,总体可读可懂,满足出国旅游、购物娱乐等日常沟通的场景,只是机器翻译的基本功能。进一步的市场需求,是深度专业内容的跨语言交流,让商业、科研、技术等专业信息可以实现无缝对接。

跨越这堵语言之墙,也成为一场NLP领域的全球竞赛。一直深耕机器翻译的百度翻译团队,从来没有停止过攀登的脚步。

我们从机器翻译的新技术动向说起,聊聊百度给机器翻译带来的新可能。

机器翻译的技术攀登:百度引领NMT革新

跨越语言之墙还需要哪些技术突破?想要回答这个问题,有必要先回答:机器翻译今天发展到哪一步了。

过去几十年间,人们一直在探索如何使得机器翻译达到人类的翻译水平,翻译方法不断迭代。基于规则的机器翻译,依靠人工编纂的双语词典和专家总结的规则进行翻译;基于实例的机器翻译,从双语对照的实例库中选择与原文相似度高的实例,通过模仿和修改进行翻译;基于统计的机器翻译,对翻译过程进行数学建模,并从大量的训练数据中自动学习翻译知识。

变革发生在2014年,通过循环神经网络(RNN)来对语言向量进行编码解码,并且使用长短期记忆网络(LSTM)来增强长句翻译能力的神经机器翻译(NMT),为机器翻译领域带来新的研发范式。百度、谷歌、微软等一批NLP领域的优等生推进深度学习在机器翻译领域的研发和应用,百度翻译在2015年发布了全球首个互联网NMT系统,领先谷歌1年多。现在,大家用翻译软件进行日常交流、旅游商务等活动,已经基本没有问题了。

而专业领域的翻译想要令人惊喜的进展,总的来说需要做到两件事:

一是技术突破。推动机器翻译不断接近专业翻译能力。头部厂商主要从几个方面努力:1. 预训练大模型,例如文心、GPT-3、BERT;2. 多语言统一建模和翻译;3. 面向垂直领域的高精度翻译模型。其中,百度作为更早进入NMT时代的科技企业,就在机器翻译技术上取得了国际领先的成果。2020 年,咨询机构Gartner在 《Hype Cycle for Natural Language Technologies》报告中,就将百度翻译列为神经网络机器翻译标杆机构。

二是产品设计。技术有所突破,还要通过成熟的产品设计和应用体验,让用户感知到专业机器翻译的价值。一些机器翻译产品可能技术很强,但由技术人员来主导产品设计,导致用户体验很糟糕。在这方面,具备互联网产品设计相关经验的厂商,自然能够更好地实现技术落地。比如百度翻译就打造了非常丰富的产品矩阵,支持PC端、移动端等各类终端设备,面向C端、B端的多种应用;支持文本、文档、图片、语音等多模态翻译,全方位满足各种翻译需求。百度翻译的产品优势,让普通用户可以低门槛、更便捷地用上专业机器翻译能力,目前日均响应的翻译请求已达千亿字符

从这个角度来看,百度翻译是国内少有的,能够同时占据技术和产品两个机器翻译高地的科技企业。那么,百度翻译究竟是如何翻越专业翻译的语言之墙?

耸立的语言墙:机器翻译进入专业领域的三道门槛

你可能会问,机器翻译都搞了快七十年,怎么专业领域的语言之墙依旧没有被攻克?

专业信息、学术资源、商业文件等翻译需求,是一块巨大的商业蛋糕,同时也是从未被彻底解决的痛点。这是因为专业领域的翻译,存在“三高”的要求:内容安全要求高、翻译准确率要求高、翻译效率与体验要求高。

内容安全要求高:专业文档往往涉及到科研创新、商业往来等信息,翻译过程中需要上传到云端或软件服务商的服务器进行操作,一旦硬件来源或软件使用权受限,或者服务不稳定,都会给专业用户带来麻烦和风险。

翻译准确率要求高:信达雅,信(即翻译准确率)排在第一位,专业翻译中存在大量专业单词、复杂长句子,容易出现歧义,软件翻译失之毫厘,内容准确度就谬以千里。

翻译效率与体验要求高:翻译软件的效率、易用性,直接影响到用户体验。很多人可能有这样的经历,有的软件不支持整篇文档翻译,手动复制粘贴连分段都不准确,翻译效果难以直视;有的PDF文档翻译成word后,原本的排版被打乱,还需要自己手动调整……这些都给用户带来了额外的负担。

所以,我们就从安全可靠、效果、效率这三个方面,来评测一下百度翻译的解决思路。

首先,安全可靠。

作为一名知识内容生产者,文档承载的是我安身立命之本,所以,数据安全几乎是我是否使用一款翻译工具的首要考量因素。同理,论文数据之于科研工作者、商业报告之于企业从业者、技术文档之于工程人员,安全隐私都是至关重要的。

深度学习平台是每个神经网络机器翻译模型的底层技术框架,市面上相当一部分翻译厂商的底层技术框架仍然使用TensorFlow(美国谷歌)和PyTorch(美国脸书)为代表的海外框架。非国产自研,可能在未来遭遇无硬件可搭载和无框架使用的窘境。

比如在使用海外平台DeepL的过程中,我就会经常遇到加载缓慢、连接不上的问题。海外翻译软件往往需要上传到海外企业的服务器,比如DeepL上传的文档会被发送到美国的Adobe公司。

0a3e42787a2c4c3e8cbac2233560ce4a~tplv-tt-shrink:640:0.image

与之相比,国内翻译产品就不会遇到这个困扰。以百度翻译为例,产品基于全面自研的飞桨深度学习框架,同时采用多种措施来保障数据安全,获得ISO27001等多项国内外权威信息安全管理认证。存储前,会先进行安全的加密操作;数据传输中,采用安全传输层协议(TLS),保障保密性和数据完整性,并提供完备的密钥管理机制和加密措施;用户删除数据后,后台将同步删除相关内容,不会留存。总体来说,在可靠性和安全性上更有保障。

第二,翻译效果。

专业翻译最终要靠结果的“信、达、雅”说话。包括专业术语翻译是否准确,语序是否流畅连贯,一些特定文化背景的表达是否地道……

可以看到,百度翻译通过多个专业领域模型,有效增强翻译准确度。我们随机选取了《自然》杂志的一篇生物领域论文《A pan-cancer compendium of chromosomal instability染色体不稳定性的泛癌症纲要》,选择百度翻译的“生物医药“模型后,结合上下文语义给出了准确的翻译。可以看到,生物医药这类充满大量专业术语的领域,百度翻译的结果并没有让人失望。

c00cdd27ce7f477cac8369465eef4bf5~tplv-tt-shrink:640:0.image

对于学术文章中复杂的长句子和特定格式,百度翻译能够识别论文格式中的各种基本要素,如正文、引用、尾注等,避免错译、漏译。以这篇AAAI 2022的顶会论文《Meta-Learning for Online Update of Recommender Systems》为例,百度翻译就准确保留了参考文献引用信息,这对阅读专业文献非常有帮助。

3f5b2eef4aeb48ea8c548616da5681bf~tplv-tt-shrink:640:0.image

第三,翻译效率。

专业领域的机器翻译,用户的一个关键痛点是:很多地方需要用户“不厌其烦”地手动操作或反复修改。而拥有十多年翻译产品经验的百度,自然也在应用能力上游刃有余。百度翻译将这些“烦点”一一消解,提升翻译效率和文档的可读性、易读性,从而减少用户手动调整、修改的麻烦,将时间精力放在更有创造力的事情上。

首先,百度翻译支持多种格式文档,一键上传就能进行全篇翻译。像PDF这种不能编辑的文档,可以完整地保留样式和排版,不需要用户手动将文字复制粘贴到翻译软件中,并且提供整页预览模式、逐句对照模式等,不同需求的用户可以自主选择来提升效率。

比如下面这份《英国人工智能研发商业化和标准》,这类咨询机构的商业报告,是很多产业研究者、高校师生、政策制定者等工作学习中的参考读物,快捷、高效地阅读体验,能够帮大家节省不少时间。将PDF文件一键上传到百度翻译,就能快速得到准确地译文,排版格式也与原文保持高度一致,大大方便了阅读。

d1d0d8bb6c9e4f9aa9d5577785fa1ec9~tplv-tt-shrink:640:0.image

输入数据的准确性对翻译结果起到至关重要的影响,文本纠错是机器翻译的关键能力之一。专业领域容易遇到一些佶屈聱牙、拼写复杂的专用术语、学术名词等,百度翻译的智能纠错,可以对语句自动检查、实时提示、自动纠错,减少人工校验成本。

此外,百度翻译通过人机共译智能增强,语料自动沉淀,机器自动学习,翻译模型实时增强,逐渐缩小机器翻译与理想译文之间的差距,实现越翻越省力,真正提升效率。

英国诗人塞缪尔·约翰逊曾说过,语言是科学的唯一工具。整体来看,百度翻译已经在专业论文、学术文献等领域,展现出了强大的翻译能力,帮专业人士翻越了语言这堵高墙,把语言这个工具交到了每一个需要在专业领域跨语言协作的人手中。

翻山越岭之后,语言墙背后的宏大场景

从百度翻译的技术体系和产品设计中,可以看到,机器翻译要进入专业领域,不光要有技术,还要有较强的产品设计能力,考验的是企业的综合实力。机器翻译进入专业领域,也推动翻译应用来到了新的赛点。

重建巴别塔。专业领域的语言壁垒,为知识、信息、资源的流动树立起极高的门槛,比如目前全球有六成以上各类文献资料和科研论文都是用英文撰写,其他语种也蕴含着大量的知识宝藏。越来越多的人使用百度翻译来突破语言的阻碍,让专业领域的协作没有障碍,将大大促进全球的知识交流与传播,支撑科技创新、实现知识公平。

重塑机翻格局。专业领域的机器翻译,相比生活化场景,有着更高的壁垒与更强劲的需求,无论市场容量、付费意愿、付费潜力,以及用户忠诚度,都是非常高的。百度翻译凭借优秀的专业翻译能力,可以建立起差异化优势,进入商业化的良性循环,在机器翻译市场格局中进一步领先。

借助翻译,人类社会从相互阻隔走向了相互交往。今天,世界科技、经济与文化更为频繁地展开交流,面对浩如烟海的信息与知识,仅靠数量有限的专业翻译人士,很难满足大众对专业翻译的需求。幸好,机器翻译开辟了一条新的跨语言沟通之路。七十年来,机器翻译技术不断迭代,有着旺盛的生命力,那是一代又一代技术人,在为重建巴别塔的理想而不断努力。

随着百度翻译等产品推动机器翻译向专业领域不断深入,人们可以展开更专业、更精深的跨语言交流,机器翻译正成为助力全球交流的一股重要力量。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    42409

    浏览量

    303366
  • 百度
    +关注

    关注

    9

    文章

    2402

    浏览量

    95429
  • 机器翻译
    +关注

    关注

    0

    文章

    141

    浏览量

    15588
  • NMT
    NMT
    +关注

    关注

    0

    文章

    8

    浏览量

    3856
  • rnn
    rnn
    +关注

    关注

    0

    文章

    92

    浏览量

    7387
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    腾讯混元翻译模型Hy-MT2正式开源

    、Hy-MT2-30B-A3B,均支持33种语言互译及5种民族语言/方言互译。相比上一代Hy-MT1.5,新模型在多语言指令遵循、专业领域翻译
    的头像 发表于 05-25 11:02 713次阅读

    迭代焕新 体验跃升|视美泰双屏智能翻译机 2026 版本重磅升级!

    版本正式上线,带来更智能、更便捷、更专业的跨语言沟通新体验!硬核底色·始终如一ToughCore,EverSteady自2025年初版问世以来,视美泰双屏智能翻译机凭借10
    的头像 发表于 05-20 13:48 300次阅读
    迭代焕新 体验跃升|视美泰双屏智能<b class='flag-5'>翻译</b>机 2026 版本重磅升级!

    百度Create 2026发布“百度胜算”

    近期,百度Create 2026开发者大会如期召开,百度创始人李彦宏抛出一个足以撼动行业的新概念: **DAA(日活智能体数,Daily Active Agents)** ,并宣布将以这把"
    的头像 发表于 05-17 09:47 1795次阅读

    百度智能云正式发布Hogee

    5月13日,在Create2026百度AI开发者大会上,百度智能云正式发布了一款全新的企业一站式AI营销应用——Hogee。这款产品的亮相,标志着百度智能云在AI营销领域迈出了重要一步,也为企业营销效率的提升提供了一个全新的解决
    的头像 发表于 05-15 09:18 922次阅读

    跨越语言鸿沟:深度解析 IIoT 安全运维网关的“翻译官”角色

    在工业4.0的进程中,企业面临着一个巨大的挑战:如何让车间里那些只会“传统方言”的老旧机器,与现代化的互联网管理平台无障碍沟通?深圳惠志科技的IIoT安全运维网关在此过程中扮演了至关重要的“翻译
    的头像 发表于 04-21 16:08 365次阅读
    <b class='flag-5'>跨越</b><b class='flag-5'>语言</b>鸿沟:深度解析 IIoT 安全运维网关的“<b class='flag-5'>翻译</b>官”角色

    谷歌推出TranslateGemma全新开放翻译模型系列

    我们已正式推出 TranslateGemma,这一全新的开放翻译模型系列基于 Gemma 3 构建,并提供 4B、12B 和 27B 三种参数规模。TranslateGemma 的问世标志着开放翻译领域迈出了重要一步,它可帮助人们跨越
    的头像 发表于 02-26 10:22 855次阅读

    百度文心大模型5.0正式版上线

    今天,在百度文心Moment大会现场,文心大模型5.0正式版上线。
    的头像 发表于 01-23 16:48 1622次阅读

    视美泰发布AI即时翻译机解决方案,硬核配置+多语种覆盖破解跨语言沟通难题

    在全球化深入推进与AI技术规模化商用的双重驱动下,跨语言沟通需求正迎来爆发式增长。近日,视美泰正式发布AI即时翻译机解决方案,以“核心硬件+智能算法+多模态交互”的完整技术矩阵,依托在
    的头像 发表于 12-03 10:50 1408次阅读
    视美泰发布AI即时<b class='flag-5'>翻译</b>机解决方案,硬核配置+多语种覆盖破解跨<b class='flag-5'>语言</b>沟通难题

    百度世界大会亮点 五年五芯 百度宣布打造最硬AI云

    自2006年以来,百度世界大会已连续举办近20届,百度世界大会是百度每年面向行业、媒体、合作伙伴和广大用户的最高级别盛事,作为百度年度最重要的的战略、
    的头像 发表于 11-13 15:47 2080次阅读

    百度世界2025进行中 百度昆仑芯超节点亮相 性能巨幅提升

    百度世界大会是百度每年面向行业、媒体、合作伙伴和广大用户的最高级别盛事,作为百度年度最重要的的战略、技术、产品发布会,自2006年以来已连续举办19年,持续为行业搭建起交流前沿
    的头像 发表于 11-13 11:51 1602次阅读

    声智科技AI翻译耳机重塑智能听觉体验

    在日益紧密的全球化浪潮中,跨语言沟通的障碍正在被前沿的声学AI技术逐步瓦解。声智AI翻译耳机,凭借深厚的声学AI积累,率先实现了“跨语种音色与情感复刻技术”在实时
    的头像 发表于 10-21 15:28 1258次阅读
    声智科技AI<b class='flag-5'>翻译</b>耳机重塑智能听觉体验

    国庆出国游,时空壶新T1翻译机,首个端侧模型突破助力跨语言交流

    国庆将至,众多游客计划出国旅行,跨语言交流的顺畅与否成为影响旅行体验的重要因素。时空壶新T1翻译机作为行业技术领先产品,凭借其独特优势,为游客在海外的沟通交流保驾护航。新T1作为时空壶翻译
    的头像 发表于 09-12 12:20 1247次阅读
    国庆出国游,时空壶新T1<b class='flag-5'>翻译</b>机,首个端侧模型突破助力跨<b class='flag-5'>语言</b>交流

    翻译失去网络,时空壶新T1翻译机开创首个离线模型赋能全球沟通新体验

    全球首创的离线端侧AI翻译模型,这一技术突破堪称行业变革性创举。与传统依赖网络或仅靠静态离线语言包的翻译设备不同,T1的离线模型基于先进的端侧大模型轻量化
    的头像 发表于 09-08 16:52 1465次阅读
    当<b class='flag-5'>翻译</b>失去网络,时空壶新T1<b class='flag-5'>翻译</b>机开创首个离线模型赋能全球沟通新体验

    声智科技出席2025年北京市多语种AI语音翻译大赛

    8月20日,由北京市科委、中关村管委会主办,北京语言大学、北京第二外国语学院、北京市翻译协会、中国人工智能人会共同承办的“2025年北京市多语种AI语音翻译大赛”在中关村展示中心顺利
    的头像 发表于 08-25 17:18 1460次阅读

    水表界的“翻译官”:让CCLinkIE和Modbus TCP“无障碍聊天”!

    。别急,这位“双语翻译官”——耐达讯通信技术协议转换网关,能让它们秒变“知己”! 专业翻译,消除“语言壁垒” 耐达讯通信技术协议转换网关堪称
    发表于 07-10 15:43