NVIDIA DGX SuperPOD 助力京东探索研究院 Vega-MT 模型大赛夺魁！-电子发烧友网

图片来源于京东

借助 NVIDIA DGX SuperPOD，京东探索研究院训练了参数量近五十亿的 Vega-MT 模型，在 2022 年第 17 届国际机器翻译大赛（WMT）上大放异彩。Vega-MT 在中文-英语(BLEU 33.5, chrF 0.611)、英文-中文(BLEU 49.7, chrF 0.446)、德语-英语(BLEU 33.7, chrF 0.585)、英语-德语(BLEU 37.8, chrF 0.643)、捷克语-英语(BLEU 54.9, chrF 0.744)、英语-捷克语(BLEU 41.4, chrF 0.651)和英语-俄罗斯语(BLEU 32.7, chrF 0.584)在七个翻译赛道上荣获冠军。

作为大规模 AI 基础架构，NVIDIA DGX SuperPOD 具备完整、先进的基础架构。相较于原来的 V100 集群，DGX SuperPOD 除了在单卡算力上取得了接近两倍的提升外，在算力扩展性方面也呈线性增长，即扩展性方面相较于从前也取得了两倍的提升。在多节点的情况下总计获得了约 4 倍的提升。因此，原本需要数月才能完成类似模型（相当规模、相当复杂度）的训练任务缩短到了两周，研究人员也有了更充裕的时间针对模型优化。

客户简介及应用背景

京东作为以供应链为基础的技术与服务企业。京东探索研究院（JD Explore Ac ademy）秉承“以技术为本，致力于更高效和可持续的世界”的集团使命，是以京东集团以各事业群与业务单元的技术发展为基础，集合全集团资源和能力，成立的专注前沿科技探索的研发部门，是实现研究和协同创新的生态平台。探索研究院深耕泛人工智能 3 大领域，包括“量子机器学习”、“可信人工智能”、“超级深度学习”，从基础理论层面实现颠覆式创新，助力数智化产业发展及社会变革，以原创性科技赋能京东集团零售、物流、健康、科技等全产业链场景，打造源头性科技高地，实现从量变到质变的跨越式发展，引领行业砥砺前行。

国际机器翻译大赛（WMT）是全球学术界公认的国际顶级机器翻译比赛，由国际计算语言学协会（ACL）举办，是协会旗下的顶尖赛事。自 2006 年至今，WMT 的每次比赛都是全球各大高校、科技公司与学术机构展示自身机器翻译实力的平台，更见证了机器翻译技术的不断进步。

京东探索研究院在 WMT 大赛上这一重大成就进一步验证了自然语言处理大模型在理解、生成、跨语种建模上的优越性。

客户挑战

机器翻译面临诸多挑战：常见的几个语种使用广泛数据资源丰富，小语种在跨境电商中非常必要但数据不充分，小数据集的训练面临挑战；同时，挖掘语种与语种的联系也是难点之一，因为语言生成的复杂性、多义性，表达的多样性、文化背景，语种之间的差异等都是机器翻译比赛中绕不开的难题。

从 2018 年的 GPT-1 的 1.1 亿参数，到现今大规模语言模型拥有万亿参数，大模型在多种语言任务上准确率的显著提高，有助于我们构建对自然语言有着更加丰富理解的智能系统。

Vega-MT 采用了诸多先进技术，包括多方向预训练（multidirectional pre-training）、超大模型（Extremely Large Transformer）、循环翻译（cycle translation）和双向自训练（bidirectional self-training），来充分挖掘双语数据、单语数据的知识。此外，还使用了噪声信道重排序和泛化性微调等策略来增强 Vega-MT 系统的鲁棒性和译文的信达雅水平。

但是，在训练大模型时，我们依然会面临诸多困难。在此之前对于一般任务一张 GPU 即可胜任模型的训练，但是在大模型场景，需要多节点协同才能完成最终的训练任务，这也对现有的 GPU 计算集群提出了新的挑战。以知名的 GPT-3 为例，它使用了 45 TB 的训练数据，最高达到 1750 亿的模型参数量；在采用混合精度时，它共占用约 2.8 TB 的显存，需要超过 35 张 GPU 才能将模型全部放下。

因此，训练的挑战集中在单卡算力和多卡多节点通信上，训练也会跨越多个节点。此时数据传输、任务调度、并行优化、资源利用率等方面就显得尤为重要。

应用方案

在构建 AI 基础架构时，我们会面临来自方方面面的挑战，例如计算资源，网络，存储，乃至最上层用来进行任务调度的软件等，而这些方面并非独立，需要综合考量。

京东探索研究院采用的 NVIDIA DGX SuperPOD 就是一套综合完整的高性能解决方案。SuperPOD AI 集群，基于 DGX 服务器，HDR InfiniBand 200G 网卡以及 NVIDIA Quantum QM8790 交换机，计算网络和储存网络隔离，既保证了最优的算力，又可以确保节点和卡之间的高效互联，最大程度提升分布式训练的效率。

算力层面，单节点算力高达 2.4 PFLOPS，采用单节点进行训练，BERT 只需 17 分钟即可完成训练，Mask R-CNN 38 分钟，RetinaNet 也只需 83 分钟。而针对于 Transformer XL Base，181 分钟即可完成训练。同时，依托于多实例 GPU (Multi-Instance GPU, MIG) 技术，可以将 GPU 分割成多个实例，每个实例都有其独立的显存，缓存以及流式多处理器，彼此之间故障隔离。这样一来可以进一步提升 GPU 的利用率，同时满足需要不同算力的任务。

网络层面，通过 Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) 技术，可以让聚合计算从 CPU 迁移到交换机网络，消除了节点之间多次发送数据的需求，大幅缩减了到达聚合节点的网络流量，从而显著减少执行 MPI 的时间，同时让通信效率与节点数目不再直接相关，进一步保障了算力的可扩展性。除此之外，将 CPU 从处理通信的任务中解脱出来，让宝贵的 CPU 资源聚焦于计算上，进一步提升了整体集群处理任务的能力。

储存层面，在训练模型时，往往需要从存储中多次读取训练数据，而读取操作的耗时也会在一定程度上影响训练的时效。DGX SuperPOD 使用了高性能的多层级储存架构，以平衡性能、容量和成本的需求。而借助于 GPU Direct RDMA 技术，可以绕过 CPU 直接连通 GPU，储存和网络设备，从而进行高速低时延的数据传输。

软件层面，为了构建集群以及保障集群的持久化平稳运行，上层的监控调度管理软件不可或缺。Base Command Manager 是一个集群管理系统，它可以对集群进行一系列的配置，管理用户访问，资源监控，记录日志，以及通过 slurm 进行作业任务调度。同时，NGC 上涵盖了大量 AI，HPC，数据科学相关的资源，用户可以轻松获取到功能强大的软件，容器镜像，以及各类预训练模型。

与此同时，探索研究院团队对集群进行了 7x24 小时的监控管理，确保训练任务长时间的平稳运行。监控资源利用率，也确保了每个节点上的计算资源能被充分地利用了起来。在完善的调度监控工作和 DGX SuperPOD 高可靠性的质量保证下，所有被使用到的训练节点在模型训练的 20 天 (2 周 pre-training + 5天 fine-tuning) 内，没有出现任何问题，训练最终圆满完成。

使用效果及影响

Vega-MT 被成功应用在了京东国庆期间对外发布的 Omni-Force AIGC 小程序中。小程序的应用是用户输入文字生成对应的图片，在 Vega-MT 的加持下，小程序可以支持多个语种的文字输入，譬如中文、英文、西班牙文等等。

京东探索研究院表示: “通过 NVIDIA DGX SuperPOD 的加持，京东探索研究院可以快速迭代模型，帮助高准确度的模型快速落地，进一步提升用户体验，降低成本，提升效果和业务收益。此次 NVIDIA DGX SuperPOD 支持我们能在 WMT 比赛中拔得头筹，不仅提高了企业的知名度，也助力了京东成为更受用户信赖的品牌”。

值得一提的是，除了 Vega-MT 外，NVIDIA DGX SuperPOD 也在探索研究院的其他大模型训练上发挥了不可或缺的作用，譬如 ViTAE，织女模型等。

点击“阅读原文”或扫描下方海报二维码，即可免费注册 GTC 23，切莫错过这场 AI 和元宇宙时代的技术大会！

原文标题：NVIDIA DGX SuperPOD 助力京东探索研究院 Vega-MT 模型大赛夺魁！

文章出处：【微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英伟达

英伟达

+关注

关注
22

文章
3334

浏览量
87853

原文标题：NVIDIA DGX SuperPOD 助力京东探索研究院 Vega-MT 模型大赛夺魁！

文章出处：【微信号：NVIDIA_China，微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

英伟达Blackwell平台网络配置分析

采用 DGX GB200 系统的 NVIDIA DGX SuperPOD 专为训练和推理万亿参数生成式AI 模型而构建。

发表于 04-17 11:01 •281次阅读

是德科技与NVIDIA携手推进6G研究云平台发展

是德科技近日宣布与现已开启与全新NVIDIA 6G研究云平台的合作，加速推进6G技术研究。该平台集成了NVIDIA Aerial Omniverse数字孪生技术，这一开放且灵活的网络仿

发表于 03-27 09:26 •351次阅读

NVIDIA Blackwell DGX SuperPOD助力万亿级生成式AI计算

全新 DGX SuperPOD 采用新型高效液冷机架级扩展架构，基于 NVIDIA DGX GB200 系统构建而成，在 FP4 精度下可提供 11.5 exaflops 的 AI 超

发表于 03-21 09:49 •82次阅读

NVIDIA推出搭载GB200 Grace Blackwell超级芯片的NVIDIA DGX SuperPOD™

NVIDIA 于太平洋时间 3 月 18 日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的 NVIDIA DGX

发表于 03-21 09:49 •343次阅读

英伟达推出百亿参数AI模型处理方案——DGX SuperPOD

据悉，新型DGX SuperPOD采用全新的高效水冷机架式设计，搭载英伟达DGX GB200系统，FP4精度下具备11.5 exaflops的人工智能超级计算力以及240 terabytes的高速内存。用户可以通过加装机架进行持

发表于 03-19 14:35 •342次阅读

NVIDIA 推出 Blackwell 架构 DGX SuperPOD，适用于万亿参数级的生成式 AI 超级计算

日 —— NVIDIA 于今日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的 NVIDIA DGX

发表于 03-19 10:56 •109次阅读

<b class='flag-5'>NVIDIA</b> 推出 Blackwell 架构 <b class='flag-5'>DGX</b> <b class='flag-5'>SuperPOD</b>，适用于万亿参数级的生成式 AI 超级计算

NVIDIA 知乎精彩问答甄选 | 分享 NVIDIA 助力医学研究的相关精彩问答

NVIDIA 带来知乎精彩问答甄选系列，将为您精选知乎上有关 NVIDIA 产品的精彩问答。本期为问答甄选第十七期 —— 分享 NVIDIA 助力医学

发表于 11-24 19:25 •281次阅读

<b class='flag-5'>NVIDIA</b> 知乎精彩问答甄选 | 分享 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>助力</b>医学<b class='flag-5'>研究</b>的相关精彩问答

NVIDIA 第九届 Sky Hackathon 邀请信 | 大模型时代下探索 AI 图文多模态解决方案

Hackathon 大赛。在大模型时代，如何在物联网设备上构建一个基于大模型的应用解决方案（比如如何通过几张照片让大模型给自己生成一个小故事）？本次 Hackathon 将透过

发表于 11-17 21:30 •473次阅读

<b class='flag-5'>NVIDIA</b> 第九届 Sky Hackathon 邀请信 | 大<b class='flag-5'>模型</b>时代下<b class='flag-5'>探索</b> AI 图文多模态解决方案

SIGGRAPH 2023 | NVIDIA AI Workbench 助力全球企业加速采用自定义生成式 AI

从 PC 和工作站到企业数据中心、公有云和 NVIDIA DGX 云，新推出的开发者套件在 NVIDIA AI 平台上引入了简化的模型优化与部署。洛杉矶 — SIGGRAPH — 太

发表于 08-09 19:10 •292次阅读

中软国际AIGC研究院主办第二届Joint Hackathon创新大赛完美收官

科技缔造生活创新成就来来 AI for Better Work ·AI for Better Life 中软国际AIGC研究院第二届Joint Hackathon 创新大赛中国·南京

发表于 08-07 19:25 •435次阅读

中软国际AIGC<b class='flag-5'>研究院</b>主办第二届Joint Hackathon创新<b class='flag-5'>大赛</b>完美收官

科学匠人 | 边江：在研究院的七年“技痒”，探寻大模型助力AI与产业融合之道

基础科研的创新为技术落地应用提供了动力，而来自真实世界的业务需求则为基础科研提供了灵感和方向。当人工智能进入大模型时代，什么样的技术创新才能更好地落地于产业？对此，微软亚洲研究院资深首席研究

发表于 08-04 00:10 •428次阅读

科学匠人 | 边江：在<b class='flag-5'>研究院</b>的七年“技痒”，探寻大<b class='flag-5'>模型</b><b class='flag-5'>助力</b>AI与产业融合之道

中软国际AIGC研究院第二届Joint Hackathon创新大赛倒计时5天！

原文标题：中软国际AIGC研究院第二届Joint Hackathon创新大赛倒计时5天！文章出处：【微信公众号：中软国际】欢迎添加关注！文章转载请注明出处。

发表于 07-28 20:15 •279次阅读

直播预告｜百度商业 AI 技术创新大赛：NVIDIA 讲师线上培训明晚登场！

由百度商业联合中国人工智能学会举办的百度商业 AI 技术创先大赛（简称 CTI），旨在探索商业前沿技术，培育优秀人才，推动算法与技术应用创新。 NVIDIA 作为本次大赛独家合作伙伴，

发表于 06-26 19:35 •246次阅读

直播预告｜百度商业 AI 技术创新<b class='flag-5'>大赛</b>：<b class='flag-5'>NVIDIA</b> 讲师线上培训明晚登场！

NVIDIA推出DGX GH200 AI超级计算机

驱动的NVIDIA DGX™超级计算机，旨在助力开发面向生成式AI语言应用、推荐系统和数据分析工作负载的巨型、下一代模型。 NVIDIA

发表于 05-30 14:15 •455次阅读

COMPUTEX2023 | NVIDIA 推出 DGX GH200 AI 超级计算机

Switch System 驱动的 NVIDIA DGX 超级计算机，旨在助力开发面向生成式 AI 语言应用、推荐系统和数据分析工作负载的巨型、下一代模型。

发表于 05-30 01:40 •1521次阅读

搜索历史

NVIDIA DGX SuperPOD 助力京东探索研究院 Vega-MT 模型大赛夺魁！

评论