NVIDIA DGX SuperPOD 方案满足服务大模型的计算需求-电子发烧友网

基于京东部署的 DGX SuperPOD 集群 “天琴α”，京东探索研究院联合悉尼大学共同研发了织女模型，一并攻克了 GLUE 两项挑战性任务。

京东探索研究院致力于世界前沿技术的研究，其中人工智能方向涵盖 CV、NLP、多模态等。大规模语音模型的研究更是京东探索研究院的重中之重。

以语言模型为例，在过去 2-3 年的时间，语言模型大小每年都在以 1-2 个数量级的速度在增加，如今，则已达到万亿参数的级别。而模型的结构和复杂性日益变化，这对 GPU 集群的架构提出了不一样的要求。

从系统层面看，既有的 GPU 计算集群主要是以支持单机任务、小规模多机任务为主，相较之下，其多机之间网络扩展能力则较弱，而大规模扩展能力也较为受限。因此，在既有的 GPU 集群架构下，较无法满足服务大模型的计算需求。

对于京东探索研究院而言，掌握时效是关键，更快的模型训练意味着能加速迭代、扩展尝试空间、使产品落地更迅速，并提高业务收益。在模型越来越复杂多样、计算需求越来越大、单任务计算规模越来越大的背景下，如何快速新建一个可高效扩展并易用的 GPU 集群，以满足应对上述挑战，是亟待解决的核心问题。

基于以上挑战，京东探索研究院选择了采用 NVIDIA DGX SuperPOD 方案来提供支持，并成功给业务侧带来了巨大的提升及解决企业痛点。

1. NVIDIA DGX SuperPOD 是一套完整的解决方案，基于 DGX A100 服务器、HDR InfiniBand 200G 网卡和 NVIDIA Quantum QM8790 交换机构建了一套全互联架构，在保证单机计算能力最强的同时，采用计算和存储网络相隔离的方案，最大程度地从网络上保证集群的互联能力。

2.安装部署方面，NVIDIA 为 DGX SuperPOD 提供专业的部署服务，包括单机系统部署、InfiniBand 网络配置、调度安装调试、监控部署、多机环境、基础性能验证等，从基础系统方面，保证了最快交付。

3.使用方面，NVIDIA 为 DGX SuperPOD 部署了 Slurm 调度系统，并基于 NGC 和客户主要的几类模型，提供了完整的作业脚本，用户只需简单修改几行参数来适配自己的模型，即可一键方便地运行起大规模分布式任务。

4. 性能方面，DGX SuperPOD 经过一系列的基础优化（CUDA-X， Magnum IO， NGC）和评测验证（MLPerf），提供最好的 AI 训练性能，在京东探索研究院针对CV、NLP、跨模态等领域设计和研发的数十个模型上，经过双方一系列系统级的合作优化，在 DGX SuperPOD 上达到了比较理想的加速比和扩展性。

使用 DGX SuperPOD 方案，用户只需要关注自己的 AI 模型和算法研究，无需关注硬件和系统层的配置、优化、扩展性等问题，让 AI 研究人员把宝贵的时间和精力专注在前沿的 AI 技术研究上。

使用了 DGX SuperPOD 集群方案，极大地加速了用户的 AI 训练和迭代速度，为用户进一步探索出更强大更智能的 AI 模型建立了坚实的基石。

在 DGX SuperPOD 交付给用户仅仅两个多月之后，京东探索研究院就联合悉尼大学在传统 “预训练-微调” 的范式下，利用 DGX SuperPOD 的高效扩展能力，通过研究和工程上的全方位创新，研发出了织女模型，在通用语言理解评估基准（GLUE）的两项挑战性任务，即情感分析任务 SST（The Stanford Sentiment Treebank）和指代消解任务 WNLI （Winograd NLI）中首次超越人类，位居所有参赛机构第一。

京东探索研究院表示：“强悍的织女模型在京东探索研究院建设的全国首个基于 DGX SuperPOD 架构的超大规模计算集群 “天琴α” 上完成训练，该集群具有全球领先的大规模分布式并行训练技术，其近似线性加速比的数据、模型、流水线并行技术持续助力织女模型的高效训练。”

NVIDIA 将参加 CES 2022，并将在 1 月 5 日凌晨 0 点（北京时间）发表 NVIDIA 特别演讲。

NVIDIA GeForce 高级副总裁 Jeff Fisher 和 NVIDIA 汽车部门副总裁兼总经理 Ali Kani 将展示加速计算在设计、仿真、游戏和自动驾驶汽车方面的新突破。

原文标题：DGX SuperPOD 加速语言模型训练，助力京东探索研究院勇刷 GLUE 榜单

文章出处：【微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

审核编辑：彭菁

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4588

浏览量
101702
gpu

gpu

+关注

关注
27

文章
4415

浏览量
126663
AI

AI

+关注

关注
87

文章
26424

浏览量
264030
人工智能

人工智能

+关注

关注
1776

文章
43824

浏览量
230582

原文标题：DGX SuperPOD 加速语言模型训练，助力京东探索研究院勇刷 GLUE 榜单

文章出处：【微信号：NVIDIA_China，微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

英伟达Blackwell平台网络配置分析

采用 DGX GB200 系统的 NVIDIA DGX SuperPOD 专为训练和推理万亿参数生成式AI 模型而构建。

发表于 04-17 11:01 •246次阅读

NVIDIA Blackwell DGX SuperPOD助力万亿级生成式AI计算

全新 DGX SuperPOD 采用新型高效液冷机架级扩展架构，基于 NVIDIA DGX GB200 系统构建而成，在 FP4 精度下可提供 11.5 exaflops 的 AI 超

发表于 03-21 09:49 •77次阅读

NVIDIA推出搭载GB200 Grace Blackwell超级芯片的NVIDIA DGX SuperPOD™

NVIDIA 于太平洋时间 3 月 18 日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的 NVIDIA

发表于 03-21 09:49 •326次阅读

英伟达推出百亿参数AI模型处理方案——DGX SuperPOD

据悉，新型DGX SuperPOD采用全新的高效水冷机架式设计，搭载英伟达DGX GB200系统，FP4精度下具备11.5 exaflops的人工智能超级计算力以及240 teraby

发表于 03-19 14:35 •326次阅读

NVIDIA 推出 Blackwell 架构 DGX SuperPOD，适用于万亿参数级的生成式 AI 超级计算

日 —— NVIDIA 于今日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的 NVIDIA

发表于 03-19 10:56 •106次阅读

<b class='flag-5'>NVIDIA</b> 推出 Blackwell 架构 <b class='flag-5'>DGX</b> <b class='flag-5'>SuperPOD</b>，适用于万亿参数级的生成式 AI 超级<b class='flag-5'>计算</b>

Equinix携手Nvidia，推出私有化AI超级计算系统

此次合作涵盖了Nvidia基于DGX架构的整套设备、网络以及AI企业软件平台三大领域，Equinix负责为每一个客户量身定制和运维Nvidia专属基础设施，甚至还可以在全球范围内的主要数据中心部署相应

发表于 01-26 09:31 •229次阅读

机器学习硬件性能的最新趋势

许多DGX H100服务器又可以组成所谓的SuperPOD，其中各个独立服务器中的加速器仍可使用NVLink传输数据，但耦合程度较低。每个Super

发表于 12-13 10:20 •185次阅读

亚马逊云科技与 NVIDIA 宣布开展战略合作，为生成式 AI 提供全新超级计算基础架构、软件和服务

NVL32 的 NVIDIA DGX 云即将登陆亚马逊云科技。两家公司联合开展“Project Ceiba”合作项目，即全球最快的 GPU 驱动 AI 超级计算机和最新 NVIDIA

发表于 11-29 21:00 •385次阅读

NVIDIA 在 Microsoft Azure 上推出面向全球企业和初创公司的生成式 AI Foundry 服务

应用。这项 NVIDIA AI foundry 服务整合了 NVIDIA AI Foundation Models 、 NVIDIA NeMo 框架和工具，以及

发表于 11-16 21:15 •295次阅读

NVIDIA 在 Microsoft Azure 上推出面向全球企业和初创公司的生成式 AI Foundry 服务

Models、NVIDIA NeMo™ 框架和工具，以及 NVIDIA DGX™ 云 AI 超算服务三大要素，为企业提供创建自定义生成式 AI 模

发表于 11-16 14:13 •141次阅读

NVIDIA AI 现已在 Oracle Cloud Marketplace 推出

OCI 在业内率先扩展了企业对 NVIDIA DGX 云 AI 超级计算平台和 NVIDIA AI Enterprise 软件的访问权限。训练生成式 AI

发表于 10-24 10:30 •230次阅读

NVIDIA 与 Hugging Face 将连接数百万开发者与生成式 AI 超级计算

年 8 月 8 日 — NVIDIA 与 Hugging Face 宣布建立合作伙伴关系，为数百万开发者提供生成式 AI 超级计算服务，帮助他们构建大语言模型（LLM）和其他高级 A

发表于 08-09 11:41 •108次阅读

NVIDIA 与 Hugging Face 将连接数百万开发者与生成式 AI 超级计算

NVIDIA DGX Cloud 集成到 Hugging Face 平台将加速大语言模型（LLM）的训练和调优，简化了几乎每个行业的模型定制

发表于 08-09 11:38 •699次阅读

NVIDIA推出DGX GH200 AI超级计算机

驱动的NVIDIA DGX™超级计算机，旨在助力开发面向生成式AI语言应用、推荐系统和数据分析工作负载的巨型、下一代模型。 NVIDIA

发表于 05-30 14:15 •447次阅读

COMPUTEX2023 | NVIDIA 推出 DGX GH200 AI 超级计算机

Switch System 驱动的 NVIDIA DGX 超级计算机，旨在助力开发面向生成式 AI 语言应用、推荐系统和数据分析工作负载的巨型、下一代模型。

发表于 05-30 01:40 •1515次阅读