基于京东部署的 DGX SuperPOD 集群 “天琴α”,京东探索研究院联合悉尼大学共同研发了织女模型,一并攻克了 GLUE 两项挑战性任务。
京东探索研究院致力于世界前沿技术的研究,其中人工智能方向涵盖 CV、NLP、多模态等。大规模语音模型的研究更是京东探索研究院的重中之重。
以语言模型为例,在过去 2-3 年的时间,语言模型大小每年都在以 1-2 个数量级的速度在增加,如今,则已达到万亿参数的级别。而模型的结构和复杂性日益变化,这对 GPU 集群的架构提出了不一样的要求。
从系统层面看,既有的 GPU 计算集群主要是以支持单机任务、小规模多机任务为主,相较之下,其多机之间网络扩展能力则较弱,而大规模扩展能力也较为受限。因此,在既有的 GPU 集群架构下,较无法满足服务大模型的计算需求。
对于京东探索研究院而言,掌握时效是关键,更快的模型训练意味着能加速迭代、扩展尝试空间、使产品落地更迅速,并提高业务收益。在模型越来越复杂多样、计算需求越来越大、单任务计算规模越来越大的背景下,如何快速新建一个可高效扩展并易用的 GPU 集群,以满足应对上述挑战,是亟待解决的核心问题。
基于以上挑战,京东探索研究院选择了采用 NVIDIA DGX SuperPOD 方案来提供支持,并成功给业务侧带来了巨大的提升及解决企业痛点。
1. NVIDIA DGX SuperPOD 是一套完整的解决方案,基于 DGX A100 服务器、HDR InfiniBand 200G 网卡和 NVIDIA Quantum QM8790 交换机构建了一套全互联架构,在保证单机计算能力最强的同时,采用计算和存储网络相隔离的方案,最大程度地从网络上保证集群的互联能力。
2.安装部署方面,NVIDIA 为 DGX SuperPOD 提供专业的部署服务,包括单机系统部署、InfiniBand 网络配置、调度安装调试、监控部署、多机环境、基础性能验证等,从基础系统方面,保证了最快交付。
3.使用方面,NVIDIA 为 DGX SuperPOD 部署了 Slurm 调度系统,并基于 NGC 和客户主要的几类模型,提供了完整的作业脚本,用户只需简单修改几行参数来适配自己的模型,即可一键方便地运行起大规模分布式任务。
4. 性能方面,DGX SuperPOD 经过一系列的基础优化(CUDA-X, Magnum IO, NGC)和评测验证(MLPerf),提供最好的 AI 训练性能,在京东探索研究院针对CV、NLP、跨模态等领域设计和研发的数十个模型上,经过双方一系列系统级的合作优化,在 DGX SuperPOD 上达到了比较理想的加速比和扩展性。
使用 DGX SuperPOD 方案,用户只需要关注自己的 AI 模型和算法研究,无需关注硬件和系统层的配置、优化、扩展性等问题,让 AI 研究人员把宝贵的时间和精力专注在前沿的 AI 技术研究上。
使用了 DGX SuperPOD 集群方案,极大地加速了用户的 AI 训练和迭代速度,为用户进一步探索出更强大更智能的 AI 模型建立了坚实的基石。
在 DGX SuperPOD 交付给用户仅仅两个多月之后,京东探索研究院就联合悉尼大学在传统 “预训练-微调” 的范式下,利用 DGX SuperPOD 的高效扩展能力,通过研究和工程上的全方位创新,研发出了织女模型,在通用语言理解评估基准(GLUE)的两项挑战性任务,即情感分析任务 SST(The Stanford Sentiment Treebank)和指代消解任务 WNLI (Winograd NLI)中首次超越人类,位居所有参赛机构第一。
京东探索研究院表示:“强悍的织女模型在京东探索研究院建设的全国首个基于 DGX SuperPOD 架构的超大规模计算集群 “天琴α” 上完成训练,该集群具有全球领先的大规模分布式并行训练技术,其近似线性加速比的数据、模型、流水线并行技术持续助力织女模型的高效训练。”
NVIDIA 将参加 CES 2022, 并将在 1 月 5 日凌晨 0 点(北京时间)发表 NVIDIA 特别演讲。
NVIDIA GeForce 高级副总裁 Jeff Fisher 和 NVIDIA 汽车部门副总裁兼总经理 Ali Kani 将展示加速计算在设计、仿真、游戏和自动驾驶汽车方面的新突破。
原文标题:DGX SuperPOD 加速语言模型训练,助力京东探索研究院勇刷 GLUE 榜单
文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。
-
NVIDIA
+关注
关注
14文章
5496浏览量
109071 -
gpu
+关注
关注
28文章
5099浏览量
134443 -
AI
+关注
关注
89文章
38090浏览量
296477 -
人工智能
+关注
关注
1813文章
49734浏览量
261466
原文标题:DGX SuperPOD 加速语言模型训练,助力京东探索研究院勇刷 GLUE 榜单
文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
NVIDIA在ISC 2025分享最新超级计算进展
NVIDIA DGX Spark助力构建自己的AI模型
NVIDIA DGX Spark快速入门指南
NVIDIA黄仁勋向SpaceX马斯克交付DGX Spark
NVIDIA DGX Spark新一代AI超级计算机正式交付
MediaTek携手NVIDIA开启个人AI算力新纪元
Cadence 借助 NVIDIA DGX SuperPOD 模型扩展数字孪生平台库,加速 AI 数据中心部署与运营
NVIDIA三台计算机解决方案如何协同助力机器人技术
NVIDIA通过全新 Omniverse库、Cosmos物理AI模型及AI计算基础设施,为机器人领域开启新篇章
NVIDIA GTC2025 亮点 NVIDIA推出 DGX Spark个人AI计算机
NVIDIA 宣布推出 DGX Spark 个人 AI 计算机

NVIDIA DGX SuperPOD 方案满足服务大模型的计算需求
评论