0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA DGX SuperPOD 方案满足服务大模型的计算需求

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-01-04 17:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

基于京东部署的 DGX SuperPOD 集群 “天琴α”,京东探索研究院联合悉尼大学共同研发了织女模型,一并攻克了 GLUE 两项挑战性任务。

京东探索研究院致力于世界前沿技术的研究,其中人工智能方向涵盖 CV、NLP、多模态等。大规模语音模型的研究更是京东探索研究院的重中之重。

以语言模型为例,在过去 2-3 年的时间,语言模型大小每年都在以 1-2 个数量级的速度在增加,如今,则已达到万亿参数的级别。而模型的结构和复杂性日益变化,这对 GPU 集群的架构提出了不一样的要求。

从系统层面看,既有的 GPU 计算集群主要是以支持单机任务、小规模多机任务为主,相较之下,其多机之间网络扩展能力则较弱,而大规模扩展能力也较为受限。因此,在既有的 GPU 集群架构下,较无法满足服务大模型的计算需求。

对于京东探索研究院而言,掌握时效是关键,更快的模型训练意味着能加速迭代、扩展尝试空间、使产品落地更迅速,并提高业务收益。在模型越来越复杂多样、计算需求越来越大、单任务计算规模越来越大的背景下,如何快速新建一个可高效扩展并易用的 GPU 集群,以满足应对上述挑战,是亟待解决的核心问题。

基于以上挑战,京东探索研究院选择了采用 NVIDIA DGX SuperPOD 方案来提供支持,并成功给业务侧带来了巨大的提升及解决企业痛点。

1. NVIDIA DGX SuperPOD 是一套完整的解决方案,基于 DGX A100 服务器、HDR InfiniBand 200G 网卡和 NVIDIA Quantum QM8790 交换机构建了一套全互联架构,在保证单机计算能力最强的同时,采用计算和存储网络相隔离的方案,最大程度地从网络上保证集群的互联能力。

2.安装部署方面,NVIDIA 为 DGX SuperPOD 提供专业的部署服务,包括单机系统部署、InfiniBand 网络配置、调度安装调试、监控部署、多机环境、基础性能验证等,从基础系统方面,保证了最快交付。

3.使用方面,NVIDIA 为 DGX SuperPOD 部署了 Slurm 调度系统,并基于 NGC 和客户主要的几类模型,提供了完整的作业脚本,用户只需简单修改几行参数来适配自己的模型,即可一键方便地运行起大规模分布式任务。

4. 性能方面,DGX SuperPOD 经过一系列的基础优化(CUDA-X, Magnum IO, NGC)和评测验证(MLPerf),提供最好的 AI 训练性能,在京东探索研究院针对CV、NLP、跨模态等领域设计和研发的数十个模型上,经过双方一系列系统级的合作优化,在 DGX SuperPOD 上达到了比较理想的加速比和扩展性。

使用 DGX SuperPOD 方案,用户只需要关注自己的 AI 模型和算法研究,无需关注硬件和系统层的配置、优化、扩展性等问题,让 AI 研究人员把宝贵的时间和精力专注在前沿的 AI 技术研究上。

使用了 DGX SuperPOD 集群方案,极大地加速了用户的 AI 训练和迭代速度,为用户进一步探索出更强大更智能的 AI 模型建立了坚实的基石。

在 DGX SuperPOD 交付给用户仅仅两个多月之后,京东探索研究院就联合悉尼大学在传统 “预训练-微调” 的范式下,利用 DGX SuperPOD 的高效扩展能力,通过研究和工程上的全方位创新,研发出了织女模型,在通用语言理解评估基准(GLUE)的两项挑战性任务,即情感分析任务 SST(The Stanford Sentiment Treebank)和指代消解任务 WNLI (Winograd NLI)中首次超越人类,位居所有参赛机构第一。

京东探索研究院表示:“强悍的织女模型在京东探索研究院建设的全国首个基于 DGX SuperPOD 架构的超大规模计算集群 “天琴α” 上完成训练,该集群具有全球领先的大规模分布式并行训练技术,其近似线性加速比的数据、模型、流水线并行技术持续助力织女模型的高效训练。”

NVIDIA 将参加 CES 2022, 并将在 1 月 5 日凌晨 0 点(北京时间)发表 NVIDIA 特别演讲。

NVIDIA GeForce 高级副总裁 Jeff Fisher 和 NVIDIA 汽车部门副总裁兼总经理 Ali Kani 将展示加速计算在设计、仿真、游戏和自动驾驶汽车方面的新突破。

原文标题:DGX SuperPOD 加速语言模型训练,助力京东探索研究院勇刷 GLUE 榜单

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

审核编辑:彭菁
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109071
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134443
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296477
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261466

原文标题:DGX SuperPOD 加速语言模型训练,助力京东探索研究院勇刷 GLUE 榜单

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA DGX Spark系统恢复过程与步骤

    在使用 NVIDIA DGX Spark 的过程中,可能会出现配置故障,而导致开发中断的问题,本篇教程将带大家了解如何一步步完成系统恢复。
    的头像 发表于 11-28 09:46 3543次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>DGX</b> Spark系统恢复过程与步骤

    NVIDIA在ISC 2025分享最新超级计算进展

    NVIDIA DGX Spark 到 NVIDIA BlueField-4 DPU,新一代网络和量子技术实现了飞跃。在 SC25 上展示的加速系统突显了全球超级计算和 AI 的进展
    的头像 发表于 11-25 10:59 479次阅读
    <b class='flag-5'>NVIDIA</b>在ISC 2025分享最新超级<b class='flag-5'>计算</b>进展

    NVIDIA DGX Spark助力构建自己的AI模型

    2025 年 1 月 6 日,NVIDIA 正式宣布其 Project DIGITS 项目,并于 3 月 18 日更名为 NVIDIA DGX Spark,进一步公布了产品细节。DGX
    的头像 发表于 11-21 09:25 532次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>DGX</b> Spark助力构建自己的AI<b class='flag-5'>模型</b>

    NVIDIA DGX Spark快速入门指南

    NVIDIA DGX Spark 已正式向 AI 开发者交付,对于刚入手的全新 DGX Spark,该如何进行初始化设置?本篇文章将引导您完成 DGX Spark 首次设置。在初始设置
    的头像 发表于 11-17 14:11 4101次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>DGX</b> Spark快速入门指南

    NVIDIA黄仁勋向SpaceX马斯克交付DGX Spark

    革新于星舰基地开始。NVIDIA 创始人兼首席执行官黄仁勋亲手将全球迄今为止最小的 AI 超级计算NVIDIA DGX Spark 交付给埃隆·马斯克,拉开了该产品上市的序幕。
    的头像 发表于 10-21 11:12 606次阅读

    NVIDIA DGX Spark新一代AI超级计算机正式交付

    NVIDIA 创始人兼首席执行官黄仁勋在 SpaceX 向埃隆·马斯克交付 DGX Spark。
    的头像 发表于 10-21 10:41 620次阅读

    MediaTek携手NVIDIA开启个人AI算力新纪元

    即将上市的 NVIDIA DGX Spark 个人 AI 超级计算机,搭载 MediaTek 与 NVIDIA 合作设计的 GB10 Grace Blackwell 超级芯片,
    的头像 发表于 10-16 11:26 473次阅读

    NVIDIA DGX Spark桌面AI计算机开启预订

    DGX Spark 现已开启预订!丽台科技作为 NVIDIA 授权分销商,提供从产品到服务的一站式解决方案,助力轻松部署桌面 AI 计算机。
    的头像 发表于 09-23 17:20 910次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>DGX</b> Spark桌面AI<b class='flag-5'>计算</b>机开启预订

    Cadence 借助 NVIDIA DGX SuperPOD 模型扩展数字孪生平台库,加速 AI 数据中心部署与运营

    [1]  利用搭载 DGX GB200 系统的 NVIDIA DGX SuperPOD[2] 数字孪生系统实现了库的重大扩展 。借助 NVIDIA
    的头像 发表于 09-15 15:19 1231次阅读

    NVIDIA三台计算机解决方案如何协同助力机器人技术

    NVIDIA DGX、基于 NVIDIA RTX PRO 服务器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速从人形机器人到机器人工厂等基于
    的头像 发表于 08-27 11:48 1995次阅读

    NVIDIA通过全新 Omniverse库、Cosmos物理AI模型及AI计算基础设施,为机器人领域开启新篇章

    器和 NVIDIA DGX Cloud 让开发者能够在任何地方运行需求严苛的仿真 · 物理 AI 领先者 Amazon Devices Services 正在使用它们来支持新的制造解决方案
    的头像 发表于 08-12 11:29 1360次阅读
    <b class='flag-5'>NVIDIA</b>通过全新 Omniverse库、Cosmos物理AI<b class='flag-5'>模型</b>及AI<b class='flag-5'>计算</b>基础设施,为机器人领域开启新篇章

    NVIDIA发布AI优先DGX个人计算系统

    NVIDIA 宣布,多家行业领先系统制造商将打造 NVIDIA DGX Spark。
    的头像 发表于 05-22 09:39 809次阅读

    NVIDIA GTC2025 亮点 NVIDIA推出 DGX Spark个人AI计算

    和联想)提供。 NVIDIA 发布了由 NVIDIA Grace Blackwell 平台驱动的 DGX 个人 AI 超级计算机。 DGX
    的头像 发表于 03-20 18:59 1267次阅读
    <b class='flag-5'>NVIDIA</b> GTC2025 亮点  <b class='flag-5'>NVIDIA</b>推出 <b class='flag-5'>DGX</b> Spark个人AI<b class='flag-5'>计算</b>机

    NVIDIA 宣布推出 DGX Spark 个人 AI 计算

    DGX™ 个人 AI 超级计算机。   DGX Spark(前身为 Project DIGITS)支持 AI 开发者、研究人员、数据科学家和学生,在台式电脑上对大模型进行原型设计、
    发表于 03-19 09:59 504次阅读
       <b class='flag-5'>NVIDIA</b> 宣布推出 <b class='flag-5'>DGX</b> Spark 个人 AI <b class='flag-5'>计算</b>机

    Evo 2 AI模型可通过NVIDIA BioNeMo平台使用

    Evo 2 是一个强大的新型 AI 模型,它基于亚马逊云科技(AWS)上的 NVIDIA DGX Cloud 构建而成,能够帮助用户深入了解不同物种的 DNA、RNA 和蛋白质。
    的头像 发表于 02-28 09:57 1239次阅读