0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DGX SuperPOD助力助力织女模型的高效训练

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-13 15:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

案例简介

本案例中基于京东和 NVIDIA 英伟达联合部署的 DGX SuperPOD 分布式集群,京东探索研究院联合悉尼大学共同开发了织女模型,在 DGX SuperPOD 集群上可高效扩展并快速完成迭代,一举刷新 GLUE 两大挑战性任务榜单。

• 本案例为 NVIDIA DGX SuperPOD 平台加速大模型训练

• 本案例主要应用到 DGX A100、Mellanox HDR Infiniband、DGX SuperPOD、和 NVPS 服务

• DGX SuperPOD 是一套完整的解决方案

客户简介及客户挑战

京东探索研究院致力于世界前沿技术的研究,其中人工智能方向涵盖 CV、NLP、多模态等。大规模语音模型的研究更是京东探索研究院的重中之重。

以语言模型为例,在过去 2-3 年的时间,语言模型大小每年都在以 1-2 个数量级的速度在增加,如今,则已达到万亿参数的级别。而模型的结构和复杂性日益变化,这对 GPU 集群的架构提出了不一样的要求。

从系统层面看,既有的 GPU 计算集群主要是以支持单机任务、小规模多机任务为主,相较之下,其多机之间网络扩展能力则较弱,而大规模扩展能力也较为受限。因此,在既有的 GPU 集群架构下,较无法满足服务大模型的计算需求。

对于京东探索研究院而言,掌握时效是关键,更快的模型训练意味着能加速迭代、扩展尝试空间、使产品落地更迅速,并提高业务收益。在模型越来越复杂多样、计算需求越来越大、单任务计算规模越来越大的背景下,如何快速新建一个可高效扩展并易用的 GPU 集群,以满足应对上述挑战,是亟待解决的核心问题。

应用方案

基于以上挑战,京东探索研究院选择了采用 NVIDIA DGX SuperPOD 方案来提供支持,并成功给业务侧带来了巨大的提升及解决企业痛点。

NVIDIA DGX SuperPOD 是一套完整的解决方案,基于 DGX A100 服务器、HDR Infiniband 200G 网卡和 NVIDIA Quantum QM8790 交换机构建了一套全互联架构,在保证单机计算能力最强的同时,采用计算和存储网络相隔离的方案,最大程度地从网络上保证集群的互联能力。

安装部署方面,NVIDIA 为 DGX SuperPOD 提供专业的部署服务,包括单机系统部署、IB 网络配置、调度安装调试、监控部署、多机环境、基础性能验证等,从基础系统方面,保证了最快交付。

使用方面,NVIDIA 为 DGX SuperPOD 部署了 Slurm 调度系统,并基于 NGC 和客户主要的几类模型,提供了完整的作业脚本,用户只需简单修改几行参数来适配自己的模型,即可一键方便地运行起大规模分布式任务。

性能方面,DGX SuperPOD经过一系列的基础优化(CUDA-X, Magnum IO, NGC)和评测验证(MLPerf),提供最好的 AI 训练性能,在京东探索研究院针对CV、NLP、跨模态等领域设计和研发的数十个模型上,经过双方一系列系统级的合作优化,在 DGX SuperPOD 上达到了比较理想的加速比和扩展性。

使用 DGX SuperPOD 方案,用户只需要关注自己的 AI 模型和算法研究,无需关注硬件和系统层的配置、优化、扩展性等问题,让 AI 研究人员把宝贵的时间和精力专注在前沿的 AI 技术研究上。

使用效果及影响

使用了 DGX SuperPOD 集群方案,极大地加速了用户的 AI 训练和迭代速度,为用户进一步探索出更强大更智能的 AI 模型建立了坚实的基石。

在 DGX SuperPOD 交付给用户仅仅两个多月之后,京东探索研究院就联合悉尼大学在传统 “预训练-微调” 的范式下,利用 DGX SuperPOD 的高效扩展能力,通过研究和工程上的全方位创新,研发出了织女模型,在通用语言理解评估基准(GLUE)的两项挑战性任务,即情感分析任务 SST(The Stanford Sentiment Treebank)和指代消解任务 WNLI (Winograd NLI)中首次超越人类,位居所有参赛机构第一。

“强悍的织女模型在京东探索研究院建设的全国首个基于 DGX SuperPOD 架构的超大规模计算集群 “天琴α” 上完成训练,该集群具有全球领先的大规模分布式并行训练技术,其近似线性加速比的数据、模型、流水线并行技术持续助力织女模型的高效训练。”

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109050
  • 服务器
    +关注

    关注

    13

    文章

    10093

    浏览量

    90856
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA DGX Spark助力构建自己的AI模型

    2025 年 1 月 6 日,NVIDIA 正式宣布其 Project DIGITS 项目,并于 3 月 18 日更名为 NVIDIA DGX Spark,进一步公布了产品细节。DGX Spark
    的头像 发表于 11-21 09:25 522次阅读
    NVIDIA <b class='flag-5'>DGX</b> Spark<b class='flag-5'>助力</b>构建自己的AI<b class='flag-5'>模型</b>

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    本帖欲分享在Ubuntu20.04系统中训练神经网络模型的一些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是训练一个手写数字识
    发表于 10-22 07:03

    NVIDIA DGX Spark桌面AI计算机开启预订

    DGX Spark 现已开启预订!丽台科技作为 NVIDIA 授权分销商,提供从产品到服务的一站式解决方案,助力轻松部署桌面 AI 计算机。
    的头像 发表于 09-23 17:20 903次阅读
    NVIDIA <b class='flag-5'>DGX</b> Spark桌面AI计算机开启预订

    Cadence 借助 NVIDIA DGX SuperPOD 模型扩展数字孪生平台库,加速 AI 数据中心部署与运营

    [1]  利用搭载 DGX GB200 系统的 NVIDIA DGX SuperPOD[2] 数字孪生系统实现了库的重大扩展 。借助 NVIDIA 高性能加速计算平台的新模型,数据中
    的头像 发表于 09-15 15:19 1225次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    引领AI时代网络变革:睿海光电的核心竞争力 在AI时代,数据中心正经历从传统架构向AI工厂与AI云的转型。AI工厂依赖超大规模GPU集群驱动大模型训练,要求网络具备超高带宽与超低延迟;AI云则为多
    发表于 08-13 19:01

    Cognizant加速AI模型企业级开发

    -Cognizant推出AI Training Data Services,助力企业级AI模型加速开发 Cognizant是数据与AI模型训练合作伙伴,长期深受大型数字原生先锋企业信赖
    的头像 发表于 07-31 17:25 594次阅读

    无刷直流电机助力式EPS控制器设计与试验

    [摘要]基于无刷直流电机(BLDCM)模型和汽车电动助力转向(EPS)动力学模型,构建了BLDCM 控制仿真模型和 EPS性能仿真模型;设计
    发表于 07-08 19:28

    FLIR工具如何助力电气工作高效安全

    在电气承包领域,拥有高效、精准的工具是保障工作效率与客户安全的关键。随着技术的不断进步,一系列创新的电气检测工具应运而生,它们不仅能够帮助电气承包商迅速定位并解决问题,还能显著提升作业的安全性和准确性。今天,小菲就来揭秘电气承包商不可或缺的5种FLIR工具,看看它们如何助力
    的头像 发表于 04-25 09:54 606次阅读

    PoE交换机如何助力智慧城市基础设施建设?

    随着全球城市化的加速发展,智慧城市的概念正逐步成为现实。通过技术手段提升居民生活质量、优化城市运营并促进可持续发展已成为趋势。弹性且高效的网络是智慧城市基础设施的关键支撑,而以太网供电(PoE
    发表于 03-25 10:20

    利用RAKsmart服务器托管AI模型训练的优势

    AI模型训练需要强大的计算资源、高效的存储和稳定的网络支持,这对服务器的性能提出了较高要求。而RAKsmart服务器凭借其核心优势,成为托管AI模型
    的头像 发表于 03-18 10:08 521次阅读

    训练好的ai模型导入cubemx不成功怎么处理?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 03-11 07:18

    CN71102TGR过零检测芯片助力高效稳定控制

    CN71102TGR过零检测芯片助力高效稳定控制
    的头像 发表于 02-28 10:12 1039次阅读
    CN71102TGR过零检测芯片<b class='flag-5'>助力</b><b class='flag-5'>高效</b>稳定控制

    启明智显集成DeepSeek、豆包、OpenAI等全球先进AI大模型助力传统产品AI智能升级

    启明智显借助豆包、Deepseek、OpenAI等全球先进AI大模型助力传统产品实现AI智能升级
    的头像 发表于 02-24 16:12 1375次阅读
    启明智显集成DeepSeek、豆包、OpenAI等全球先进AI大<b class='flag-5'>模型</b>,<b class='flag-5'>助力</b>传统产品AI智能升级

    GPU是如何训练AI大模型

    在AI模型训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何训练AI大模型的。
    的头像 发表于 12-19 17:54 1308次阅读

    助力AIoT应用:在米尔FPGA开发板上实现Tiny YOLO V4

    署 Tiny YOLO V4,我们可以为智能家居、智慧城市等 AIoT 应用提供高效的解决方案。 CPU GPU FPGA 架构对比 二、 了解 Tiny YOLO 模型及其适用性YOLO(You
    发表于 12-06 17:18