0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何快速新建一个可高效扩展并易用的GPU集群

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-01-04 14:22 次阅读

基于京东部署的DGX SuperPOD集群 “天琴α”,京东探索研究院联合悉尼大学共同研发了织女模型,一并攻克了 GLUE 两项挑战性任务。

京东探索研究院致力于世界前沿技术的研究,其中人工智能方向涵盖 CV、NLP、多模态等。大规模语音模型的研究更是京东探索研究院的重中之重。

以语言模型为例,在过去 2-3 年的时间,语言模型大小每年都在以 1-2 个数量级的速度在增加,如今,则已达到万亿参数的级别。而模型的结构和复杂性日益变化,这对 GPU 集群的架构提出了不一样的要求。

从系统层面看,既有的 GPU 计算集群主要是以支持单机任务、小规模多机任务为主,相较之下,其多机之间网络扩展能力则较弱,而大规模扩展能力也较为受限。因此,在既有的 GPU 集群架构下,较无法满足服务大模型的计算需求。

对于京东探索研究院而言,掌握时效是关键,更快的模型训练意味着能加速迭代、扩展尝试空间、使产品落地更迅速,并提高业务收益。在模型越来越复杂多样、计算需求越来越大、单任务计算规模越来越大的背景下,如何快速新建一个可高效扩展并易用的 GPU 集群,以满足应对上述挑战,是亟待解决的核心问题。

基于以上挑战,京东探索研究院选择了采用NVIDIA DGX SuperPOD方案来提供支持,并成功给业务侧带来了巨大的提升及解决企业痛点。

1. NVIDIA DGX SuperPOD 是一套完整的解决方案,基于DGX A100服务器、HDR InfiniBand 200G网卡和NVIDIA Quantum QM8790交换机构建了一套全互联架构,在保证单机计算能力最强的同时,采用计算和存储网络相隔离的方案,最大程度地从网络上保证集群的互联能力。

2.安装部署方面,NVIDIA 为 DGX SuperPOD 提供专业的部署服务,包括单机系统部署、InfiniBand网络配置、调度安装调试、监控部署、多机环境、基础性能验证等,从基础系统方面,保证了最快交付。

3.使用方面,NVIDIA 为 DGX SuperPOD 部署了 Slurm 调度系统,并基于NGC和客户主要的几类模型,提供了完整的作业脚本,用户只需简单修改几行参数来适配自己的模型,即可一键方便地运行起大规模分布式任务。

4. 性能方面,DGX SuperPOD 经过一系列的基础优化(CUDA-X, Magnum IO, NGC)和评测验证(MLPerf),提供最好的 AI 训练性能,在京东探索研究院针对CV、NLP、跨模态等领域设计和研发的数十个模型上,经过双方一系列系统级的合作优化,在 DGX SuperPOD 上达到了比较理想的加速比和扩展性。

使用 DGX SuperPOD 方案,用户只需要关注自己的 AI 模型和算法研究,无需关注硬件和系统层的配置、优化、扩展性等问题,让 AI 研究人员把宝贵的时间和精力专注在前沿的 AI 技术研究上。

使用了 DGX SuperPOD 集群方案,极大地加速了用户的 AI 训练和迭代速度,为用户进一步探索出更强大更智能的 AI 模型建立了坚实的基石。

在 DGX SuperPOD 交付给用户仅仅两个多月之后,京东探索研究院就联合悉尼大学在传统 “预训练-微调” 的范式下,利用 DGX SuperPOD 的高效扩展能力,通过研究和工程上的全方位创新,研发出了织女模型,在通用语言理解评估基准(GLUE)的两项挑战性任务,即情感分析任务 SST(The Stanford Sentiment Treebank)和指代消解任务 WNLI (Winograd NLI)中首次超越人类,位居所有参赛机构第一。

京东探索研究院表示:“强悍的织女模型在京东探索研究院建设的全国首个基于 DGX SuperPOD 架构的超大规模计算集群 “天琴α” 上完成训练,该集群具有全球领先的大规模分布式并行训练技术,其近似线性加速比的数据、模型、流水线并行技术持续助力织女模型的高效训练。”

NVIDIA 将参加 CES 2022, 并将在 1 月 5 日凌晨 0 点(北京时间)发表 NVIDIA 特别演讲。

NVIDIA GeForce 高级副总裁 Jeff Fisher 和 NVIDIA 汽车部门副总裁兼总经理 Ali Kani 将展示加速计算在设计、仿真、游戏和自动驾驶汽车方面的新突破。扫描下方海报,即刻将该日程添加到日历!

原文标题:DGX SuperPOD 加速语言模型训练,助力京东探索研究院勇刷 GLUE 榜单

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4582

    浏览量

    101682
  • 人工智能
    +关注

    关注

    1776

    文章

    43766

    浏览量

    230562
  • 京东
    +关注

    关注

    2

    文章

    960

    浏览量

    48107

原文标题:DGX SuperPOD 加速语言模型训练,助力京东探索研究院勇刷 GLUE 榜单

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    高效、小巧、灵活且易用的同步直流/直流降压转换器TPSM843320数据表

    电子发烧友网站提供《高效、小巧、灵活且易用的同步直流/直流降压转换器TPSM843320数据表.pdf》资料免费下载
    发表于 03-22 14:26 0次下载
    <b class='flag-5'>高效</b>、小巧、灵活且<b class='flag-5'>易用</b>的同步直流/直流降压转换器TPSM843320数据表

    FPGA在深度学习应用中或将取代GPU

    ,这使得它比般处理器更高效。但是,很难对 FPGA 进行编程,Larzul 希望通过自己公司开发的新平台解决这个问题。 专业的人工智能硬件已经成为了独立的产业,但对于什么是深度
    发表于 03-21 15:19

    HarmonyOS SDK 助力新浪新闻打造精致易用的新闻应用

    原生智能是 HarmonyOS NEXT 的核心亮点之,依托 HarmonyOS SDK 丰富全面的开放能力,开发者只需通过几行代码,即可快速实现 AI 功能。新浪新闻作为鸿蒙原生应用开发的先行者
    发表于 02-07 15:51

    重铸AI云纪元:助力超大模型运行的GPU集群

    正如GigaIO全球销售首席技术官Matt Demas在接受采访时所说:"我们利用我们的SuperNODE为TensorWave创建了一个大型集群。“每个 SuperNODE 都有两台额外
    发表于 01-05 09:42 124次阅读
    重铸AI云纪元:助力超大模型运行的<b class='flag-5'>GPU</b><b class='flag-5'>集群</b>

    GPU集群组网技术详解

    ​ 流行的GPU/TPU集群网络组网,包括:NVLink、InfiniBand、ROCE以太网Fabric、DDC网络方案等,深入了解它们之间的连接方式以及如何在LLM训练中发挥作用。为了获得良好的训练性能,GPU网络需要满足
    的头像 发表于 12-25 10:11 2075次阅读
    <b class='flag-5'>GPU</b><b class='flag-5'>集群</b>组网技术详解

    redis集群中的hash一致性算法的理解

    Redis集群是一种为了增强Redis的可扩展性和高可用性而设计的集群方案。在Redis集群中,一致性哈希算法被广泛地应用于数据分片和负载均衡。 一、Redis
    的头像 发表于 12-04 10:45 283次阅读

    IO扩展模块有哪些特点

    (AO)等各种信号类型的输入输出。无论是需要监测设备状态还是控制执行器动作,IO扩展模块都能胜任。例如,在生产线上,IO扩展模块可以同时接收传感器的信号
    发表于 08-31 18:14

    ARM Streamline 8.4版用户指南

    使用Streamline快速开始评测您的Android、Linux或裸机应用程序。 Streamline是应用程序探查器,可以捕获来自多个源的数据,包括: •运行应用程序线程的程序计数器(PC
    发表于 08-10 07:21

    用于快速模型的模型调试器11.20版用户指南

    用于快速模型的模型调试器是用于扩展集群软件开发的完全重定目标的调试器。它旨在满足SoC软件开发人员的需求。 Model Debugger
    发表于 08-10 06:33

    用于快速模型的模型调试器11.21版用户指南

    用于快速模型的模型调试器是用于扩展集群软件开发的完全重定目标的调试器。它旨在满足SoC软件开发人员的需求。 Model Debugger
    发表于 08-09 07:57

    ARM Streamline用户指南

    使用Streamline快速开始评测您的Android、Linux或裸机应用程序。 Streamline是应用程序探查器,可以捕获来自多个源的数据,包括: •运行应用程序线程的程序计数器(PC
    发表于 08-08 07:26

    Arm编译器扩展矢量扩展用户指导

    (HPC): •扩展的矢量长度。 •每条车道预测。 •收集负载分散存储。 •容错推测矢量化。 •水平和串行矢量运算。 此版本的Arm编译器工具链允许您: •汇编包含SVE指令的源代码。 •分解
    发表于 08-08 06:34

    适用于快速模型的模型调试器用户指南

    用于快速模型的模型调试器是用于扩展集群软件开发的完全重定目标的调试器。它旨在满足SoC软件开发人员的需求。 Model Debugger
    发表于 08-08 06:28

    NVIDIA虚拟GPU技术推动快速无痛的牙科治疗

    NVIDIA虚拟GPU技术推动快速无痛的牙科治疗
    的头像 发表于 08-01 14:46 293次阅读

    智能网卡简介及其在高性能计算中的作用

    通过各层传播以计算权重梯度(计算信息)。最后,使用梯度和优化器规则更新权重,以最小化预测误差。对多个小批量(纪元)重复此过程,直到精度收敛。图 1:带有四工人的流水线环全归化。(来源:“用于
    发表于 07-28 10:10