创作

完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>

3天内不再提示

NVIDIA DGX SuperPOD 方案满足服务大模型的计算需求

NVIDIA_China 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-01-04 17:38 次阅读

基于京东部署的 DGX SuperPOD 集群 “天琴α”,京东探索研究院联合悉尼大学共同研发了织女模型,一并攻克了 GLUE 两项挑战性任务。

京东探索研究院致力于世界前沿技术的研究,其中人工智能方向涵盖 CV、NLP、多模态等。大规模语音模型的研究更是京东探索研究院的重中之重。

以语言模型为例,在过去 2-3 年的时间,语言模型大小每年都在以 1-2 个数量级的速度在增加,如今,则已达到万亿参数的级别。而模型的结构和复杂性日益变化,这对 GPU 集群的架构提出了不一样的要求。

从系统层面看,既有的 GPU 计算集群主要是以支持单机任务、小规模多机任务为主,相较之下,其多机之间网络扩展能力则较弱,而大规模扩展能力也较为受限。因此,在既有的 GPU 集群架构下,较无法满足服务大模型的计算需求。

对于京东探索研究院而言,掌握时效是关键,更快的模型训练意味着能加速迭代、扩展尝试空间、使产品落地更迅速,并提高业务收益。在模型越来越复杂多样、计算需求越来越大、单任务计算规模越来越大的背景下,如何快速新建一个可高效扩展并易用的 GPU 集群,以满足应对上述挑战,是亟待解决的核心问题。

基于以上挑战,京东探索研究院选择了采用 NVIDIA DGX SuperPOD 方案来提供支持,并成功给业务侧带来了巨大的提升及解决企业痛点。

1. NVIDIA DGX SuperPOD 是一套完整的解决方案,基于 DGX A100 服务器、HDR InfiniBand 200G 网卡和 NVIDIA Quantum QM8790 交换机构建了一套全互联架构,在保证单机计算能力最强的同时,采用计算和存储网络相隔离的方案,最大程度地从网络上保证集群的互联能力。

2.安装部署方面,NVIDIA 为 DGX SuperPOD 提供专业的部署服务,包括单机系统部署、InfiniBand 网络配置、调度安装调试、监控部署、多机环境、基础性能验证等,从基础系统方面,保证了最快交付。

3.使用方面,NVIDIA 为 DGX SuperPOD 部署了 Slurm 调度系统,并基于 NGC 和客户主要的几类模型,提供了完整的作业脚本,用户只需简单修改几行参数来适配自己的模型,即可一键方便地运行起大规模分布式任务。

4. 性能方面,DGX SuperPOD 经过一系列的基础优化(CUDA-X, Magnum IO, NGC)和评测验证(MLPerf),提供最好的 AI 训练性能,在京东探索研究院针对CV、NLP、跨模态等领域设计和研发的数十个模型上,经过双方一系列系统级的合作优化,在 DGX SuperPOD 上达到了比较理想的加速比和扩展性。

使用 DGX SuperPOD 方案,用户只需要关注自己的 AI 模型和算法研究,无需关注硬件和系统层的配置、优化、扩展性等问题,让 AI 研究人员把宝贵的时间和精力专注在前沿的 AI 技术研究上。

使用了 DGX SuperPOD 集群方案,极大地加速了用户的 AI 训练和迭代速度,为用户进一步探索出更强大更智能的 AI 模型建立了坚实的基石。

在 DGX SuperPOD 交付给用户仅仅两个多月之后,京东探索研究院就联合悉尼大学在传统 “预训练-微调” 的范式下,利用 DGX SuperPOD 的高效扩展能力,通过研究和工程上的全方位创新,研发出了织女模型,在通用语言理解评估基准(GLUE)的两项挑战性任务,即情感分析任务 SST(The Stanford Sentiment Treebank)和指代消解任务 WNLI (Winograd NLI)中首次超越人类,位居所有参赛机构第一。

京东探索研究院表示:“强悍的织女模型在京东探索研究院建设的全国首个基于 DGX SuperPOD 架构的超大规模计算集群 “天琴α” 上完成训练,该集群具有全球领先的大规模分布式并行训练技术,其近似线性加速比的数据、模型、流水线并行技术持续助力织女模型的高效训练。”

NVIDIA 将参加 CES 2022, 并将在 1 月 5 日凌晨 0 点(北京时间)发表 NVIDIA 特别演讲。

NVIDIA GeForce 高级副总裁 Jeff Fisher 和 NVIDIA 汽车部门副总裁兼总经理 Ali Kani 将展示加速计算在设计、仿真、游戏和自动驾驶汽车方面的新突破。

原文标题:DGX SuperPOD 加速语言模型训练,助力京东探索研究院勇刷 GLUE 榜单

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

审核编辑:彭菁

原文标题:DGX SuperPOD 加速语言模型训练,助力京东探索研究院勇刷 GLUE 榜单

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    浅谈物联网技术的未来发展趋势

    在一个由人工智能、数据和不断进步的连接技术主导的世界中,很难将“物联网”从创新和改变游戏规则的技术列....
    的头像 明道物联网 发表于 05-21 15:06 190次 阅读

    大型主机的智能运维如何应对

    无论你是否关注新技术,都一定能感受到我们的生活方式发生了翻天覆地的变化。拿起电脑、手机就可以购物、就....
    的头像 IBM中国 发表于 05-21 12:03 147次 阅读

    海康威视以数字化助力智慧养老服务

    根据国际标准,当一个国家或地区65岁以上人口占比达到7%时,即进入老龄化社会,若比例达到14%时,则....
    的头像 海康威视 发表于 05-21 11:04 248次 阅读

    自然语言处理之情感分析

    情感分析是指根据文本数据(例如书面评论和社交媒体帖子)自动解释和分类情感(通常是积极、消极或中立)的....
    的头像 NVIDIA英伟达 发表于 05-21 10:27 149次 阅读

    NVIDIA自动驾驶网络会议将6月9日举办

    NVIDIA DRIVE Orin 现已投产,可在深度神经网络推理性能方面实现重大飞跃。6 月 9 ....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-21 10:24 226次 阅读

    计算机视觉系统让车流变得更通畅

    NVIDIA Metropolis 合作伙伴 Tapway 所提供的计算机视觉系统让马来西亚最大的高....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-21 10:09 281次 阅读

    整体功耗降低15%!GPU10%提升!高通发布新一代骁龙8+芯片 小米新一代5G旗舰机搭载

    骁龙8+的CPU超级内核的主频提升至3.2GHz,带来10%性能提升;在前代平台广受认可的强悍表现之....
    的头像 zhangyingwlw 发表于 05-21 09:40 797次 阅读
    整体功耗降低15%!GPU10%提升!高通发布新一代骁龙8+芯片 小米新一代5G旗舰机搭载

    爱芯元智与百度飞桨建立深度合作 加速开源生态丰富AI“芯”应用

    中国 北京 2022年5月20日,由深度学习技术及应用国家工程研究中心主办、飞桨承办的WAVE SU....
    的头像 21克888 发表于 05-20 18:18 527次 阅读
    爱芯元智与百度飞桨建立深度合作 加速开源生态丰富AI“芯”应用

    爱芯元智将携手多家合作伙伴共同发起硬件生态共创计划

    5月20日,由深度学习技术及应用国家工程研究中心主办、飞桨承办的WAVE SUMMIT 2022深度....
    的头像 海阔天空的专栏 发表于 05-20 18:02 94次 阅读

    海康威视推出智能养老看护平台

    我国已经步入老龄化社会。 根据国际标准,当一个国家或地区65岁以上人口占比达到7%时,即进入老龄化社....
    的头像 海阔天空的专栏 发表于 05-20 17:46 146次 阅读

    物件检测模型训练的详细过程

    当前面已经训练好修剪过的模型之后,接下来就可以在训练设备上先执行推理计算,看看检测的效果如何?如果实....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-20 17:43 40次 阅读

    NVIDIA RTX A4500性能测评总结

    近日,来自 DEVELOP3D 的 Greg Corke 对 NVIDIA RTX A4500 进行....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-20 17:39 48次 阅读

    DASK适用于Python中的并行和分布式计算

    Dask 是一个灵活的开源库,适用于 Python 中的并行和分布式计算。
    的头像 NVIDIA英伟达 发表于 05-20 17:35 42次 阅读

    Imagination携手百度飞桨共同发起“硬件生态共创计划”

    Imagination Technologies在今日隆重举行的“Wave Summit 2022”....
    的头像 科技绿洲 发表于 05-20 17:22 92次 阅读

    壹沓数字员工破解供应链困局,加速数字化转型

    “21世纪的竞争不再是企业与企业之间的竞争,而是供应链与供应链之间的竞争。”如今,这句话被现实兑现。....
    的头像 科技见闻网 发表于 05-20 16:56 83次 阅读

    字节跳动参与的海外研究成果入选Nature子刊

    近日,Nature子刊Nature Neuroscience接收了一项由字节跳动海外技术团队与新加坡....
    的头像 科技绿洲 发表于 05-20 16:53 112次 阅读
    字节跳动参与的海外研究成果入选Nature子刊

    普渡科技创立“PUDU-X”创新基金 为机器人行业注入新活力

    近日,普渡科技正式创立“PUDU-X”创新基金,专门用于支持全国大学生机器人大赛ROBOCON赛事中....
    的头像 科技绿洲 发表于 05-20 16:13 354次 阅读

    智能物联网的数据科学和集成

      当辩证性思维遇到机器学习算法时,数据科学可以帮助获得对业务更佳的见解,提高工作效率,并提供业务决....
    的头像 星星科技指导员 发表于 05-20 16:12 129次 阅读
    智能物联网的数据科学和集成

    AI/ML模型实现比传统云连接的物联网系统更高的系统效率

      人工智能不仅仅存在于云中;它将无处不在。本地设备的智能化、缩短的延迟、数据完整性、更快的执行力、....
    的头像 星星科技指导员 发表于 05-20 15:43 192次 阅读

    NVIDIA如何助力非洲开展人工智能革命

    NVIDIA 的 Kate Kallot 在非洲人工智能博览会上发表的主题演讲重点介绍了新兴地区如何....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-20 15:36 187次 阅读

    NVIDIA T4 GPU加速VIVO推荐系统部署

    展望未来,VIVO推荐系统工程团队会继续探索新技术,持续积累 GPU工程经验,并且沉淀到平台中,最终....
    的头像 星星科技指导员 发表于 05-20 15:27 197次 阅读
    NVIDIA T4 GPU加速VIVO推荐系统部署

    NVIDIA Triton助力腾讯PCG加速在线推理

      借助NVIDIA Triton 推理框架,配合 DALI/FIL/Python 等Backend....
    的头像 星星科技指导员 发表于 05-20 15:25 161次 阅读
    NVIDIA Triton助力腾讯PCG加速在线推理

    腾讯广告视频抽帧的全流程GPU加速

      目前该方案已在腾讯广告多媒体 AI 的视频人脸服务落地,解决了其最主要的抽帧性能瓶颈,满足广告流....
    的头像 星星科技指导员 发表于 05-20 15:19 233次 阅读
    腾讯广告视频抽帧的全流程GPU加速

    一文详细了解NVIDIA CloudXR 3.2的新功能

    自 NVIDIA CloudXR 发布以来,NVIDIA 收到了积极的反馈,并广泛采用了 SDK 。....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-20 15:16 139次 阅读

    NVIDIA GPU助力单颗粒冷冻电镜研究

    清华大学杨茂君实验室是国内领先的结构生物学实验室,杨茂君教授目前为清华大学 Tenue-Track ....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-20 15:13 131次 阅读

    NVIDIA A100加速医学图像处理深度学习研究

      通过NVIDIA A100 GPU的MIG技术,在小团队的工作环境中有较高的自由度,在计算资源较....
    的头像 星星科技指导员 发表于 05-20 15:13 141次 阅读

    NVIDIA TensorRT加速打造实时数字化运动场景

      我们的硬件方案也从 4 台 HPC 缩减到 1 台 HPC 搭载 2 张 A100 GPU,不仅....
    的头像 星星科技指导员 发表于 05-20 15:11 106次 阅读
    NVIDIA TensorRT加速打造实时数字化运动场景

    NVIDIA DGX A100助力百图生科构建生物计算引擎

      基于以上挑战,百图生科采用了 NVIDIA DGX A100 80GB,将深度学习训练、推理和分....
    的头像 星星科技指导员 发表于 05-20 15:07 172次 阅读

    基于NVIDIA GPU加速平台实现5G端到端解决方案

      与各垂直行业特性相结合, 爱瑞无线和 NVIDIA 共同打造的 5G+AI 超融合解决方案将为智....
    的头像 星星科技指导员 发表于 05-20 15:04 219次 阅读

    中兴通讯与大中矿业签署战略合作框架协议

    在2022世界电信和信息社会日大会期间,中兴通讯与内蒙古大中矿业股份有限公司(简称“大中矿业”)在大....
    的头像 科技绿洲 发表于 05-20 15:01 172次 阅读

    NVIDIA助力百度智能云落地新一代高性能AI计算集群

      经过百度内部 NLP 研究团队的验证,在这个网络环境下的超大规模集群上提交千亿模型训练作业时,同....
    的头像 星星科技指导员 发表于 05-20 15:00 179次 阅读

    NVIDIA TensorRT的命令行程序

      如果您向--timingCacheFile选项提供时序缓存文件,则构建器可以从中加载现有的分析数....
    的头像 星星科技指导员 发表于 05-20 14:54 127次 阅读
    NVIDIA TensorRT的命令行程序

    NVIDIA TensorRT的数据格式定义

      数据类型是每个单独值的表示。它的大小决定了取值范围和表示的精度,分别是FP32(32位浮点,或单....
    的头像 星星科技指导员 发表于 05-20 14:48 177次 阅读
    NVIDIA TensorRT的数据格式定义

    中科创达Rubik云平台为企业客户数智化转型赋能

    此外,中科创达还在边缘计算方面做了完整的布局,形成了完整的产业链,并基于TurboX平台形成智慧工厂....
    的头像 科技绿洲 发表于 05-20 14:42 151次 阅读

    RK3399开发板AI人工智能深度学习之TensorFlow 测试

    硬件平台:迅为-RK3399开发板 系统:ubuntu项目:TensorFlow 测试 配套资料在网盘资料的“iTOP-3399 开发资料汇总(不含...
    发表于 05-13 15:41 1186次 阅读
    RK3399开发板AI人工智能深度学习之TensorFlow 测试

    请问在RK3399pro中间计算时能否调用GPU的一些现成数据库或函数来计算

    我在用RK3399pro的NPU做深度学习计算,使用了两个rknn模型进行推理,但是在这两个rknn模型之间需要进行一些中间计算(从第一...
    发表于 05-09 15:26 3299次 阅读

    如何用人工智能来解决摄影中照片出现人像模糊不清的问题

          每个人毕竟都不是专业摄影师,因为一些取景以及构图或者外在环境的因素,一些人像照片总会产生不很清...
    发表于 05-01 13:18 3959次 阅读
    如何用人工智能来解决摄影中照片出现人像模糊不清的问题

    Sipeed M2DOCK:全志V831 开源 人工智能 神经网络 视觉 AI Python开发板

    作者@Sipeed 原文链接:
    发表于 04-29 15:06 2040次 阅读

    如何设计智能型水杯

    使用单片机、ESP8266、PWM驱动器、以及半导体加热片制作一个水温控制系统。 使用钢制器皿作为容器,最少容量100ml。 通过...
    发表于 04-27 22:11 883次 阅读

    tf代码为什么在rk3399上训练比没有gpu的电脑慢很多

    把tf代码从电脑上放到rk3399上运行训练,比电脑慢的很多很多,板子不是带有npu吗?是不是代码需要改动什么啊? ...
    发表于 04-22 16:23 8407次 阅读

    简单介绍下Arm Mali的GPU系列

    对于手机终端来说,GPU图像处理能力是衡量一台手机的性能标杆。首先,是UI流畅性,大家拿到手机都得先划来划去看下UI是否...
    发表于 04-12 11:01 3925次 阅读

    充分利用Arm NN进行GPU推理

    Arm拥有跨所有处理器的计算IP。而且,无论您要在GPU,CPU还是NPU上进行ML推理,都可以在一个通用框架下使用它们:...
    发表于 04-11 17:33 3946次 阅读

    介绍android下的OpenCL开发步骤

    1、介绍android下OpenCL开发 Firefly rk3288采用Mali-T764的GPU,该GPU支持OpeCL 1.1。下面一步一步介绍android...
    发表于 04-11 14:35 2172次 阅读

    AIO-3288C常用命令资料合集

    1、CPU,DDR,GPU频率测量 当我们拿到 AIO-3288C 的机器时候,想看一下机器当前 CPU,DDR,GPU 跑的是什...
    发表于 04-07 18:00 3529次 阅读