创作

完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>

3天内不再提示

如何快速新建一个可高效扩展并易用的GPU集群

NVIDIA-Enterprise 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-01-04 14:22 次阅读

基于京东部署的DGX SuperPOD集群 “天琴α”,京东探索研究院联合悉尼大学共同研发了织女模型,一并攻克了 GLUE 两项挑战性任务。

京东探索研究院致力于世界前沿技术的研究,其中人工智能方向涵盖 CV、NLP、多模态等。大规模语音模型的研究更是京东探索研究院的重中之重。

以语言模型为例,在过去 2-3 年的时间,语言模型大小每年都在以 1-2 个数量级的速度在增加,如今,则已达到万亿参数的级别。而模型的结构和复杂性日益变化,这对 GPU 集群的架构提出了不一样的要求。

从系统层面看,既有的 GPU 计算集群主要是以支持单机任务、小规模多机任务为主,相较之下,其多机之间网络扩展能力则较弱,而大规模扩展能力也较为受限。因此,在既有的 GPU 集群架构下,较无法满足服务大模型的计算需求。

对于京东探索研究院而言,掌握时效是关键,更快的模型训练意味着能加速迭代、扩展尝试空间、使产品落地更迅速,并提高业务收益。在模型越来越复杂多样、计算需求越来越大、单任务计算规模越来越大的背景下,如何快速新建一个可高效扩展并易用的 GPU 集群,以满足应对上述挑战,是亟待解决的核心问题。

基于以上挑战,京东探索研究院选择了采用NVIDIA DGX SuperPOD方案来提供支持,并成功给业务侧带来了巨大的提升及解决企业痛点。

1. NVIDIA DGX SuperPOD 是一套完整的解决方案,基于DGX A100服务器、HDR InfiniBand 200G网卡和NVIDIA Quantum QM8790交换机构建了一套全互联架构,在保证单机计算能力最强的同时,采用计算和存储网络相隔离的方案,最大程度地从网络上保证集群的互联能力。

2.安装部署方面,NVIDIA 为 DGX SuperPOD 提供专业的部署服务,包括单机系统部署、InfiniBand网络配置、调度安装调试、监控部署、多机环境、基础性能验证等,从基础系统方面,保证了最快交付。

3.使用方面,NVIDIA 为 DGX SuperPOD 部署了 Slurm 调度系统,并基于NGC和客户主要的几类模型,提供了完整的作业脚本,用户只需简单修改几行参数来适配自己的模型,即可一键方便地运行起大规模分布式任务。

4. 性能方面,DGX SuperPOD 经过一系列的基础优化(CUDA-X, Magnum IO, NGC)和评测验证(MLPerf),提供最好的 AI 训练性能,在京东探索研究院针对CV、NLP、跨模态等领域设计和研发的数十个模型上,经过双方一系列系统级的合作优化,在 DGX SuperPOD 上达到了比较理想的加速比和扩展性。

使用 DGX SuperPOD 方案,用户只需要关注自己的 AI 模型和算法研究,无需关注硬件和系统层的配置、优化、扩展性等问题,让 AI 研究人员把宝贵的时间和精力专注在前沿的 AI 技术研究上。

使用了 DGX SuperPOD 集群方案,极大地加速了用户的 AI 训练和迭代速度,为用户进一步探索出更强大更智能的 AI 模型建立了坚实的基石。

在 DGX SuperPOD 交付给用户仅仅两个多月之后,京东探索研究院就联合悉尼大学在传统 “预训练-微调” 的范式下,利用 DGX SuperPOD 的高效扩展能力,通过研究和工程上的全方位创新,研发出了织女模型,在通用语言理解评估基准(GLUE)的两项挑战性任务,即情感分析任务 SST(The Stanford Sentiment Treebank)和指代消解任务 WNLI (Winograd NLI)中首次超越人类,位居所有参赛机构第一。

京东探索研究院表示:“强悍的织女模型在京东探索研究院建设的全国首个基于 DGX SuperPOD 架构的超大规模计算集群 “天琴α” 上完成训练,该集群具有全球领先的大规模分布式并行训练技术,其近似线性加速比的数据、模型、流水线并行技术持续助力织女模型的高效训练。”

NVIDIA 将参加 CES 2022, 并将在 1 月 5 日凌晨 0 点(北京时间)发表 NVIDIA 特别演讲。

NVIDIA GeForce 高级副总裁 Jeff Fisher 和 NVIDIA 汽车部门副总裁兼总经理 Ali Kani 将展示加速计算在设计、仿真、游戏和自动驾驶汽车方面的新突破。扫描下方海报,即刻将该日程添加到日历!

原文标题:DGX SuperPOD 加速语言模型训练,助力京东探索研究院勇刷 GLUE 榜单

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
审核编辑:汤梓红

原文标题:DGX SuperPOD 加速语言模型训练,助力京东探索研究院勇刷 GLUE 榜单

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    工业富联采用基于英伟达的超级芯片NVIDIA Grace CPU

    5月24日,工业富联宣布采用基于英伟达NVIDIA HGX、OVX和CGX系统设计的超级芯片NVID....
    的头像 科技绿洲 发表于 05-26 15:17 5次 阅读

    华为基于昇腾AI基础软硬件平台 助力企业的数字化和智能化转型

    华为基于昇腾AI基础软硬件平台,逐步打造完善了从底层硬件、到中间AI框架到上层应用使能平台的整个AI....
    的头像 科技绿洲 发表于 05-26 14:28 37次 阅读

    禾多科技自动驾驶解决方案将实现哪些功能

    2017年成立之初,禾多科技就将促进自动驾驶技术产业化落地作为目标,致力于用前沿人工智能技术和汽车工....
    的头像 禾多科技HoloMatic 发表于 05-25 16:30 182次 阅读

    微软致力于将Azure打造成最理想云端开发平台

    微软年度开发者大会 Build 2022开启为期三天的线上直播,以超过300场主题演讲、技术发布、专....
    的头像 科技绿洲 发表于 05-25 15:41 243次 阅读

    晶科鑫:国产晶振行业的领军者!

    为推动企业在技术创新中的主体作用,推出一批高端产品、形成一批中国标准,加快打造集成电路、人工智能等领....
    的头像 21克888 发表于 05-25 15:34 87次 阅读
    晶科鑫:国产晶振行业的领军者!

    捷通华声上榜“2021年度人工智能企业百强”

    5月24日,中科院《互联网周刊》、eNet硅谷动力、德本咨询联合发布“2021年度人工智能企业百强”....
    的头像 科技绿洲 发表于 05-25 14:35 172次 阅读

    智能手机如何打造个性化体验

    手机已经成为强大的个性化设备,用户可以通过各种应用和功能定制个性化服务和信息。这种能够了解用户、情境....
    的头像 Micron美光科技 发表于 05-25 14:24 190次 阅读

    美格智能旗舰级AI安卓智能模组SNM951开启“健身元宇宙”的钥匙

    在人工智能技术更迭及疫情影响下,居民生活出行受限,户外健身和健身房不再是大众首选,居家健身市场愈发火....
    的头像 1655199132.853000 发表于 05-25 14:13 207次 阅读

    深度学习模型转成TensorRT引擎的流程

    前面我们花了很多力气在 TAO 上面训练模型,其最终目的就是要部署到推理设备上发挥功能。除了将模型训....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-25 11:24 170次 阅读

    NVIDIA发布采用直接芯片冷却技术的数据中心PCIe GPU

    为了遏制气候变化,全球企业正在加快构建高性能、高能效的数据中心,Equinix 边缘基础设施主管 Z....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-25 11:20 292次 阅读

    NVIDIA助力阿里云构建视觉计算解决方案

    随着线上协作、“虚拟经济”等领域的潜力日渐被发掘,扩展现实(XR)、数字孪生、虚拟现实(VR)等技术....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-25 11:13 186次 阅读

    芯片和软件将数据中心转变为AI工厂

    数字孪生彻底改变了最复杂产品的生产方式。芯片和软件将数据中心转变为AI工厂。游戏业的发展将世界上最流....
    的头像 NVIDIA英伟达 发表于 05-25 11:10 211次 阅读

    基于Jetson AGX Orin的边缘AI和嵌入式计算系统

    硬件设计师在这场技术盛会上展示基于 Jetson AGX Orin 的边缘 AI 和嵌入式计算系统。
    的头像 NVIDIA英伟达 发表于 05-25 11:05 187次 阅读

    NVIDIA Grace CPU超级芯片大幅加速现代化工作负载

    华硕、富士康工业互联网、技嘉科技、云达科技、超微、纬颖等公司将提供用于数字孪生、 AI、高性能计算、....
    的头像 NVIDIA英伟达 发表于 05-25 11:02 132次 阅读

    数据中心如何转型成为AI工厂

    数字孪生彻底改变了最复杂产品的生产方式。芯片和软件将数据中心转变为AI工厂。游戏业的发展将世界上最流....
    的头像 科技绿洲 发表于 05-25 10:39 354次 阅读

    新华三实现对NVIDIA液冷GPU及安培系列GPU全系适配

    5月24日,在全球科技盛会“Computex 2022”期间,NVIDIA正式推出A100 80GB....
    的头像 科技绿洲 发表于 05-25 10:34 218次 阅读

    中企通信全方位护航企业SD-WAN成功落地

    在现代通信技术几十年的发展历程中,网络创新从未停止过前进的脚步,从九十年中期的动态网络,到九十年代后....
    的头像 科技绿洲 发表于 05-25 09:39 227次 阅读

    曙光气象基础设施云平台和大数据云平台解决方案加速智慧气象新发展

    炎炎酷暑,蝉鸣声声……立夏之后各地气温逐渐上升。智慧气象的加速建设,将为日常生活带来巨大便利。 曙光....
    的头像 中科曙光 发表于 05-24 19:08 858次 阅读

    Cadence® 数字全流程获(GF) 12LP/12LP+工艺平台认证

    楷登电子(美国 Cadence 公司,NASDAQ:CDNS)今日宣布,Cadence® 数字全流程....
    的头像 科技绿洲 发表于 05-24 16:33 271次 阅读

    英特尔与百度在人工智能各领域应用的创新突破

    今日,英特尔出席在线上举办的Wave Summit 2022深度学习开发者峰会,与众多人工智能专家、....
    的头像 英特尔中国 发表于 05-24 16:00 302次 阅读

    NVIDIA 推出液冷 GPU,助力实现可持续、高效计算

    液冷 NVIDIA A100 PCIe GPU 能够满足客户对高性能绿色数据中心的需求,在主流服务器....
    的头像 21克888 发表于 05-24 14:07 618次 阅读
    NVIDIA 推出液冷 GPU,助力实现可持续、高效计算

    全球三十多家NVIDIA技术合作伙伴于Computex发布首批Jetson AGX Orin生产系统

    本周,全球30多家领先的技术合作伙伴在Computex上发布了首批基于NVIDIA Jetson A....
    的头像 Blue5 发表于 05-24 12:01 536次 阅读
    全球三十多家NVIDIA技术合作伙伴于Computex发布首批Jetson AGX Orin生产系统

    NVIDIA Grace CPU迎来首批玩家,多家厂商将推出基于它的全新数据中心系统

    NVIDIA在Computex前夕宣布,多家计算机制造厂商将发布首批基于NVIDIA Grace C....
    的头像 荷叶塘 发表于 05-24 11:54 865次 阅读
    NVIDIA Grace CPU迎来首批玩家,多家厂商将推出基于它的全新数据中心系统

    空客EBT解决方案空客助力客户提升整体运营安全与效率

    自空中客车成立以来,公司始终与时俱进,利用自身优势,不断为运营商提供全方位的创新解决方案。在飞行训练....
    的头像 科技绿洲 发表于 05-24 10:19 359次 阅读

    GPU加速高性能计算经典应用

    高性能计算(HPC)在重大科学发现的前沿基础科学研究领域已逐渐成为不可或缺的重要手段之一。从分子动力....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-24 09:13 390次 阅读

    商汤科技有序推进在沪复工 人工智能数字哨兵 安全守“沪”

    近期,上海开启“复工键”,在确保符合疫情防控要求的基础上,以龙头企业为牵引,以点带链、以链带面,不断....
    的头像 商汤科技SenseTime 发表于 05-23 15:33 385次 阅读

    纳雷科技创新驱动引领行业发展

    湖南省专精特新“小巨人”培育是为贯彻落实省第十二次党代会报告关于“促进中小企业‘专精特新’发展”要求....
    的头像 纳雷科技 发表于 05-23 10:59 237次 阅读

    云天励飞以人工智能技术助力青岛高质量发展

    青岛市公安局地铁分局与云天励飞签署战略合作协议,并举行“智慧地铁警务联合创新实验室”揭牌仪式。双方将....
    的头像 云天励飞 发表于 05-23 10:49 211次 阅读

    昇腾AI异构计算架构CANN的功能

    强大的社会粘性不断催温数字化发展,目标检测与识别作为计算机视觉领域的一项关键技术,应用场景越发广泛,....
    的头像 华为计算 发表于 05-23 10:01 226次 阅读

    浅谈物联网技术的未来发展趋势

    在一个由人工智能、数据和不断进步的连接技术主导的世界中,很难将“物联网”从创新和改变游戏规则的技术列....
    的头像 明道物联网 发表于 05-21 15:06 486次 阅读

    大型主机的智能运维如何应对

    无论你是否关注新技术,都一定能感受到我们的生活方式发生了翻天覆地的变化。拿起电脑、手机就可以购物、就....
    的头像 IBM中国 发表于 05-21 12:03 362次 阅读

    自然语言处理之情感分析

    情感分析是指根据文本数据(例如书面评论和社交媒体帖子)自动解释和分类情感(通常是积极、消极或中立)的....
    的头像 NVIDIA英伟达 发表于 05-21 10:27 360次 阅读

    NVIDIA自动驾驶网络会议将6月9日举办

    NVIDIA DRIVE Orin 现已投产,可在深度神经网络推理性能方面实现重大飞跃。6 月 9 ....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-21 10:24 450次 阅读

    计算机视觉系统让车流变得更通畅

    NVIDIA Metropolis 合作伙伴 Tapway 所提供的计算机视觉系统让马来西亚最大的高....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-21 10:09 550次 阅读

    物件检测模型训练的详细过程

    当前面已经训练好修剪过的模型之后,接下来就可以在训练设备上先执行推理计算,看看检测的效果如何?如果实....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-20 17:43 78次 阅读

    NVIDIA RTX A4500性能测评总结

    近日,来自 DEVELOP3D 的 Greg Corke 对 NVIDIA RTX A4500 进行....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-20 17:39 99次 阅读

    DASK适用于Python中的并行和分布式计算

    Dask 是一个灵活的开源库,适用于 Python 中的并行和分布式计算。
    的头像 NVIDIA英伟达 发表于 05-20 17:35 65次 阅读

    普渡科技创立“PUDU-X”创新基金 为机器人行业注入新活力

    近日,普渡科技正式创立“PUDU-X”创新基金,专门用于支持全国大学生机器人大赛ROBOCON赛事中....
    的头像 科技绿洲 发表于 05-20 16:13 840次 阅读

    智能物联网的数据科学和集成

      当辩证性思维遇到机器学习算法时,数据科学可以帮助获得对业务更佳的见解,提高工作效率,并提供业务决....
    的头像 星星科技指导员 发表于 05-20 16:12 169次 阅读
    智能物联网的数据科学和集成

    AI/ML模型实现比传统云连接的物联网系统更高的系统效率

      人工智能不仅仅存在于云中;它将无处不在。本地设备的智能化、缩短的延迟、数据完整性、更快的执行力、....
    的头像 星星科技指导员 发表于 05-20 15:43 217次 阅读

    NVIDIA如何助力非洲开展人工智能革命

    NVIDIA 的 Kate Kallot 在非洲人工智能博览会上发表的主题演讲重点介绍了新兴地区如何....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-20 15:36 253次 阅读

    NVIDIA T4 GPU加速VIVO推荐系统部署

    展望未来,VIVO推荐系统工程团队会继续探索新技术,持续积累 GPU工程经验,并且沉淀到平台中,最终....
    的头像 星星科技指导员 发表于 05-20 15:27 506次 阅读
    NVIDIA T4 GPU加速VIVO推荐系统部署

    NVIDIA Triton助力腾讯PCG加速在线推理

      借助NVIDIA Triton 推理框架,配合 DALI/FIL/Python 等Backend....
    的头像 星星科技指导员 发表于 05-20 15:25 280次 阅读
    NVIDIA Triton助力腾讯PCG加速在线推理

    一文详细了解NVIDIA CloudXR 3.2的新功能

    自 NVIDIA CloudXR 发布以来,NVIDIA 收到了积极的反馈,并广泛采用了 SDK 。....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-20 15:16 201次 阅读

    NVIDIA GPU助力单颗粒冷冻电镜研究

    清华大学杨茂君实验室是国内领先的结构生物学实验室,杨茂君教授目前为清华大学 Tenue-Track ....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-20 15:13 167次 阅读

    NVIDIA A100加速医学图像处理深度学习研究

      通过NVIDIA A100 GPU的MIG技术,在小团队的工作环境中有较高的自由度,在计算资源较....
    的头像 星星科技指导员 发表于 05-20 15:13 171次 阅读

    NVIDIA TensorRT加速打造实时数字化运动场景

      我们的硬件方案也从 4 台 HPC 缩减到 1 台 HPC 搭载 2 张 A100 GPU,不仅....
    的头像 星星科技指导员 发表于 05-20 15:11 123次 阅读
    NVIDIA TensorRT加速打造实时数字化运动场景

    NVIDIA DGX A100助力百图生科构建生物计算引擎

      基于以上挑战,百图生科采用了 NVIDIA DGX A100 80GB,将深度学习训练、推理和分....
    的头像 星星科技指导员 发表于 05-20 15:07 195次 阅读

    RK3399开发板AI人工智能深度学习之TensorFlow 测试

    硬件平台:迅为-RK3399开发板 系统:ubuntu项目:TensorFlow 测试 配套资料在网盘资料的“iTOP-3399 开发资料汇总(不含...
    发表于 05-13 15:41 1297次 阅读
    RK3399开发板AI人工智能深度学习之TensorFlow 测试

    如何用人工智能来解决摄影中照片出现人像模糊不清的问题

          每个人毕竟都不是专业摄影师,因为一些取景以及构图或者外在环境的因素,一些人像照片总会产生不很清...
    发表于 05-01 13:18 4469次 阅读
    如何用人工智能来解决摄影中照片出现人像模糊不清的问题

    Sipeed M2DOCK:全志V831 开源 人工智能 神经网络 视觉 AI Python开发板

    作者@Sipeed 原文链接:
    发表于 04-29 15:06 2140次 阅读

    如何设计智能型水杯

    使用单片机、ESP8266、PWM驱动器、以及半导体加热片制作一个水温控制系统。 使用钢制器皿作为容器,最少容量100ml。 通过...
    发表于 04-27 22:11 915次 阅读

    当AI遇上机器人,数字孪生了解一下?(文末领取资料)

    发表于 04-06 14:11 10748次 阅读
    当AI遇上机器人,数字孪生了解一下?(文末领取资料)

    Arm Neoverse NVIDIA Grace CPU 超级芯片:为人工智能的未来设定步伐

    人工智能 (AI) 将改变世界。但要实现其潜力,我们将不得不改变设计计算系统的方式。 诸如在云中训练神经网络或在边缘实时执...
    发表于 03-29 14:40 2651次 阅读

    隐藏技术: 一种基于前沿神经网络理论的新型人工智能处理器

    隐藏技术: 一种基于前沿神经网络理论的新型人工智能处理器 Copy 东京理工大学的研究人员开发了一种名为“ Hiddenite”的新型...
    发表于 03-17 19:15 4762次 阅读
    隐藏技术: 一种基于前沿神经网络理论的新型人工智能处理器

    【工信部人才培养工程第一期】资深行业分析师解读AI领域动向与就业机会

    AI教育行业现状是怎样的? 2017年国务院印发《新一代人工智能发展规划》,其中明确指出应在中小学阶段设置人工智能相关课程,...
    发表于 03-15 10:54 3859次 阅读
    【工信部人才培养工程第一期】资深行业分析师解读AI领域动向与就业机会

    如何在RK3288上安装Opencv?

    如何在RK3288上安装Opencv?
    发表于 03-10 06:49 1332次 阅读

    RV1109优势和特点是什么?有哪些应用?

    RV1109优势和特点是什么?有哪些应用?
    发表于 03-10 06:45 1212次 阅读