基于京东部署的 DGX SuperPOD 集群 “天琴α”,京东探索研究院联合悉尼大学共同研发了织女模型,一并攻克了 GLUE 两项挑战性任务。
京东探索研究院致力于世界前沿技术的研究,其中人工智能方向涵盖 CV、NLP、多模态等。大规模语音模型的研究更是京东探索研究院的重中之重。
以语言模型为例,在过去 2-3 年的时间,语言模型大小每年都在以 1-2 个数量级的速度在增加,如今,则已达到万亿参数的级别。而模型的结构和复杂性日益变化,这对 GPU 集群的架构提出了不一样的要求。
从系统层面看,既有的 GPU 计算集群主要是以支持单机任务、小规模多机任务为主,相较之下,其多机之间网络扩展能力则较弱,而大规模扩展能力也较为受限。因此,在既有的 GPU 集群架构下,较无法满足服务大模型的计算需求。
对于京东探索研究院而言,掌握时效是关键,更快的模型训练意味着能加速迭代、扩展尝试空间、使产品落地更迅速,并提高业务收益。在模型越来越复杂多样、计算需求越来越大、单任务计算规模越来越大的背景下,如何快速新建一个可高效扩展并易用的 GPU 集群,以满足应对上述挑战,是亟待解决的核心问题。
基于以上挑战,京东探索研究院选择了采用 NVIDIA DGX SuperPOD 方案来提供支持,并成功给业务侧带来了巨大的提升及解决企业痛点。
1. NVIDIA DGX SuperPOD 是一套完整的解决方案,基于 DGX A100 服务器、HDR InfiniBand 200G 网卡和 NVIDIA Quantum QM8790 交换机构建了一套全互联架构,在保证单机计算能力最强的同时,采用计算和存储网络相隔离的方案,最大程度地从网络上保证集群的互联能力。
2.安装部署方面,NVIDIA 为 DGX SuperPOD 提供专业的部署服务,包括单机系统部署、InfiniBand 网络配置、调度安装调试、监控部署、多机环境、基础性能验证等,从基础系统方面,保证了最快交付。
3.使用方面,NVIDIA 为 DGX SuperPOD 部署了 Slurm 调度系统,并基于 NGC 和客户主要的几类模型,提供了完整的作业脚本,用户只需简单修改几行参数来适配自己的模型,即可一键方便地运行起大规模分布式任务。
4. 性能方面,DGX SuperPOD 经过一系列的基础优化(CUDA-X, Magnum IO, NGC)和评测验证(MLPerf),提供最好的 AI 训练性能,在京东探索研究院针对CV、NLP、跨模态等领域设计和研发的数十个模型上,经过双方一系列系统级的合作优化,在 DGX SuperPOD 上达到了比较理想的加速比和扩展性。
使用 DGX SuperPOD 方案,用户只需要关注自己的 AI 模型和算法研究,无需关注硬件和系统层的配置、优化、扩展性等问题,让 AI 研究人员把宝贵的时间和精力专注在前沿的 AI 技术研究上。
使用了 DGX SuperPOD 集群方案,极大地加速了用户的 AI 训练和迭代速度,为用户进一步探索出更强大更智能的 AI 模型建立了坚实的基石。
在 DGX SuperPOD 交付给用户仅仅两个多月之后,京东探索研究院就联合悉尼大学在传统 “预训练-微调” 的范式下,利用 DGX SuperPOD 的高效扩展能力,通过研究和工程上的全方位创新,研发出了织女模型,在通用语言理解评估基准(GLUE)的两项挑战性任务,即情感分析任务 SST(The Stanford Sentiment Treebank)和指代消解任务 WNLI (Winograd NLI)中首次超越人类,位居所有参赛机构第一。
京东探索研究院表示:“强悍的织女模型在京东探索研究院建设的全国首个基于 DGX SuperPOD 架构的超大规模计算集群 “天琴α” 上完成训练,该集群具有全球领先的大规模分布式并行训练技术,其近似线性加速比的数据、模型、流水线并行技术持续助力织女模型的高效训练。”
NVIDIA 将参加 CES 2022, 并将在 1 月 5 日凌晨 0 点(北京时间)发表 NVIDIA 特别演讲。
NVIDIA GeForce 高级副总裁 Jeff Fisher 和 NVIDIA 汽车部门副总裁兼总经理 Ali Kani 将展示加速计算在设计、仿真、游戏和自动驾驶汽车方面的新突破。
原文标题:DGX SuperPOD 加速语言模型训练,助力京东探索研究院勇刷 GLUE 榜单
文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。
原文标题:DGX SuperPOD 加速语言模型训练,助力京东探索研究院勇刷 GLUE 榜单
文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
浅谈物联网技术的未来发展趋势
大型主机的智能运维如何应对
海康威视以数字化助力智慧养老服务
自然语言处理之情感分析
NVIDIA自动驾驶网络会议将6月9日举办
计算机视觉系统让车流变得更通畅
整体功耗降低15%!GPU10%提升!高通发布新一代骁龙8+芯片 小米新一代5G旗舰机搭载

爱芯元智将携手多家合作伙伴共同发起硬件生态共创计划
海康威视推出智能养老看护平台
物件检测模型训练的详细过程
NVIDIA RTX A4500性能测评总结
Imagination携手百度飞桨共同发起“硬件生态共创计划”
壹沓数字员工破解供应链困局,加速数字化转型
普渡科技创立“PUDU-X”创新基金 为机器人行业注入新活力
AI/ML模型实现比传统云连接的物联网系统更高的系统效率
NVIDIA如何助力非洲开展人工智能革命
一文详细了解NVIDIA CloudXR 3.2的新功能
NVIDIA GPU助力单颗粒冷冻电镜研究
NVIDIA A100加速医学图像处理深度学习研究
NVIDIA DGX A100助力百图生科构建生物计算引擎
基于NVIDIA GPU加速平台实现5G端到端解决方案
中兴通讯与大中矿业签署战略合作框架协议
NVIDIA助力百度智能云落地新一代高性能AI计算集群
中科创达Rubik云平台为企业客户数智化转型赋能
RK3399开发板AI人工智能深度学习之TensorFlow 测试

请问在RK3399pro中间计算时能否调用GPU的一些现成数据库或函数来计算
如何用人工智能来解决摄影中照片出现人像模糊不清的问题

评论