NVIDIA超大规模模型训练的趋势及方案介绍-电子发烧友网

作为计算领域学术界、产业界、教育界的年度盛会，CNCC2021将汇聚国内外顶级专业力量、专家资源，为逾万名参会者呈上一场精彩宏大的专业盛宴。

今年NVIDIA专家团队受邀参会，将为大家带来实用的技术论坛、开发者技术培训、编程体验。欢迎大家莅临CNCC大会现场 T10 展位以及线上分论坛了解我们带来的精彩技术分享！

亮点活动1：技术论坛

深度了解超大规模模型训练超算化

【超大规模模型训练超算化的趋势及应用技术论坛】将于12月以在线论坛的形式召开。NVIDIA携手百度、阿里云和京东的专家为您带来超大规模分布式模型训练的实践，以及深入分析GPT-3训练过程中的存储、计算及通信开销及相应优化策略等精彩演讲。对GPU 加速计算、超大规模语言模型训练、分布式训练框架和E级高性能AI计算集群的硬件架构感兴趣的小伙伴千万不要错过。

超大规模模型训练超算化的趋势及应用技术论坛

主题报告1：飞桨分布式框架：深度解析超大模型训练技术

主讲嘉宾：

吴志华

百度深度学习技术平台部主任研发架构师，

飞桨分布式技术负责人

报告摘要：

飞桨是源于产业实践的开源深度学习平台。本专题主要介绍飞桨分布式训练框架及其在自然语言处理、视觉、推荐等领域的应用。首先带大家深入了解飞桨超大规模深度学习模型训练技术，含三代参数服务器架构、多维混合并行训练技术等，来解决不同维度大模型的训练；其次通过经典案例介绍大模型训练难点及在实际业务中的应用。

主题报告2：阿里云在超大规模分布式模型训练的实践

时间：1700主讲嘉宾：董建波阿里云资深技术专家报告摘要：AI算法模型的规模迅速增长，对算力的需求也急剧增加，分布式集群成为AI计算的必然选择。而随着集群规模的扩展，系统的计算效率不断下降。为了应对这一挑战，阿里巴巴设计了EFLOPS高性能AI计算集群，通过软硬件的协同优化，获得极致的计算效率。本专题将介绍EFLOPS高性能AI计算集群的硬件架构，软硬件协同设计，以及在典型业务场景上的应用。

主题报告3：大规模分布式深度学习：算法、理论及应用

主讲嘉宾：

沈力

京东科技、京东探索研究院算法科学家

报告摘要：

在分布式深度学习的场景下，参数服务器和节点之间需要频繁的传输梯度和神经网络权重。当前的超级深度学习模型如GPT-3的参数量已经到千亿规模，这给现有的分布式深度学习算法带来了全新的挑战。本次报告中，京东探索研究院立足于优化算法理论，从四个层面来探索解决大规模分布式深度学习中模型参数维度过高和数据规模过大带来的通信压力和算力压力的问题。

主题报告4：超大规模模型训练的趋势及方案介绍

主讲嘉宾：

杨广楼

NVIDIA工程解决方案技术专家

报告摘要：

针对超大规模模型训练发展，介绍NVIDIA DGX SuperPOD如何设计计算、网络和存储等，提供给客户最优化、可扩展和性能可保障的一站式分布式GPU集群解决方案。

主题报告5：深入分析GPT-3模型训练的存储、计算和网络资源需求

主讲嘉宾：

刘宏斌、刘冰

NVIDIA GPU技术专家

报告摘要：

超大规模语言模型已经在各类NLP任务中取得了SOTA级别的训练结果，然而大规模语言模型带来的存储及计算开销使其对软件及硬件都提出了较高的要求。NVIDIA推出的Megatron-LM框架通过3D-Parallelism将模型合理地分配到相应的计算资源，并且对通信及Kernel进行了优化以提升计算效率，在DGX-A100集群上整体GPU利用率可达50%以上，训练GPT-3只需34天（1024GPUs）。演讲将以Megatron-LM为例，深入分析GPT-3训练过程中的存储、计算及通信开销及Megatron-LM的相应优化策略。

主题报告6：超大模型部署实践

主讲嘉宾：

薛博阳

NVIDIA GPU技术专家

报告摘要：

最近几年，NLP模型的参数量以每年10倍的成长速度不断增加，并且至今为止还没有减缓的迹象。为了能将这些上千亿参数的模型部署上线，透过多GPU来载入模型并且提升速度是必要的。虽然目前许多的主流框架，如 TensorFlow、PyTorch，都有提供多GPU的训练库。但在推理上，这些筐架无论是在显存使用上还是速度上都明显不足。而在推理方面，虽然也已经有许多很好的工作，例如TensorRT、Light-seq，但他们都只能支持单GPU的推理。而FasterTransformer正是第一个针对多GPU场景进行优化的推理库。

亮点活动2：CUDA编程入门分享

【Arm / GPU 架构 CUDA 编程入门分享及线上编程体验技术分享】将于 2021年12月16日1700 在线上召开。NVIDIA专家将与您一起探讨基于Arm的嵌入式平台Jetson 开发环境、GPU异构计算原理、CUDA编程模型等理论内容。此外，还将提供云端环境以进行线上开发实验，快带上你的电脑参与我们的开发实验吧！

Arm / GPU 架构 CUDA 编程入门分享及线上编程体验

12月16日

时间主题主讲嘉宾

1700CUDA开发原理介绍何琨NVIDIA企业开发者社区经理

1850线上编程实验何琨NVIDIA企业开发者社区经理

1800答疑何琨NVIDIA企业开发者社区经理

亮点活动3：展位现场开发者技术培训

【展位现场开发者技术培训】将于12月16-17日在英伟达-丽台 T10 号展位举行举行，12月16日14:00丽台科技专家为您带来全方位实用的技术培训。在12月17日上午的NVIDIA 初创加速加速日之中，我们邀请到众多NVIDIA初创加速计划成员的创始人和研发负责人为您介绍诸如基于NVIDIA GPU 的模块化机器人平台、TensorRT 推理加速应用等各领域开发实战培训内容。

展位现场开发者技术培训

时间主题主讲嘉宾

1430现代AI数据中心构建解决方案蔡欣欣丽台GPU产品经理及售前顾问

1400AI及HPC产品解决方案蔡欣欣丽台GPU产品经理及售前顾问

1530丽台EGX边缘计算解决方案蔡欣欣丽台GPU产品经理及售前顾问

时间主题主讲嘉宾

1015英伟达初创加速计划介绍朱敏NVIDIA初创加速计划经理

1030AUTO CUBE ROBOT - 利用模块化机器人平台实现学生人工智能体系掌握张明YUHESEN研发负责人

1045TensorRT推理加速在实际场景中的应用成望极视角科技研发SVP

1000新型存储架构YRCloudFile 在 AI 训练中的性能优化与实践王鹏飞

焱融科技CTO

1115GPU 并行计算- 利用 AI模型加速空间数据生产梁健大地量子AI遥感算法工程师