0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA超大规模模型训练的趋势及方案介绍

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2021-12-23 17:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作为计算领域学术界、产业界、教育界的年度盛会,CNCC2021将汇聚国内外顶级专业力量、专家资源,为逾万名参会者呈上一场精彩宏大的专业盛宴。

今年NVIDIA专家团队受邀参会,将为大家带来实用的技术论坛开发者技术培训、编程体验。欢迎大家莅临CNCC大会现场 T10 展位以及线上分论坛了解我们带来的精彩技术分享!

亮点活动1:技术论坛

深度了解超大规模模型训练超算化

【超大规模模型训练超算化的趋势及应用 技术论坛】将于12月以在线论坛的形式召开。NVIDIA携手百度、阿里云和京东的专家为您带来超大规模分布式模型训练的实践,以及深入分析GPT-3训练过程中的存储、计算及通信开销及相应优化策略等精彩演讲。对GPU加速计算、超大规模语言模型训练、分布式训练框架和E级高性能AI计算集群的硬件架构感兴趣的小伙伴千万不要错过。

超大规模模型训练超算化的趋势及应用 技术论坛

主题报告1:飞桨分布式框架:深度解析超大模型训练技术

主讲嘉宾:

吴志华

百度深度学习技术平台部主任研发架构师,

飞桨分布式技术负责人

报告摘要:

飞桨是源于产业实践的开源深度学习平台。本专题主要介绍飞桨分布式训练框架及其在自然语言处理、视觉、推荐等领域的应用。首先带大家深入了解飞桨超大规模深度学习模型训练技术,含三代参数服务器架构、多维混合并行训练技术等,来解决不同维度大模型的训练;其次通过经典案例介绍大模型训练难点及在实际业务中的应用。

主题报告2:阿里云在超大规模分布式模型训练的实践

时间:1700主讲嘉宾:董建波 阿里云资深技术专家报告摘要:AI算法模型的规模迅速增长,对算力的需求也急剧增加,分布式集群成为AI计算的必然选择。而随着集群规模的扩展,系统的计算效率不断下降。为了应对这一挑战,阿里巴巴设计了EFLOPS高性能AI计算集群,通过软硬件的协同优化,获得极致的计算效率。本专题将介绍EFLOPS高性能AI计算集群的硬件架构,软硬件协同设计,以及在典型业务场景上的应用。

主题报告3:大规模分布式深度学习:算法、理论及应用

主讲嘉宾:

沈力

京东科技、京东探索研究院算法科学家

报告摘要:

在分布式深度学习的场景下,参数服务器和节点之间需要频繁的传输梯度和神经网络权重。当前的超级深度学习模型如GPT-3的参数量已经到千亿规模,这给现有的分布式深度学习算法带来了全新的挑战。本次报告中,京东探索研究院立足于优化算法理论,从四个层面来探索解决大规模分布式深度学习中模型参数维度过高和数据规模过大带来的通信压力和算力压力的问题。

主题报告4:超大规模模型训练的趋势及方案介绍

主讲嘉宾:

杨广楼

NVIDIA工程解决方案技术专家

报告摘要:

针对超大规模模型训练发展,介绍NVIDIA DGX SuperPOD如何设计计算、网络和存储等,提供给客户最优化、可扩展和性能可保障的一站式分布式GPU集群解决方案。

主题报告5: 深入分析GPT-3模型训练的存储、计算和网络资源需求

主讲嘉宾:

刘宏斌、刘冰

NVIDIA GPU技术专家

报告摘要:

超大规模语言模型已经在各类NLP任务中取得了SOTA级别的训练结果,然而大规模语言模型带来的存储及计算开销使其对软件及硬件都提出了较高的要求。NVIDIA推出的Megatron-LM框架通过3D-Parallelism将模型合理地分配到相应的计算资源,并且对通信及Kernel进行了优化以提升计算效率,在DGX-A100集群上整体GPU利用率可达50%以上,训练GPT-3只需34天(1024GPUs)。演讲将以Megatron-LM为例,深入分析GPT-3训练过程中的存储、计算及通信开销及Megatron-LM的相应优化策略。

主题报告6: 超大模型部署实践

主讲嘉宾:

薛博阳

NVIDIA GPU技术专家

报告摘要:

最近几年,NLP模型的参数量以每年10倍的成长速度不断增加,并且至今为止还没有减缓的迹象。为了能将这些上千亿参数的模型部署上线,透过多GPU来载入模型并且提升速度是必要的。虽然目前许多的主流框架,如 TensorFlow、PyTorch,都有提供多GPU的训练库。但在推理上,这些筐架无论是在显存使用上还是速度上都明显不足。而在推理方面,虽然也已经有许多很好的工作,例如TensorRT、Light-seq,但他们都只能支持单GPU的推理。而FasterTransformer正是第一个针对多GPU场景进行优化的推理库。

亮点活动2:CUDA编程入门分享

Arm / GPU 架构 CUDA 编程入门分享及线上编程体验技术分享】将于 2021年12月16日1700 在线上召开。NVIDIA专家将与您一起探讨基于Arm的嵌入式平台Jetson 开发环境、GPU异构计算原理、CUDA编程模型等理论内容。此外,还将提供云端环境以进行线上开发实验,快带上你的电脑参与我们的开发实验吧!

Arm / GPU 架构 CUDA 编程入门分享及线上编程体验

12月16日

时间主题主讲嘉宾

1700CUDA开发原理介绍何琨NVIDIA企业开发者社区经理

1850线上编程实验何琨NVIDIA企业开发者社区经理

1800答疑何琨NVIDIA企业开发者社区经理

亮点活动3:展位现场开发者技术培训

【展位现场开发者技术培训】 将于12月16-17日在英伟达-丽台 T10 号展位举行举行,12月16日14:00丽台科技专家为您带来全方位实用的技术培训。在12月17日上午的NVIDIA 初创加速加速日之中,我们邀请到众多NVIDIA初创加速计划成员的创始人和研发负责人为您介绍诸如基于NVIDIA GPU 的模块化机器人平台、TensorRT 推理加速应用等各领域开发实战培训内容。

展位现场开发者技术培训

时间主题主讲嘉宾

1430现代AI数据中心构建解决方案蔡欣欣丽台GPU产品经理及售前顾问

1400AI及HPC产品解决方案蔡欣欣丽台GPU产品经理及售前顾问

1530丽台EGX边缘计算解决方案蔡欣欣丽台GPU产品经理及售前顾问

时间主题主讲嘉宾

1015英伟达初创加速计划介绍朱敏NVIDIA初创加速计划经理

1030AUTO CUBE ROBOT - 利用模块化机器人平台实现学生人工智能体系掌握张明YUHESEN研发负责人

1045TensorRT推理加速在实际场景中的应用成望极视角科技研发SVP

1000新型存储架构YRCloudFile 在 AI 训练中的性能优化与实践王鹏飞

焱融科技CTO

1115GPU 并行计算- 利用 AI模型加速空间数据生产 梁健大地量子AI遥感算法工程师

1130ROS 编程基础- 利用Jetson AGX XAVIER 实现移动机器人自主充电 杨刘一哟罗机器人执行董事&技术总监经理

原文标题:CNCC2021 | NVIDIA专家带来最实用的干货分享 武装开发者的头脑

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

审核编辑:彭菁
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5769

    浏览量

    110463
  • 服务器
    +关注

    关注

    14

    文章

    10481

    浏览量

    91945
  • AI
    AI
    +关注

    关注

    91

    文章

    42532

    浏览量

    303441

原文标题:CNCC2021 | NVIDIA专家带来最实用的干货分享 武装开发者的头脑

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA Vera Rubin正全面迈向规模化量产

    NVIDIA Vera Rubin 正全面迈向规模化量产。台湾地区顶尖服务器制造商与全球供应链领导者正大规模制造基于 Vera Rubin 的系统 —— 为 AI 实验室、云服务商和超大规模
    的头像 发表于 06-05 11:07 426次阅读

    意法半导体为超大规模AI数据中心破解供电难题

    的高密度电力传输解决方案》白皮书,深度解析ST适配NVIDIA 800V DC架构的高密功率传输方案,为超大规模AI数据中心破解供电难题!
    的头像 发表于 04-07 15:46 522次阅读
    意法半导体为<b class='flag-5'>超大规模</b>AI数据中心破解供电难题

    WBS Power推进3.2吉瓦超大规模数据中心园区能源基础设施建设

    波兰托马舒夫马佐维茨基2026年3月24日 /美通社/ --  一座目标总容量达3.2吉瓦的全新超大规模数据中心园区即将在波兰北部波美拉尼亚省霍切沃市卢布列沃启动开发建设。 该项目名为Baltic
    的头像 发表于 03-24 17:04 236次阅读

    中科曙光scaleX万卡超集群筑牢超大规模智算硬核底座

    3月5日,2026年《政府工作报告》为算力产业划下重点:深化拓展“人工智能+”,实施超大规模智算集群、算电协同等新型基础设施工程,并加强全国一体化算力监测调度。
    的头像 发表于 03-10 14:35 971次阅读

    中科曙光scaleX万卡超集群重塑超大规模算力基础设施

    在“人工智能+”行动深入推进的当下,算力基础设施已成为国家战略竞争力的核心,而超大规模集群的运维管控难题却日益凸显。中科曙光scaleX万卡超集群打造的智能管理体系,正以“能管住-管得稳-用得好”的进阶逻辑,重塑超大规模算力基础设施的运行范式,让万级节点协同从行业痛点变为
    的头像 发表于 01-30 15:43 1122次阅读

    燧原科技荣获2025年超大规模智算集群创新应用实践成果

    近日,中国信息通信研究院(以下简称“中国信通院”)成功召开2025AI云产业发展大会。中国通信标准化协会理事长闻库、中国信通院副院长王志勤出席会议并致辞。中国工程院院士郑纬民作主旨报告。会议期间,发布了超大规模智算集群创新应用实践成果,燧原科技国产万卡推理集群经多轮评审确定,最终成功入选。
    的头像 发表于 12-29 09:59 642次阅读
    燧原科技荣获2025年<b class='flag-5'>超大规模</b>智算集群创新应用实践成果

    NVIDIA 推出 Nemotron 3 系列开放模型

    token 数。 ● Nemotron 通过先进的强化学习技术以及大规模并行多环境后训练,实现了卓越的准确率。 ● NVIDIA 率先推出整套前沿的开放模型
    的头像 发表于 12-16 09:27 941次阅读
    <b class='flag-5'>NVIDIA</b> 推出 Nemotron 3 系列开放<b class='flag-5'>模型</b>

    芯华章 HuaEmu E1 四大技术打通超大规模验证核心瓶颈

        目前,超大规模系统级验证已成为影响芯片研发效率、成本控制与产品迭代的核心环节。 当前用户普遍面临以下共性挑战:版本构建周期往往长达数天;调试过程中波形分析犹如“大海捞针”;测试环境受限于
    的头像 发表于 12-04 11:26 3145次阅读
    芯华章 HuaEmu E1 四大技术打通<b class='flag-5'>超大规模</b>验证核心瓶颈

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布了 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI 模型的测试与验证数据生成。借助 NVID
    的头像 发表于 12-01 09:25 1662次阅读

    借助NVIDIA Megatron-Core大模型训练框架提高显存使用效率

    随着模型规模迈入百亿、千亿甚至万亿参数级别,如何在有限显存中“塞下”训练任务,对研发和运维团队都是巨大挑战。NVIDIA Megatron-Core 作为流行的大
    的头像 发表于 10-21 10:55 1558次阅读
    借助<b class='flag-5'>NVIDIA</b> Megatron-Core大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>框架提高显存使用效率

    NVIDIA和英特尔合作推动产品组合创新

    NVIDIA和英特尔今日宣布达成合作,将共同开发多代定制化的数据中心和个人计算产品,以加速超大规模计算、企业级及消费级市场的各类应用与工作负载的处理。
    的头像 发表于 09-23 14:29 972次阅读

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwen3 等新发布的开源
    的头像 发表于 09-06 15:21 1603次阅读
    <b class='flag-5'>大规模</b>专家并行<b class='flag-5'>模型</b>在TensorRT-LLM的设计

    基于大规模人类操作数据预训练的VLA模型H-RDT

    近年来,机器人操作领域的VLA模型普遍基于跨本体机器人数据集预训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现有大规模机器人演示数据稀缺且质量参差不齐。得
    的头像 发表于 08-21 09:56 1323次阅读
    基于<b class='flag-5'>大规模</b>人类操作数据预<b class='flag-5'>训练</b>的VLA<b class='flag-5'>模型</b>H-RDT

    伟创力高效电源模块在超大规模数据中心的应用

    受云端存储和数据处理需求持续增长的推动,数据中心正以前所未有的速度扩张。当前全球超大规模数据中心,即规模最大的那些数据中心,总容量在过去四年内翻了一番,并仍在不断增长。
    的头像 发表于 07-07 15:41 1580次阅读

    超大规模芯片验证:基于AMD VP1902的S8-100原型验证系统实测性能翻倍

    引言随着AI、HPC及超大规模芯片设计需求呈指数级增长原型验证平台已成为芯片设计流程中验证复杂架构、缩短迭代周期的核心工具。然而,传统原型验证系统受限于单芯片容量(通常
    的头像 发表于 06-06 13:13 1781次阅读
    <b class='flag-5'>超大规模</b>芯片验证:基于AMD VP1902的S8-100原型验证系统实测性能翻倍