0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

探究超大Transformer语言模型的分布式训练框架

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2021-10-20 09:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA Megatron 是一个基于 PyTorch 的框架,用于训练基于 Transformer 架构的巨型语言模型。本系列文章将详细介绍Megatron的设计和实践,探索这一框架如何助力大模型的预训练计算。 上篇主要介绍了大模型训练的发展趋势、NVIDIA Megatron的模型并行设计,本篇将承接上篇的内容,解析Megatron 在NVIDIA DGX SuperPOD 上的实践。

优化的分布式集群架构:NVIDIA DGX SuperPOD

有了高效的分布式训练框架,自然也需要优化的分布式训练集群。

NVIDIA DGX SuperPOD 便是 NVIDIA 推出的一个分布式集群的参考架构,最新一代是基于NVIDIA DGX A100 和NVIDIA HDR 200Gb/s ConnectX-6 HCAs组建,旨在帮助AI 研究人员快速搭建一套强大、灵活、高效的系统,以满足工业界日益复杂、多变的模型对计算资源不同程度的需求。尤其对于超大语言模型预训练这一复杂场景,DGX SuperPOD 架构尤为重要。

DGX SuperPOD 采用模块化的设计,支持不同规模大小的设计。一个标准的SuperPOD 由140 台DGX A100和三层Infiniband 交换机通过胖树结构全互联起来。每台DGX A100 配有8个200Gb/s 的高速计算网,并配有2个200Gb/s的高速存储网,采用计算和存储网络分离的方案。

多个POD之间可以通过核心层交换机直连起来,可以支持多达560 台DGX A100的互联规模。

更多关于NVIDIA DGX SuperPOD 架构的详细设计,请参阅下列连接中的白皮书:https://images.nvidia.com/aem-dam/Solutions/Data-Center/gated-resources/nvidia-dgx-superpod-a100.pdf

NVIDIA Megatron 在 DGX SuperPOD 上的实践

基于DGX SuperPOD 的Megatron实践在不同大小的模型上,都表现出了很好的计算效率。

模型从1.7B 到1T ,训练规模从32 卡到3072 卡。

基于GPT-3 175B 模型的训练,采用如下的配置:

128 台 DGX A100,总共 1024张 A100

Tensor 并行度:8;Pipeline 并行度:16; 数据并行度:8

全局Batch size : 1536;Micro-batch size: 1

在如此大的训练规模下,GPU 仍可达到44% 左右的计算效率,在规模和效率上,都远远超过已有的公开结果。

详细内容请参考以下链接:

Megatron repro: https://github.com/nvidia/megatron-lm

GPT3-175B training scripts: https://github.com/NVIDIA/Megatron-LM/blob/main/examples/pretrain_gpt3_175B.sh

总结

1. 大模型是大势所趋。

2. 大规模分布式训练是训练大模型的必须。

3. NVIDIA Megatron 是开源的、软硬协同设计的训练框架,专为Transformer-based的超大语言模型设计。

4. NVIDIA DGX SuperPOD 是开放的集群参考设计架构,专为大规模分布式训练而准备。

5. Megatron 优化的Tensor模型并行:用于intra-transformer 层,可以高效地执行在HGX based的系统上。

6. Megatron优化的 Pipeline 模型并行:用于inter-transformer 层,可以有效地利用集群中多网卡的设计。

7. 数据并行的加持,可以扩展到更大规模、训练更快。

8. GPT-3 175B 的大模型,在1024 张 A100上可达到44%左右的计算效率。

9. NVIDIA Megatron 的设计和实践,已广泛用于学术界和工业界。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7349

    浏览量

    95025
  • NVIDIA
    +关注

    关注

    14

    文章

    5695

    浏览量

    110119
  • 交换机
    +关注

    关注

    23

    文章

    2932

    浏览量

    104889
  • 分布式
    +关注

    关注

    1

    文章

    1114

    浏览量

    76700

原文标题:NVIDIA Megatron:超大Transformer语言模型的分布式训练框架 (二)

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    配电自动化站所终端智能分布式功能闭环仿真测试案例

    深圳市科瑞杰科技有限公司-本次项目用到的是智能分布式DTU典型测试配网模型,实时仿真的结果符合实际情况,各种动态响应很好的模拟了现场实际工况,为分布式DTU的测试提供了很好的解决方案。
    的头像 发表于 02-04 17:35 709次阅读
    配电自动化站所终端智能<b class='flag-5'>分布式</b>功能闭环仿真测试案例

    七大大模型赋能的无人集群分布式协同调度与任务分配系统

        七大典型大模型赋能无人集群分布式协同调度与任务分配系统案例    尽管“七大大模型赋能系统”并非严格意义上的官方分类,但以下七类代表性技术方向充分体现了大模型在无人集群协同领域
    的头像 发表于 12-30 11:39 562次阅读

    模型ai赋能的无人集群分布式协同调度与任务分配系统

        大模型AI赋能的无人集群分布式协同调度与任务分配系统    北京华盛恒辉大模型AI赋能的无人集群分布式协同调度与任务分配系统,是融合人工智能大
    的头像 发表于 12-30 11:07 478次阅读

    SC-3568HA:解锁鸿蒙全权限API与分布式能力的工业控制平台

    传统嵌入开发面临硬件碎片化、高权限功能缺失、分布式协同复杂及自动化测试不足等痛点。SC-3568HA开发板基于鸿蒙系统,通过统一内核抽象层和硬件驱动框架解决兼容问题,开放全量系统API支持高权限
    的头像 发表于 12-18 11:27 7578次阅读
    SC-3568HA:解锁鸿蒙全权限API与<b class='flag-5'>分布式</b>能力的工业控制平台

    摩尔线程新一代大语言模型对齐框架URPO入选AAAI 2026

    近日,摩尔线程在人工智能前沿领域取得重要突破,其提出的新一代大语言模型对齐框架——URPO统一奖励与策略优化,相关研究论文已被人工智能领域的国际顶级学术会议AAAI 2026收录。这一成果标志着摩尔线程在大
    的头像 发表于 11-17 16:03 602次阅读
    摩尔线程新一代大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>对齐<b class='flag-5'>框架</b>URPO入选AAAI 2026

    【节能学院】Acrel-1000DP分布式光伏监控系统在奉贤平高食品 4.4MW 分布式光伏中应用

    分布式光伏本地和远程通信方案,并研究分布式光伏采集模型的构建、多源数据融合估计、面向分布式光伏的有功、无功功率优化控制等关键技术,实现了对小容量工商业
    的头像 发表于 08-23 08:04 3665次阅读
    【节能学院】Acrel-1000DP<b class='flag-5'>分布式</b>光伏监控系统在奉贤平高食品 4.4MW <b class='flag-5'>分布式</b>光伏中应用

    分布式光伏发电监测系统技术方案

    分布式光伏发电监测系统技术方案 柏峰【BF-GFQX】一、系统目标 :分布式光伏发电监测系统旨在通过智能化的监测手段,实现对分布式光伏电站的全方位、高精度、实时化管理。该系统能
    的头像 发表于 08-22 10:51 3475次阅读
    <b class='flag-5'>分布式</b>光伏发电监测系统技术方案

    一键部署无损网络:EasyRoCE助力分布式存储效能革命

    分布式存储的性能瓶颈往往在于网络。如何构建一个高带宽、超低时延、零丢包的无损网络,是释放分布式存储全部潜力、赋能企业关键业务(如实时数据库、AI训练、高性能计算)的关键挑战。
    的头像 发表于 08-04 11:34 1819次阅读
    一键部署无损网络:EasyRoCE助力<b class='flag-5'>分布式</b>存储效能革命

    重新思考 AI 时代的分布式计算

    层次的关注点在于这一效率突破揭示了传统分布式计算范式与AI工作负载独特需求之间的根本不匹配。AI技术浪潮对基础设施选型带来了深层挑战:当前广泛部署的分布式计算架构本质
    的头像 发表于 07-31 14:25 1356次阅读
    重新思考 AI 时代的<b class='flag-5'>分布式</b>计算

    双电机分布式驱动汽车高速稳定性机电耦合控制

    摘要:为了利用所设计的双电机防滑差速驱动系统来提高分布式驱动汽车的动力学性能,在前期同轴耦合驱动控制理论研究的基础上,开展该车的高速稳定性机电耦合控制研究。建立并验证包含所设计驱动系统在内的分布式
    发表于 06-18 16:37

    润和软件StackRUNS异构分布式推理框架的应用案例

    江苏润和软件股份有限公司(以下简称“润和软件”)自主研发的StackRUNS异构分布式推理框架已在实际场景中取得显著成效,成功应用于大型园区多模态模型演练及高校满血版DeepSeek-MoE 671B的运行,有效推动了大
    的头像 发表于 06-13 09:11 1445次阅读
    润和软件StackRUNS异构<b class='flag-5'>分布式</b>推理<b class='flag-5'>框架</b>的应用案例

    润和软件发布StackRUNS异构分布式推理框架

    当下,AI模型规模持续膨胀、多模态应用场景日益复杂,企业正面临异构算力资源碎片化带来的严峻挑战。为应对行业痛点,江苏润和软件股份有限公司(以下简称“润和软件”)正式发布自主研发的StackRUNS异构分布式推理框架,高效融合异构
    的头像 发表于 06-13 09:10 1599次阅读
    润和软件发布StackRUNS异构<b class='flag-5'>分布式</b>推理<b class='flag-5'>框架</b>

    算力网络的“神经突触”:AI互联技术如何重构分布式训练范式

      电子发烧友网综合报道 随着AI技术迅猛发展,尤其是大型语言模型的兴起,对于算力的需求呈现出爆炸性增长。这不仅推动了智算中心的建设,还对网络互联技术提出了新的挑战。   在AI大模型训练
    的头像 发表于 06-08 08:11 7720次阅读
    算力网络的“神经突触”:AI互联技术如何重构<b class='flag-5'>分布式</b><b class='flag-5'>训练</b>范式

    曙光存储领跑中国分布式存储市场

    近日,赛迪顾问发布《中国分布式存储市场研究报告(2025)》,指出2024 年中国分布式存储市场首次超过集中式存储,规模达 198.2 亿元,增速 43.7%。
    的头像 发表于 05-19 16:50 1458次阅读

    分布式光纤传感的用途

    生态灾难。这些场景中,一种名为"分布式光纤传感"的技术正悄然编织着一张无形的感知网络,用光信号的"语言"实时翻译着环境的细微变化。 一、技术原理:光与物质的"对话" 分布式光纤传感技术的核心,在于将光纤本身转化为兼具传感与传输功
    的头像 发表于 05-11 17:26 1571次阅读