0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

借助NVIDIA Megatron-Core大模型训练框架提高显存使用效率

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-10-21 10:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着模型规模迈入百亿、千亿甚至万亿参数级别,如何在有限显存中“塞下”训练任务,对研发和运维团队都是巨大挑战。NVIDIA Megatron-Core作为流行的大模型训练框架,提供了灵活高效的并行化策略;理解这些策略对显存的影响,才能更好地规划训练超参数,在不 OOM (out of memory) 的情况下尽可能提升硬件使用效率。

显存的组成与衡量方法:通过 torch 的显存可视化工具捕捉一个典型的模型训练中的显存占用。静态显存主要组成部分包括模型参数、梯度和优化器的所占用的空间,及一些其他的系统开销。设定 R 为参数重复次数,则对 bf16 训练来说每个参数占用的字节数为 6+12/R。对于Mixture of Experts (MoE)模型来说,由于 Megatron 支持 parallel folding,模型的模型会分为稠密部分和 MoE 部分,其中稠密部分的 R 为 DP*CP,MoE 部分的 R 为 EDP=n_GPU/PP/EP/ETP。

动态显存则是模型前向传播过程中暂存的中间结果,用于反向传播时计算梯度,通常被称为激活 (Activation),绝大部分为 bf16 数据类型。

对显存影响的关键超参数:Megatron-Core 支持以下并行、重算维度,组合后可覆盖当下主流大模型训练需求。

ca6c8c4e-a81c-11f0-8c8f-92fbcf53809c.png

约束关系:`n_GPU / PP = TP×CP×DP = EP×ETP×EDP`,其中 `EDP` 为专家数据并行度。

除了完全不重算的情况之外,为了降低动态显存,Megatron-Core 0.14 提供

完全重算 (full) 和细粒度重算 (selective) 这两档重算。

显存估计器的设计:当前 Megatron 基于 torch 实现,所有模块均派生自 torch.nn.Module,构成训练 GPT 类模型的模块。我们通过实现一个基类 MemEstimator 并基于此基类派生出所有需要的模块类,根据每个模块的显存占用特点分别计算其中的参数量和激活量。然后复用 Megatron 中本身构建模型的代码,实现一个 Megatron 模拟器,并可以展示出个层次的模块数据量。

关键结论:选取 Qwen3 235B 和 DeepSeek v3 两个时下流行的大模型,使用流行的配置开启训练,并对比显存估计的结果与真实的显存占用。两个模型的实际峰值与估计峰值相差均小于 2GB。

cac367bc-a81c-11f0-8c8f-92fbcf53809c.png

cb1d6672-a81c-11f0-8c8f-92fbcf53809c.png

通过对动态显存分析,只有 TP 和 CP 能降低激活量,EP 和 ETP 只会改变集群内激活值的分布,无法降低激活量,PP 和 VPP 由于 1f1b 的流水线预热机制,无法有效降低峰值激活量。对每一部分激活量,可以通过卸载到 CPU 或者重算的方式来降低显存。Megatron-Core 0.13 当前对卸载的支持还在开发中,但重算已经支持。

Megatron-Core 0.13 现已支持通过 CPU 分担 optimizer 的显存占用,并可以通过超参数设置卸载到 CPU 的比例,每个参数的 6 字节 (bf16 参数,fp32 梯度) 无法卸载,其余可以卸载。

用例分析:用户目标在 32 张 80GB 显存的 GPU 上实现 Qwen3-30B-A3B 的强化学习训练,序列长度是 10k,用户使用显存估计器对并行配置进行摸底。

Megatron 开发者可以通过显存分析工具的 breakdown 视角,详细察看每个模块的激活量,通过权衡激活量和计算量寻找性价比高(激活量 / 计算量)的模块的激活为其开发进行重算或卸载功能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11224

    浏览量

    223125
  • 大模型
    +关注

    关注

    2

    文章

    3470

    浏览量

    5013

原文标题:探索在大模型训练中使用 Megatron-Core 训练框架提高显存使用效率

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    在Python中借助NVIDIA CUDA Tile简化GPU编程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 编程模式。它是自 CUDA 发明以来 GPU 编程最核心的更新之一。借助 GPU tile kernels,可以用比 SIMT
    的头像 发表于 12-13 10:12 599次阅读
    在Python中<b class='flag-5'>借助</b><b class='flag-5'>NVIDIA</b> CUDA Tile简化GPU编程

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布了 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI 模型的测试与验证数据生成。借助
    的头像 发表于 12-01 09:25 599次阅读

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    本帖欲分享在Ubuntu20.04系统中训练神经网络模型的一些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是
    发表于 10-22 07:03

    NVIDIA开源Audio2Face模型及SDK

    NVIDIA 现已开源 Audio2Face 模型与 SDK,让所有游戏和 3D 应用开发者都可以构建并部署带有先进动画的高精度角色。NVIDIA 开源 Audio2Face 的训练
    的头像 发表于 10-21 11:11 579次阅读
    <b class='flag-5'>NVIDIA</b>开源Audio2Face<b class='flag-5'>模型</b>及SDK

    NVIDIA 利用全新开源模型与仿真库加速机器人研发进程

    。   借助全新的 NVIDIA Cosmos 世界基础模型,开发者可以生成多样化数据,从而大规模加速物理 AI 模型训练。   来自斯
    的头像 发表于 09-30 09:52 2799次阅读
    <b class='flag-5'>NVIDIA</b> 利用全新开源<b class='flag-5'>模型</b>与仿真库加速机器人研发进程

    NVIDIA Isaac Lab多GPU多节点训练指南

    NVIDIA Isaac Lab 是一个适用于机器人学习的开源统一框架,基于 NVIDIA Isaac Sim 开发,其模块化高保真仿真适用于各种训练环境,可提供各种物理 AI 功能和
    的头像 发表于 09-23 17:15 2036次阅读
    <b class='flag-5'>NVIDIA</b> Isaac Lab多GPU多节点<b class='flag-5'>训练</b>指南

    借助NVIDIA Cosmos模型提升机器人训练效率

    随着物理 AI 系统的不断发展,对丰富标记数据集的需求正在急速增长,已经超出了在现实世界中通过人工采集所能满足的范围。世界基础模型(WFMs)是经过训练的生成式 AI 模型,能够根据现实世界环境的动态,对未来的世界状态进行仿真、
    的头像 发表于 09-23 15:30 716次阅读
    <b class='flag-5'>借助</b><b class='flag-5'>NVIDIA</b> Cosmos<b class='flag-5'>模型</b>提升机器人<b class='flag-5'>训练</b><b class='flag-5'>效率</b>

    Votee AI借助NVIDIA技术加速方言小语种LLM开发

    Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 数据处理软件、NeMo Framework 模型训练框架及 Auto Configurator 优化工
    的头像 发表于 08-20 14:21 675次阅读

    模型推理显存和计算量估计方法研究

    ,为实际应用提供了有益的参考。 未来,我们将继续深入研究大模型推理的优化方法,以降低显存和计算资源的需求,提高深度学习模型在实际应用中的性能。
    发表于 07-03 19:43

    欧洲借助NVIDIA Nemotron优化主权大语言模型

    NVIDIA 正携手欧洲和中东的模型构建商与云提供商,共同优化主权大语言模型 (LLM),加速该地区各行业采用企业级 AI。
    的头像 发表于 06-12 15:42 951次阅读

    NVIDIA GTC巴黎亮点:全新Cosmos Predict-2世界基础模型与CARLA集成加速智能汽车训练

    。这种向使用大模型的过渡大大增加了对用于训练、测试和验证的高质量、基于物理学传感器数据的需求。 为加速下一代辅助驾驶架构的开发,NVIDIA 发布了 NVIDIA Cosmos Pre
    的头像 发表于 06-12 10:00 951次阅读

    NVIDIA技术驱动帕西尼触觉感知与人形机器人智能突破

    感知科技实现了从接触仿真、触觉信号产生、仿真数据生成,再到触觉模态模型训练的全流程 GPU 加速,提升标定和训练效率 100 倍,完成触觉传感器的批量标定和触觉模态规模化实机部署。
    的头像 发表于 04-21 09:15 1222次阅读

    百度飞桨框架3.0正式版发布

    模型训练成本高?推理效率低?硬件适配难? 4月1日,百度发布 飞桨框架3.0正式版 !五大特性专为大模型设计。 作为大
    的头像 发表于 04-02 19:03 1054次阅读
    百度飞桨<b class='flag-5'>框架</b>3.0正式版发布

    模型训练框架(五)之Accelerate

    Hugging Face 的 Accelerate1是一个用于简化和加速深度学习模型训练的库,它支持在多种硬件配置上进行分布式训练,包括 CPU、GPU、TPU 等。Accelerate 允许用户
    的头像 发表于 01-14 14:24 1813次阅读

    坚米智能借助NVIDIA Isaac Lab加速四足机器人开发

    坚米智能(中坚科技)借助NVIDIA Isaac Lab平台,通过NVIDIA Isaac Sim的 3D 生成与建模技术构建高度逼真的虚拟场景,将现实世界的复杂场景抽象并转化为高质量的训练
    的头像 发表于 12-29 14:01 2145次阅读