探究超大Transformer语言模型的分布式训练框架-电子发烧友网

NVIDIA Megatron 是一个基于 PyTorch 的框架，用于训练基于 Transformer 架构的巨型语言模型。本系列文章将详细介绍Megatron的设计和实践，探索这一框架如何助力大模型的预训练计算。上篇主要介绍了大模型训练的发展趋势、NVIDIA Megatron的模型并行设计，本篇将承接上篇的内容，解析Megatron 在NVIDIA DGX SuperPOD 上的实践。

优化的分布式集群架构：NVIDIA DGX SuperPOD

有了高效的分布式训练框架，自然也需要优化的分布式训练集群。

NVIDIA DGX SuperPOD 便是 NVIDIA 推出的一个分布式集群的参考架构，最新一代是基于NVIDIA DGX A100 和NVIDIA HDR 200Gb/s ConnectX-6 HCAs组建，旨在帮助AI 研究人员快速搭建一套强大、灵活、高效的系统，以满足工业界日益复杂、多变的模型对计算资源不同程度的需求。尤其对于超大语言模型预训练这一复杂场景，DGX SuperPOD 架构尤为重要。

DGX SuperPOD 采用模块化的设计，支持不同规模大小的设计。一个标准的SuperPOD 由140 台DGX A100和三层Infiniband 交换机通过胖树结构全互联起来。每台DGX A100 配有8个200Gb/s 的高速计算网，并配有2个200Gb/s的高速存储网，采用计算和存储网络分离的方案。

多个POD之间可以通过核心层交换机直连起来，可以支持多达560 台DGX A100的互联规模。

更多关于NVIDIA DGX SuperPOD 架构的详细设计，请参阅下列连接中的白皮书：https://images.nvidia.com/aem-dam/Solutions/Data-Center/gated-resources/nvidia-dgx-superpod-a100.pdf

NVIDIA Megatron 在 DGX SuperPOD 上的实践

基于DGX SuperPOD 的Megatron实践在不同大小的模型上，都表现出了很好的计算效率。

模型从1.7B 到1T ，训练规模从32 卡到3072 卡。

基于GPT-3 175B 模型的训练，采用如下的配置：

128 台 DGX A100，总共 1024张 A100

Tensor 并行度：8；Pipeline 并行度：16；数据并行度：8

全局Batch size ： 1536；Micro-batch size： 1

在如此大的训练规模下，GPU 仍可达到44% 左右的计算效率，在规模和效率上，都远远超过已有的公开结果。

详细内容请参考以下链接：

Megatron repro： https://github.com/nvidia/megatron-lm

GPT3-175B training scripts： https://github.com/NVIDIA/Megatron-LM/blob/main/examples/pretrain_gpt3_175B.sh

总结

1. 大模型是大势所趋。

2. 大规模分布式训练是训练大模型的必须。

3. NVIDIA Megatron 是开源的、软硬协同设计的训练框架，专为Transformer-based的超大语言模型设计。

4. NVIDIA DGX SuperPOD 是开放的集群参考设计架构，专为大规模分布式训练而准备。

5. Megatron 优化的Tensor模型并行：用于intra-transformer 层，可以高效地执行在HGX based的系统上。

6. Megatron优化的 Pipeline 模型并行：用于inter-transformer 层，可以有效地利用集群中多网卡的设计。

7. 数据并行的加持，可以扩展到更大规模、训练更快。

8. GPT-3 175B 的大模型，在1024 张 A100上可达到44%左右的计算效率。

9. NVIDIA Megatron 的设计和实践，已广泛用于学术界和工业界。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
6647

浏览量
88025
NVIDIA

NVIDIA

+关注

关注
14

文章
4715

浏览量
102191
交换机

交换机

+关注

关注
19

文章
2523

浏览量
97044
分布式

分布式

+关注

关注
1

文章
798

浏览量
74330

原文标题：NVIDIA Megatron：超大Transformer语言模型的分布式训练框架 (二)

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

大语言模型的预训练

能力，逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤，它通过在海量无标签数据上进行训练，使模型学习到

发表于 07-11 10:11 •128次阅读

Transformer语言模型简介与实现过程

在自然语言处理（NLP）领域，Transformer模型以其卓越的性能和广泛的应用前景，成为了近年来最引人注目的技术之一。Transformer模型

发表于 07-10 11:48 •315次阅读

使用PyTorch搭建Transformer模型

Transformer模型自其问世以来，在自然语言处理（NLP）领域取得了巨大的成功，并成为了许多先进模型（如BERT、GPT等）的基础。本文将深入解读如何使用PyTorch

发表于 07-02 11:41 •318次阅读

摩尔线程携手憨猴集团，深化AI算力战略合作，成功实现大模型分布式训练

摩尔线程与憨猴科技集团日前宣布，采用搭载摩尔线程的夸娥（KUAE）千卡智算集群，已成功完成了多个大模型的分布式训练，涵盖7B、34B以及70B三个不同的计算规模等级。

发表于 05-17 17:24 •446次阅读

大语言模型：原理与工程时间+小白初识大语言模型

解锁我理解的是基于深度学习，需要训练各种数据知识最后生成自己的的语言理解和能力的交互模型。对于常说的RNN是处理短序列的数据时表现出色，耳真正厉害的是Transformer，此

发表于 05-12 23:57

【大语言模型：原理与工程实践】大语言模型的预训练

大语言模型的核心特点在于其庞大的参数量，这赋予了模型强大的学习容量，使其无需依赖微调即可适应各种下游任务，而更倾向于培养通用的处理能力。然而，随着学习容量的增加，对预训练数据的需求也相

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础技术

语义学习的起点是研究如何将词转化为向量表示，这一直是自然语言处理领域的研究热点。词表示方法主要分为三种：词的独热表示、词的分布式表示和基于预训练的词嵌入表示。词的独热表示：构建包含所有词的词表V，独

发表于 05-05 12:17

【大语言模型：原理与工程实践】揭开大语言模型的面纱

大语言模型（LLM）是人工智能领域的尖端技术，凭借庞大的参数量和卓越的语言理解能力赢得了广泛关注。它基于深度学习，利用神经网络框架来理解和生成自然语

发表于 05-04 23:55

HarmonyOS实战案例：【分布式账本】

Demo基于Open Harmony系统使用ETS语言进行编写，本Demo主要通过设备认证、分布式拉起、分布式数据管理等功能来实现。

发表于 04-12 16:40 •1045次阅读

分布式系统硬件资源池原理和接入实践

一个无中心对称的分布式硬件外设管理系统。同时，分布式硬件框架定义了外设热插拔，虚拟硬件保活等机制，保证业务可靠性。在运行时，各个硬件外设的业务运行于独立进程中，在进程层面保证不同硬件的虚拟化业务互相

发表于 12-06 10:02

zookeeper分布式原理

是提供一个高可用的、一致性的机制，用于解决分布式系统中常见的一致性问题，比如Leader选举、分布式锁等。在本文中，我们将详细介绍Zookeeper的原理和工作机制。数据模型 Zookeeper的数据

发表于 12-03 16:33 •449次阅读

spring分布式框架有哪些

Spring分布式框架是一套基于Spring框架的解决方案，用于构建分布式系统。它提供了一系列的组件和模块，可以帮助开发人员轻松地构建可扩展、高可用、高性能的

发表于 11-16 10:58 •500次阅读

基于PyTorch的模型并行分布式训练Megatron解析

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transfo

发表于 10-23 11:01 •1667次阅读

训练大语言模型带来的硬件挑战

生成式AI和大语言模型（LLM）正在以难以置信的方式吸引全世界的目光，本文简要介绍了大语言模型，训练

发表于 09-01 17:14 •1284次阅读

OpenHarmony 分布式硬件关键技术

喇叭和超高清摄像头等。 03►分布式硬件平台关键技术第一，OpenHarmony在设计之初时就采用了分布式硬件池化架构。通过对各设备能力的抽象，构建全局硬件资源池抽象模型，对上提供一套统一的硬件抽象

发表于 08-24 17:25

搜索历史

探究超大Transformer语言模型的分布式训练框架

评论

大语言模型的预训练

Transformer语言模型简介与实现过程

使用PyTorch搭建Transformer模型

摩尔线程携手憨猴集团，深化AI算力战略合作，成功实现大模型分布式训练

大语言模型：原理与工程时间+小白初识大语言模型

【大语言模型：原理与工程实践】大语言模型的预训练

【大语言模型：原理与工程实践】大语言模型的基础技术

【大语言模型：原理与工程实践】揭开大语言模型的面纱

HarmonyOS实战案例：【分布式账本】

分布式系统硬件资源池原理和接入实践

zookeeper分布式原理

spring分布式框架有哪些

基于PyTorch的模型并行分布式训练Megatron解析

训练大语言模型带来的硬件挑战

OpenHarmony 分布式硬件关键技术