探究超大Transformer语言模型的分布式训练框架-电子发烧友网

NVIDIA Megatron 是一个基于 PyTorch 的框架，用于训练基于 Transformer 架构的巨型语言模型。本系列文章将详细介绍Megatron的设计和实践，探索这一框架如何助力大模型的预训练计算。上篇主要介绍了大模型训练的发展趋势、NVIDIA Megatron的模型并行设计，本篇将承接上篇的内容，解析Megatron 在NVIDIA DGX SuperPOD 上的实践。

优化的分布式集群架构：NVIDIA DGX SuperPOD

有了高效的分布式训练框架，自然也需要优化的分布式训练集群。

NVIDIA DGX SuperPOD 便是 NVIDIA 推出的一个分布式集群的参考架构，最新一代是基于NVIDIA DGX A100 和NVIDIA HDR 200Gb/s ConnectX-6 HCAs组建，旨在帮助AI 研究人员快速搭建一套强大、灵活、高效的系统，以满足工业界日益复杂、多变的模型对计算资源不同程度的需求。尤其对于超大语言模型预训练这一复杂场景，DGX SuperPOD 架构尤为重要。

DGX SuperPOD 采用模块化的设计，支持不同规模大小的设计。一个标准的SuperPOD 由140 台DGX A100和三层Infiniband 交换机通过胖树结构全互联起来。每台DGX A100 配有8个200Gb/s 的高速计算网，并配有2个200Gb/s的高速存储网，采用计算和存储网络分离的方案。

多个POD之间可以通过核心层交换机直连起来，可以支持多达560 台DGX A100的互联规模。

更多关于NVIDIA DGX SuperPOD 架构的详细设计，请参阅下列连接中的白皮书：https://images.nvidia.com/aem-dam/Solutions/Data-Center/gated-resources/nvidia-dgx-superpod-a100.pdf

NVIDIA Megatron 在 DGX SuperPOD 上的实践

基于DGX SuperPOD 的Megatron实践在不同大小的模型上，都表现出了很好的计算效率。

模型从1.7B 到1T ，训练规模从32 卡到3072 卡。

基于GPT-3 175B 模型的训练，采用如下的配置：

128 台 DGX A100，总共 1024张 A100

Tensor 并行度：8；Pipeline 并行度：16；数据并行度：8

全局Batch size ： 1536；Micro-batch size： 1

在如此大的训练规模下，GPU 仍可达到44% 左右的计算效率，在规模和效率上，都远远超过已有的公开结果。

详细内容请参考以下链接：

Megatron repro： https://github.com/nvidia/megatron-lm

GPT3-175B training scripts： https://github.com/NVIDIA/Megatron-LM/blob/main/examples/pretrain_gpt3_175B.sh

总结

1. 大模型是大势所趋。

2. 大规模分布式训练是训练大模型的必须。

3. NVIDIA Megatron 是开源的、软硬协同设计的训练框架，专为Transformer-based的超大语言模型设计。

4. NVIDIA DGX SuperPOD 是开放的集群参考设计架构，专为大规模分布式训练而准备。

5. Megatron 优化的Tensor模型并行：用于intra-transformer 层，可以高效地执行在HGX based的系统上。

6. Megatron优化的 Pipeline 模型并行：用于inter-transformer 层，可以有效地利用集群中多网卡的设计。

7. 数据并行的加持，可以扩展到更大规模、训练更快。

8. GPT-3 175B 的大模型，在1024 张 A100上可达到44%左右的计算效率。

9. NVIDIA Megatron 的设计和实践，已广泛用于学术界和工业界。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
6508

浏览量
87552
NVIDIA

NVIDIA

+关注

关注
14

文章
4576

浏览量
101637
交换机

交换机

+关注

关注
19

文章
2419

浏览量
95578
分布式

分布式

+关注

关注
1

文章
749

浏览量
74048

原文标题：NVIDIA Megatron：超大Transformer语言模型的分布式训练框架 (二)

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

【书籍评测活动NO.30】大规模语言模型：从理论到实践

更多的自然语言处理研究人员和对大语言模型感兴趣的读者能够快速了解大模型的理论基础，并开展大模型实践，复旦大学张奇教授团队结合他们在自然

发表于 03-11 15:16

大语言模型背后的Transformer，与CNN和RNN有何不同

电子发烧友网报道（文/李弯弯）近年来，随着大语言模型的不断出圈，Transformer这一概念也走进了大众视野。Transformer是一种非常流行的深度学习

发表于 12-25 08:36 •1515次阅读

大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>背后的<b class='flag-5'>Transformer</b>，与CNN和RNN有何不同

鸿蒙原生应用开发——分布式数据对象

01、什么是分布式数据对象在可信组网环境下，多个相互组网认证的设备将各自创建的对象加入同一个 sessionId，使得加入的多个数据对象之间可以同步数据，也就是说，当某一数据对象属性发生

发表于 12-08 10:01

分布式系统硬件资源池原理和接入实践

一个无中心对称的分布式硬件外设管理系统。同时，分布式硬件框架定义了外设热插拔，虚拟硬件保活等机制，保证业务可靠性。在运行时，各个硬件外设的业务运行于独立进程中，在进程层面保证不同硬件的虚拟化业务互相

发表于 12-06 10:02

spring分布式框架有哪些

Spring分布式框架是一套基于Spring框架的解决方案，用于构建分布式系统。它提供了一系列的组件和模块，可以帮助开发人员轻松地构建可扩展、高可用、高性能的

发表于 11-16 10:58 •337次阅读

基于PyTorch的模型并行分布式训练Megatron解析

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transfo

发表于 10-23 11:01 •948次阅读

训练大语言模型带来的硬件挑战

生成式AI和大语言模型（LLM）正在以难以置信的方式吸引全世界的目光，本文简要介绍了大语言模型，训练这些

发表于 09-01 17:14 •1090次阅读

OpenHarmony 分布式硬件关键技术

喇叭和超高清摄像头等。 03►分布式硬件平台关键技术第一，OpenHarmony在设计之初时就采用了分布式硬件池化架构。通过对各设备能力的抽象，构建全局硬件资源池抽象模型，对上提供一套统一的硬件抽象

发表于 08-24 17:25

如何计算transformer模型的参数量

参数规模大，训练数据规模大。以GPT3为例，GPT3的参数量为1750亿，训练数据量达到了570GB。进而，训练大规模语言模型面临两个主要挑

发表于 07-10 09:13 •6937次阅读

过程语言(2)#分布式数据

分布式数据

未来加油dz
发布于 :2023年07月03日 23:00:52

过程语言(1)#分布式数据

分布式数据

未来加油dz
发布于 :2023年07月03日 23:00:11

#分布式数据

分布式数据

未来加油dz
发布于 :2023年07月03日 22:58:32

2D Transformer 可以帮助3D表示学习吗？

预训练的2D图像或语言Transformer：作为基础Transformer模型，具有丰富的特征表示能力。作者选择了先进的2D

发表于 07-03 10:59 •436次阅读

基于Transformer做大模型预训练基本的并行范式

在之前的内容中，我们已经介绍过流水线并行、数据并行（DP，DDP和ZeRO）。今天我们将要介绍最重要，也是目前基于Transformer做大模型预训练最基本的并行范式：来自NVIDIA的张量

发表于 05-31 14:38 •1693次阅读

AI大语言模型的原理、演进及算力测算专题报告

GPT是基于Transformer架构的大语言模型，近年迭代演进迅速。构建语言模型是自然语言处理

发表于 04-28 10:01 •626次阅读