0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA对 NeMo Megatron 框架进行更新 将训练速度提高 30%

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-07-30 08:59 次阅读

随着大型语言模型(LLM)的规模和复杂性日益增加,NVIDIA 于今日宣布对 NeMo Megatron 框架进行更新,将训练速度提高 30%。

此次更新包括两项开创性的技术和一个超参数工具,用于优化和扩展任意数量 GPU 上的 LLM 训练,这为使用 NVIDIA AI 平台训练和部署模型提供了新功能。

BLOOM 是全球最大的开放科学、开放存取多语言模型,具有 1760 亿参数。该模型最近在NVIDIA AI 平台上进行了训练,支持 46 种语言和 13 种编程语言的文本生成。NVIDIA AI 平台还提供了最强大的转换器语言模型,具有 5300 亿参数,Megatron-Turing NLG 模型 (MT-NLG) 。

LLMs 的最新进展

LLM 是当今最重要的先进技术之一,涉及从文本中学习的多达数万亿参数。但 LLM 的开发过程昂贵而耗时,需要深厚的技术知识、分布式基础设施和全栈式方法。

LLM 也大大有助于推动实时内容生成、文本摘要、客服聊天机器人以及对话式AI问答界面的发展。

为了推动 LLM 的发展,人工智能(AI)社区正在继续对 Microsoft DeepSpeed, Colossal-AI 和Hugging Face BigScience 和 Fairscale 等工具进行创新,这些工具均由 NVIDIA AI 平台提供支持,包括 Megatron-LM、Apex 和其他 GPU 加速库。

这些对 NVIDIA AI 平台的全新优化有助于解决整个堆栈中现有的许多痛点。NVIDIA 期待着与 AI 社区合作,让每个人都能享受到 LLM 的力量。

更快速构建 LLMs

NeMo Megatron 的最新更新令 GPT-3 模型的训练速度提高了 30%,这些模型的规模从 220 亿到 1 万亿个参数不等。现在使用 1024 个 NVIDIA A100 GPU 只需 24 天就可以训练一个拥有 1750 亿个参数的模型。相比推出新版本之前,获得结果的时间缩短了 10 天或约 25 万个小时的 GPU 计算。

NeMo Megatron 是快速、高效、易于使用的端到端容器化框架,它可以用于收集数据、训练大规模模型、根据行业标准基准评估模型,并且以最高水准的延迟和吞吐性能进行推理。

它让 LLM 训练和推理在各种 GPU 集群配置上变得简单、可复制。目前,早期访问用户客户可在NVIDIA DGX SuperPOD、NVIDIA DGX Foundry 以及 Microsoft Azure 上运行这些功能。对其他云平台的支持也即将推出。

另外,用户还可以在 NVIDIA LaunchPad上进行功能试用。LaunchPad 是一项免费计划,可提供短期内访问 NVIDIA 加速基础设施上的动手实验室目录的机会。

NeMo Megatron 是 NeMo 的一部分,开源框架 NeMo,用于为对话式 AI、语音 AI 和生物学构建高性能和灵活的应用程序。

两项加速 LLM 训练的新技术

此次更新包括两项用于优化和扩展 LLM 训练的新技术——序列并行(SP)和选择性激活重计算(SAR)。

SP 通过注意到变换器层中尚未并行化的区域在序列维度是独立的,以此扩展张量级模型的并行性。

沿序列维度分割层,可以将算力以及最重要的内激活内存分布到张量并行设备上。激活是分布式的,因此可以将更多的激活保存到反向传播中,而无需重新计算。

9fb23846-0f4a-11ed-ba43-dac502259ad0.png

图1. Transformer 层内的并行模式

SAR 通过注意到不同的激活在重计算时需要不同数量的运算,改善了内存限制迫使重新计算部分(但不是所有)激活的情况。

可以只对每个 Transformer 层中占用大量内存,但重新计算成本不高的部分设置检查点和进行重新计算,而不是针对整个变换器层。

有关更多信息,请参见减少大型 Transformer 模型中的激活重计算: https://arxiv.org/abs/2205.05198

9fcff2f0-0f4a-11ed-ba43-dac502259ad0.png

图2. 自注意力块。红色虚线表示使用选择性激活重计算的区域

9fe2f8be-0f4a-11ed-ba43-dac502259ad0.png

图3. 反向传播中因 SP 和 SAR 的存在而获得的激活内存量。随着模型大小的增加,SP 和 SAR 都会产生类似的内存节省,将内存需求减少约 5 倍。

9ff280fe-0f4a-11ed-ba43-dac502259ad0.jpg

图4. 完全激活重计算和 SP+SAR 的计算开销。条形图表示每层的前向、反向和重计算时间细分。基线代表没有重计算和序列并行时的情况。这些技术有效地减少了所有激活被重计算而不是保存时产生的开销。最大模型的开销从 36% 下降到仅为 2%。

运用 LLM 的力量,还需要高度优化的推理策略。用户可以十分轻松地将训练好的模型用于推理并使用 P-tuning 和提示调整功能优化不同的用例。

这些功能是轻量化微调的有效替代方案,使 LLM 能够适应新的用例,而不需要采取微调全部预训练模型这种繁琐的方法。在这项技术中,原始模型的参数并没有被改变,因此避免了与微调模型相关的灾难性的“遗忘”问题。

有关更多信息,请参见采用 P-Tuning 解决非英语下游任务: https://developer.nvidia.com/blog/adapting-p-tuning-to-solve-non-english-downstream-tasks/

用于训练和推理的新超参数工具

在分布式基础设施中为 LLM 寻找模型配置十分耗时。NeMo Megatron 带来了超参数工具,它能够自动找到最佳训练和推理配置,而不需要修改代码,这使 LLM 从第一天起就能在训练中获得推理收敛性,避免了在寻找高效模型配置上所浪费的时间。

该工具对不同的参数使用启发法和经验网格搜索来寻找具有最佳吞吐量的配置,包括数据并行性、张量并行性、管道并行性、序列并行性、微批大小和激活检查点设置层的数量(包括选择性激活重计算)。

通过使用超参数工具以及在 NGC 容器上的 NVIDIA 测试,NVIDIA 在 24 小时内就得到了 175B GPT-3 模型的最佳训练配置(见图5)。与使用完整激活重计算的通用配置相比,NVIDIA 将吞吐量速度提高了 20%-30%。对于参数超过 200 亿的模型,NVIDIA 使用这些最新技术将吞吐量速度进一步提升 10%-20%。

a00102e6-0f4a-11ed-ba43-dac502259ad0.png

图5. HP 工具在几个容器上的结果显示了通过序列并行和选择性激活重计算实现的速度提升,其中每个节点都是 NVIDIA DGX A100。

超参数工具还可以找到在推理过程中实现最高吞吐量或最低延迟的模型配置。模型可以设置延迟和吞吐量限制,该工具也将推荐合适的配置。

a0224d3e-0f4a-11ed-ba43-dac502259ad0.png

图6. HP 工具的推理结果显示每个 GPU 的吞吐量和不同配置的延迟。最佳配置包括高吞吐量和低延时。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    206

    文章

    27025

    浏览量

    201379
  • NVIDIA
    +关注

    关注

    14

    文章

    4588

    浏览量

    101702
  • AI
    AI
    +关注

    关注

    87

    文章

    26424

    浏览量

    264031

原文标题:NVIDIA AI 平台大幅提高大型语言模型的性能

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于NVIDIA Megatron Core的MOE LLM实现和训练优化

    本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大语言模型(LLM)实现与训练优化上的创新工作。
    的头像 发表于 03-22 09:50 157次阅读
    基于<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Megatron</b> Core的MOE LLM实现和<b class='flag-5'>训练</b>优化

    NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

    本文将介绍亚马逊如何使用 NVIDIA NeMo 框架、GPU 以及亚马逊云科技的 EFA 来训练其 最大的新一代大语言模型(LLM)。 大语言模型的一切都很庞大——巨型模型是在数千颗
    的头像 发表于 11-29 21:15 318次阅读
    <b class='flag-5'>NVIDIA</b> 为部分大型亚马逊 Titan 基础模型提供<b class='flag-5'>训练</b>支持

    NVIDIA 在 Microsoft Azure 上推出面向全球企业和初创公司的生成式 AI Foundry 服务

    SAP、Amdocs、Getty Images 率先使用 NVIDIA AI Foundation Models  构建自定义 LLM、在 NVIDIA DGX 云上进行训练, 并使用
    的头像 发表于 11-16 21:15 295次阅读

    基于PyTorch的模型并行分布式训练Megatron解析

    NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数
    的头像 发表于 10-23 11:01 1002次阅读
    基于PyTorch的模型并行分布式<b class='flag-5'>训练</b><b class='flag-5'>Megatron</b>解析

    深度学习框架区分训练还是推理吗

    深度学习框架区分训练还是推理吗 深度学习框架是一个非常重要的技术,它们能够加速深度学习的开发与部署过程。在深度学习中,我们通常需要进行两个关键的任务,即
    的头像 发表于 08-17 16:03 1027次阅读

    有问有答 | NeMo 在线答疑,专家坐阵,7 月 18 日晚 20:00

      是一个用于构建先进的对话式 AI 模型的框架,它内置集成了自动语音识别(ASR)、自然语言处理(NLP)和语音合成(TTS)的模型以及大型语言模型(LLM)的训练方法。NeMo 可以快速加载先进的预
    的头像 发表于 07-17 19:45 204次阅读
    有问有答 | <b class='flag-5'>NeMo</b> 在线答疑,专家坐阵,7 月 18 日晚 20:00

    NVIDIA 人工智能开讲 | 对话式 AI 开发利器 — NVIDIA NeMo

    ”两大音频 APP上搜索“ NVIDIA 人工智能开讲 ”专辑,众多技术大咖带你深度剖析核心技术,把脉未来科技发展方向! NVIDIA NeMo 是一个用于构建先进的对话式 AI 模型的框架
    的头像 发表于 07-10 20:25 356次阅读
    <b class='flag-5'>NVIDIA</b> 人工智能开讲 | 对话式 AI 开发利器 — <b class='flag-5'>NVIDIA</b> <b class='flag-5'>NeMo</b>

    周二研讨会预告 | 使用 NeMo 结合 AI21 studio 搭建中文场景对话引擎

    | 使用 NVIDIA NeMo  结合 AI21 Labs 搭建基于 LLM 的中文场景对话引擎 ★ 内容 NVIDIA NeMo TM 是一款供开发者构建和
    的头像 发表于 06-26 19:35 240次阅读
    周二研讨会预告 | 使用 <b class='flag-5'>NeMo</b> 结合 AI21 studio 搭建中文场景对话引擎

    6 月 27 日研讨会 | 使用 NeMo 结合 AI21 studio 搭建中文场景对话引擎

    | 使用 NVIDIA NeMo  结合  AI21 Labs  搭建基于 LLM 的 中文场景对话引擎 ★ 内容 NVIDIA NeMo TM 是一款供开发者构建和
    的头像 发表于 06-19 19:15 294次阅读
    6 月 27 日研讨会 | 使用 <b class='flag-5'>NeMo</b> 结合 AI21 studio 搭建中文场景对话引擎

    DeepSpeed结合Megatron-LM训练GPT2模型笔记

    是如何结合DeepSpeed的特性进行训练Megatron GPT2,由于篇幅原因这篇文章只写了第一部分,主要是非常细致的记录了跑起来Megatron GPT2
    的头像 发表于 06-19 14:45 1926次阅读
    DeepSpeed结合<b class='flag-5'>Megatron</b>-LM<b class='flag-5'>训练</b>GPT2模型笔记

    图解大模型训练之:Megatron源码解读2,模型并行

    前文说过,用Megatron做分布式训练的开源大模型有很多,我们选用的是THUDM开源的CodeGeeX(代码生成式大模型,类比于openAI Codex)。选用它的原因是“完全开源”与“清晰的模型架构和预训练配置图”,能帮助我
    的头像 发表于 06-07 15:08 2577次阅读
    图解大模型<b class='flag-5'>训练</b>之:<b class='flag-5'>Megatron</b>源码解读2,模型并行

    基于Transformer做大模型预训练基本的并行范式

    并行(TP)。 它的基本思想就是把模型的参数纵向切开,放到不同的GPU上进行独立计算,然后再做聚合。 在写这篇文章的过程中,我发现要理解Megatron的大框架不难,但是涉及到细节,特别是混合并行部分,要考虑的就很多了。 所以我
    的头像 发表于 05-31 14:38 1704次阅读
    基于Transformer做大模型预<b class='flag-5'>训练</b>基本的并行范式

    NVIDIA AI 技术助力 vivo 文本预训练大模型性能提升

    vivo AI 团队与 NVIDIA 团队合作,通过算子优化,提升 vivo 文本预训练大模型的训练速度。在实际应用中, 训练提速 60%
    的头像 发表于 05-26 07:15 444次阅读
    <b class='flag-5'>NVIDIA</b> AI 技术助力 vivo 文本预<b class='flag-5'>训练</b>大模型性能提升

    在线研讨会 | 让 ChatGPT 和大语言模型的使用合法合规 —— 30 分钟快速入门 NeMo - Guardrails

    研讨会安排 主题:让 ChatGPT 和大语言模型的使用合法合规 —— 30 分钟快速入门 NeMo - Guardrails 时间:2023 年 5 月 18 日(周四)19:30 - 20:00
    的头像 发表于 05-17 05:55 465次阅读
    在线研讨会 | 让 ChatGPT 和大语言模型的使用合法合规 —— <b class='flag-5'>30</b> 分钟快速入门 <b class='flag-5'>NeMo</b> - Guardrails

    NVIDIA NeMo 如何支持对话式 AI 任务的训练与推理?

    ,开发和运行可落地的语音人工智能服务仍然是一项复杂而艰巨的任务,通常需要面临实时性、可理解性、自然性、低资源、鲁棒性等挑战。 本期分享我们邀请到了  NVIDIA 的解决方案架构师丁文 ,分享如何使用 NVIDIA NeMo
    的头像 发表于 05-11 20:16 624次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>NeMo</b> 如何支持对话式 AI 任务的<b class='flag-5'>训练</b>与推理?