0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA AI平台为大型语言模型带来巨大收益

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-10-10 15:39 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着大型语言模型( LLM )的规模和复杂性不断增长, NVIDIA 今天宣布更新 NeMo Megatron 框架,提供高达 30% 的训练速度。

这些更新包括两种开拓性技术和一个超参数工具,用于优化和扩展任何数量 GPU 上的 LLM 训练,提供了使用 NVIDIA AI 平台训练和部署模型的新功能。

BLOOM ,世界上最大的开放科学、开放获取多语言模型,具有 1760 亿个参数,最近 在 NVIDIA AI 平台上接受培训 ,支持 46 种语言和 13 种编程语言的文本生成。 NVIDIA AI 平台还支持最强大的 transformer 语言模型之一,具有 5300 亿个参数, Megatron-Turing NLG 模型 (MT-NLG)。

法学硕士研究进展

LLM 是当今最重要的先进技术之一,涉及数万亿个从文本中学习的参数。然而,开发它们是一个昂贵、耗时的过程,需要深入的技术专业知识、分布式基础设施和全堆栈方法。

然而,在推进实时内容生成、文本摘要、客户服务聊天机器人和对话 AI 界面的问答方面,它们的好处是巨大的。

为了推进 LLM ,人工智能社区正在继续创新工具,例如 Microsoft DeepSpeed , 巨大的人工智能 , 拥抱大科学 和 公平比例 –由 NVIDIA AI 平台提供支持,涉及 Megatron LM , 顶 ,以及其他 GPU 加速库。

这些对 NVIDIA AI 平台的新优化有助于解决整个堆栈中存在的许多难点。 NVIDIA 期待着与人工智能社区合作,继续让所有人都能使用 LLM 。

更快地构建 LLM

NeMo Megatron 的最新更新为训练 GPT-3 模型提供了 30% 的加速,模型大小从 220 亿到一万亿参数不等。现在,使用 1024 个 NVIDIA A100 GPU 只需 24 天,就可以在 1750 亿个参数模型上完成训练——在这些新版本发布之前,将得出结果的时间减少了 10 天,或约 250000 个小时的 GPU 计算。

NeMo Megatron 是一种快速、高效且易于使用的端到端集装箱化框架,用于收集数据、训练大规模模型、根据行业标准基准评估模型,以及用于推断最先进的延迟和吞吐量性能。

它使 LLM 训练和推理在广泛的 GPU 簇配置上易于重复。目前,这些功能可供早期访问客户使用 DGX 叠加视图 和 NVIDIA DGX 铸造厂 以及 Microsoft Azure 云。对其他云平台的支持将很快提供。

你可以试试这些功能 NVIDIA LaunchPad ,这是一个免费项目,提供对 NVIDIA 加速基础设施上的动手实验室目录的短期访问。

NeMo Megatron 是 NeMo 的一部分, NeMo 是一个开源框架,用于为会话人工智能、语音人工智能和生物学构建高性能和灵活的应用程序。

加速 LLM 训练的两种新技术

优化和扩展 LLM 训练的更新中包括两种新技术,即序列并行( SP )和选择性激活重新计算( SAR )。

序列并行性扩展了张量级模型并行性,注意到之前未并行的 transformer 层的区域沿序列维度是独立的。

沿着序列维度拆分这些层可以实现计算的分布,最重要的是,这些区域的激活内存可以跨张量并行设备分布。由于激活是分布式的,因此可以为向后传递保存更多激活,而不是重新计算它们。

pYYBAGNDzECAU8uEAAHd26pTXCI160.png

图 1.ZFK8 层内的并行模式。

选择性激活重新计算通过注意到不同的激活需要不同数量的操作来重新计算,从而改善了内存约束强制重新计算部分(但不是全部)激活的情况。

与检查点和重新计算整个 transformer 层不同,可以只检查和重新计算每个 transformer 层中占用大量内存但重新计算计算成本不高的部分。

有关更多信息,请参阅 减少大型 transformer 模型中的激活重新计算 。

poYBAGNDzEGAG715AADqV7z1znA578.png

图 2.自注意力块。红色虚线显示了应用选择性激活重新计算的区域。

pYYBAGNDzEKAUFbdAAEUt7ut50Q387.png

图 3.由于 SP 和 SAR ,反向传递所需的激活内存量。随着模型尺寸的增加, SP 和 SAR 的内存节省量相似,所需内存减少了约 5 倍。

poYBAGNDzEaAcnRKAAsLv-HJEgM150.png

图 4.完全激活重新计算和 SP 加 SAR 的计算开销量。条形图表示向前、向后和重新计算时间的每层分解。基线是指没有重新计算和序列并行性的情况。这些技术可以有效地减少重新计算而不是保存所有激活时产生的开销。对于最大型号,开销从 36% 降至 2% 。

访问 LLM 的功能还需要高度优化的推理策略。用户可以轻松地使用经过训练的模型进行推理,并使用 p- 调优和即时调优功能针对不同的用例进行优化。

这些功能是微调的参数有效替代方案,并允许 LLM 适应新的用例,而无需对完全预训练模型进行严格的微调。在这种技术中,原始模型的参数不会改变。因此,避免了与微调模型相关的灾难性“遗忘”问题。

用于训练和推理的新超参数工具

跨分布式基础设施查找 LLM 的模型配置是一个耗时的过程。 NeMo Megatron 引入了一种超参数工具,可以自动找到最佳的训练和推理配置,无需更改代码。这使得 LLM 能够从第一天开始训练收敛以进行推理,从而消除了搜索有效模型配置所浪费的时间。

它跨不同参数使用启发式和经验网格搜索,以找到具有最佳吞吐量的配置:数据并行性、张量并行性、管道并行性、序列并行性、微批量大小和激活检查点层的数量(包括选择性激活重新计算)。

使用超参数工具和 NVIDIA 对 NGC 上的容器进行测试,我们在 24 小时内获得了 175B GPT-3 模型的最佳训练配置(见图 5 )。与使用完全激活重新计算的常见配置相比,我们实现了 20%-30% 的吞吐量加速。使用最新技术,对于参数超过 20B 的模型,我们实现了额外 10%-20% 的吞吐量加速。

pYYBAGNDzEeAabYnAACzikT_BJ4428.png

图 5.HP 工具在多个容器上的结果,表明序列并行和选择性激活重新计算的速度加快,其中每个节点是一个 NVIDIA DGX A100 。

hyperparameter 工具还允许查找在推理过程中实现最高吞吐量或最低延迟的模型配置。可以提供延迟和吞吐量约束来为模型服务,该工具将推荐合适的配置。

poYBAGNDzEiAd80PAAGugunkSuk831.png

图 6.HP 工具推断结果,显示了每 GPU 的吞吐量和不同配置的延迟。最佳配置包括高吞吐量和低延迟。

关于作者

Markel Ausin 是 NVIDIA 的深度学习算法工程师。在目前的角色中,他致力于构建和部署大型语言模型,作为 NeMo- Megatron 框架的一部分。

Vinh Nguyen 是一位深度学习的工程师和数据科学家,发表了 50 多篇科学文章,引文超过 2500 篇。

Annamalai Chockalingam 是 NVIDIA 的 NeMo Megatron 和 NeMo NLP 产品的产品营销经理。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5696

    浏览量

    110125
  • AI
    AI
    +关注

    关注

    91

    文章

    41250

    浏览量

    302656
  • 深度学习
    +关注

    关注

    73

    文章

    5609

    浏览量

    124644
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    解读大型语言模型的偏见

    在一项新的研究中,研究人员发现了LLM中某种偏见的根本原因,更准确、更可靠的AI系统铺平了道路。研究表明,大型语言模型(LLM)往往倾向于
    的头像 发表于 04-15 14:44 718次阅读
    解读<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>的偏见

    NVIDIA 扩展开放模型系列,推动代理式、物理和医疗 AI 下一阶段发展

    新闻摘要: ●NVIDIA Nemotron 3 全模态理解模型 (Omni-understanding Models) AI 智能体提供动力 ,使其能够实现自然对话、复杂推理和高
    的头像 发表于 03-17 09:18 515次阅读
    <b class='flag-5'>NVIDIA</b> 扩展开放<b class='flag-5'>模型</b>系列,推动代理式、物理和医疗 <b class='flag-5'>AI</b> 下一阶段发展

    NVIDIA Jetson模型赋能AI在边缘端落地

    开源生成式 AI 模型不再局限于数据中心,而是开始深入到现实世界的各种机器中。从 Orin 到 Thor,NVIDIA Jetson 系列正在成为运行 NVIDIA Nemotron、
    的头像 发表于 03-16 16:27 657次阅读
    <b class='flag-5'>NVIDIA</b> Jetson<b class='flag-5'>模型</b>赋能<b class='flag-5'>AI</b>在边缘端落地

    NVIDIA推出代理式AI蓝图与电信推理模型

    借助全新开源大型电信模型NVIDIA Blueprint,电信运营商能够利用自有数据训练 AI 智能体,构建自主网络。
    的头像 发表于 03-06 17:37 3083次阅读

    NVIDIA携手Mistral AI发布全新开源大语言模型系列

    全新 Mistral 3 系列涵盖从前沿级到紧凑型模型,针对 NVIDIA 平台进行了优化,助力 Mistral AI 实现云到边缘分布式智能愿景。
    的头像 发表于 12-13 09:58 1470次阅读

    NVIDIA推动面向数字与物理AI的开源模型发展

    NVIDIA 发布一系列涵盖语音、安全与辅助驾驶领域的全新 AI 工具,其中包括面向移动出行领域的行业级开源视觉-语言-动作推理模型(Reasoning VLA)
    的头像 发表于 12-13 09:50 1552次阅读

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布了 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI 模型的测试与验证数据生成。借助
    的头像 发表于 12-01 09:25 1452次阅读

    NVIDIA DGX Spark助力构建自己的AI模型

    作为个人 AI 超级计算机,世界各地的 AI 研究人员、数据科学家和学生提供 NVIDIA Grace Blackwell 平台的强大功
    的头像 发表于 11-21 09:25 1557次阅读
    <b class='flag-5'>NVIDIA</b> DGX Spark助力构建自己的<b class='flag-5'>AI</b><b class='flag-5'>模型</b>

    NVIDIA推出面向语言、机器人和生物学的全新开源AI技术

    NVIDIA 秉持对开源的长期承诺,推出了面向语言、机器人和生物学的全新开源 AI 技术,构建开源生态系统做出贡献,扩展 AI 的普及并推
    的头像 发表于 11-06 11:49 1286次阅读

    NVIDIA ACE现已支持开源Qwen3-8B小语言模型

    助力打造实时、动态的 NPC 游戏角色,NVIDIA ACE 现已支持开源 Qwen3-8B 小语言模型(SLM),可实现 PC 游戏中的本地部署。
    的头像 发表于 10-29 16:59 1428次阅读

    什么是AI模型的推理能力

    NVIDIA 的数据工厂团队 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该
    的头像 发表于 09-23 15:19 1483次阅读

    研华科技推出基于NVIDIA Jetson Thor平台的边缘AI新品MIC-743

    研华重磅推出基于NVIDIA Jetson Thor平台的边缘AI新品 MIC-743,这款突破性产品以高达2070 FP4 TOPS的AI算力重新定义边缘计算性能边界,适用于当前机器
    的头像 发表于 08-29 14:53 2326次阅读

    Votee AI借助NVIDIA技术加速方言小语种LLM开发

    Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 数据处理软件、NeMo Framework 模型训练框架及 Auto Configurator 优化工具,高效构建
    的头像 发表于 08-20 14:21 1033次阅读

    使用NVIDIA Earth-2生成式AI基础模型革新气候建模

    NVIDIA 正通过 cBottle(Climate in a Bottle 的简称)这项工作带来新的突破,这是全球首个专为以公里尺度分辨率模拟全球气候而设计的生成式 AI 基础
    的头像 发表于 06-12 15:54 1458次阅读

    欧洲借助NVIDIA Nemotron优化主权大语言模型

    NVIDIA 正携手欧洲和中东的模型构建商与云提供商,共同优化主权大语言模型 (LLM),加速该地区各行业采用企业级 AI
    的头像 发表于 06-12 15:42 1389次阅读