0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

NVIDIA英伟达企业解决方案 来源:未知 2023-11-29 21:15 次阅读

本文将介绍亚马逊如何使用 NVIDIA NeMo 框架、GPU

以及亚马逊云科技的 EFA 来训练其

最大的新一代大语言模型(LLM)。

wKgZomVnOoKAIrzWAACT_z650WI921.png

大语言模型的一切都很庞大——巨型模型是在数千颗 NVIDIA GPU 和海量的数据集上所训练而成。

不过这可能会给想要使用生成式 AI 的企业带来很多巨大的挑战。NVIDIA NeMo(一个用于构建、自定义和运行 LLM 的框架)能够帮助企业克服上述挑战。

亚马逊云科技(AWS)有一支由资深科学家和开发者组成的团队,致力于为 Amazon Bedrock(一项用于基础模型的生成式 AI 服务)创建 Amazon Titan 基础模型。该团队在过去几个月中一直在使用 NVIDIA NeMo。

亚马逊云科技高级应用科学家 Leonard Lausen 表示:“我们使用 NeMo 的一大原因是它具有可扩展性,其优化功能使我们能够以较高的 GPU 利用率运行,同时能够扩展到更大的集群,进而能够更快地训练出模型,并向客户交付。”

实现真正的大规模训练

NeMo 的并行技术可实现高效的大规模 LLM 训练。当与亚马逊云科技的 Elastic Fabric Adapter(EFA)配合使用时,团队可以将 LLM 扩展到多颗 GPU 上,从而加快训练速度。

EFA 为亚马逊云科技客户提供了一个 UltraCluster 联网基础设施,可直接连接 1 万多颗 GPU,并使用 NVIDIA GPUDirect 绕过操作系统CPU

这一结合使亚马逊云科技的科学家们能够提供出色的模型质量,这是只依靠其他数据并行方法无法大规模实现的。

通用框架

Lausen 表示:“NeMo 的灵活性支持亚马逊云科技根据新的 Titan 模型、数据集和基础设施的具体情况来定制训练软件。

亚马逊云科技的创新成果包括从 Amazon Simple Storage Service(Amazon S3)到 GPU 集群的高效流式传输。Lausen 表示:“由于 NeMo 本身就是基于标准化 LLM 训练管线组件的常用程序库(如 PyTorch Lightning)所构建的,因此整合这些改进很容易。”

亚马逊云科技和 NVIDIA 的共同目标是将双方的合作经验融入到 NVIDIA NeMo 等产品和 Amazon Titan 等服务中,最终造福客户。

GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行,线上大会也将同期开放。扫描下方海报二维码,立即注册 GTC 大会


原文标题:NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3327

    浏览量

    87769

原文标题:NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于NVIDIA Megatron Core的MOE LLM实现和训练优化

    本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大语言模型(LLM)实现与训练优化上的创新工作。
    的头像 发表于 03-22 09:50 161次阅读
    基于<b class='flag-5'>NVIDIA</b> Megatron Core的MOE LLM实现和<b class='flag-5'>训练</b>优化

    亚马逊云科技与Anthropic合作,Amazon Bedrock再添Claude 3模型

    亚马逊云科技近日宣布,与专注于AI安全和研究的公司Anthropic达成合作,Anthropic的领先AI模型Claude 3系列将基于亚马逊云科技的Amazon Bedrock平台提供
    的头像 发表于 03-06 09:52 241次阅读

    谷歌模型训练软件有哪些?谷歌模型训练软件哪个好?

    谷歌在模型训练方面提供了一些强大的软件工具和平台。以下是几个常用的谷歌模型训练软件及其特点。
    的头像 发表于 03-01 16:24 278次阅读

    亚马逊云科技与 NVIDIA 宣布开展战略合作,为生成式 AI 提供全新超级计算基础架构、软件和服务

    计算机,用于 NVIDIA AI 研发和自定义模型开发。 搭载 NVIDIA GH200、H200、L40S 和 L4 GPU的全新亚马逊 EC2 实例为生成式 AI、高性能计算(HP
    的头像 发表于 11-29 21:00 385次阅读
    <b class='flag-5'>亚马逊</b>云科技与 <b class='flag-5'>NVIDIA</b> 宣布开展战略合作,为生成式 AI <b class='flag-5'>提供</b>全新超级计算基础架构、软件和服务

    NVIDIA Merlin 助力陌陌推荐业务实现高性能训练优化

    通过 Merlin 大幅提升大规模深度多目标精排模型训练性能 本案例中,NVIDIA 团队与陌陌推荐系统团队深度合作,共同使用 NVIDIA GPU 和 Merlin 软件解决方案替代
    的头像 发表于 11-09 10:45 140次阅读
    <b class='flag-5'>NVIDIA</b> Merlin 助力陌陌推荐业务实现高性能<b class='flag-5'>训练</b>优化

    如何让网络模型加速训练

    的博文,对 Pytorch的AMP ( autocast与Gradscaler 进行对比) 自动混合精度对模型训练加速 。 注意Pytorch1.6+,已经内置torch.cuda.amp,因此便不需要加载
    的头像 发表于 11-03 10:00 1113次阅读
    如何让网络<b class='flag-5'>模型</b>加速<b class='flag-5'>训练</b>

    基于PyTorch的模型并行分布式训练Megatron解析

    NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并
    的头像 发表于 10-23 11:01 1007次阅读
    基于PyTorch的<b class='flag-5'>模型</b>并行分布式<b class='flag-5'>训练</b>Megatron解析

    新官宣!投资高达40亿美元!亚马逊云科技助力Anthropic未来基础模型开发

    云科技的客户使用。双方深化合作的部分内容包括: Anthropic将使用Amazon Trainium和Amazon Inferentia芯片来构建、训练和部署其未来基础模型,并充分利用亚马逊
    的头像 发表于 09-28 11:55 455次阅读

    请问K510设备什么时候可以支持线上模型训练

    目前官方的线上模型训练支持K210,请问K510什么时候可以支持
    发表于 09-13 06:12

    亚马逊美国站要求提供的FCC认证是什么?

    亚马逊
    jf_68417261
    发布于 :2023年08月04日 15:01:57

    训练好的ai模型导入cubemx不成功怎么解决?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 08-04 09:16

    英伟达 H100 vs 苹果M2 大模型训练,哪款性价比更高?

    训练和微调大型语言模型对于硬件资源的要求非常高。目前,主流的大模型训练硬件通常采用英特尔的CPU和英伟达的GPU。然而,最近苹果的M2 Ul
    的头像 发表于 07-28 16:11 2251次阅读
    英伟达 H100 vs 苹果M2 大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>,哪款性价比更高?

    亚马逊磁铁政策需要提供的标准要求

    亚马逊
    jf_38631377
    发布于 :2023年07月10日 10:43:06

    NVIDIA AI 技术助力 vivo 文本预训练模型性能提升

    vivo AI 团队与 NVIDIA 团队合作,通过算子优化,提升 vivo 文本预训练模型训练速度。在实际应用中, 训练提速 60%
    的头像 发表于 05-26 07:15 444次阅读
    <b class='flag-5'>NVIDIA</b> AI 技术助力 vivo 文本预<b class='flag-5'>训练</b>大<b class='flag-5'>模型</b>性能提升

    什么是预训练AI模型

    训练 AI 模型是为了完成特定任务而在大型数据集上训练的深度学习模型。这些模型既可以直接使用,
    的头像 发表于 05-25 17:10 634次阅读