0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

NVIDIA英伟达企业解决方案 来源:未知 2023-11-29 21:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文将介绍亚马逊如何使用 NVIDIA NeMo 框架、GPU

以及亚马逊云科技的 EFA 来训练其

最大的新一代大语言模型(LLM)。

wKgZomVnOoKAIrzWAACT_z650WI921.png

大语言模型的一切都很庞大——巨型模型是在数千颗 NVIDIA GPU 和海量的数据集上所训练而成。

不过这可能会给想要使用生成式 AI 的企业带来很多巨大的挑战。NVIDIA NeMo(一个用于构建、自定义和运行 LLM 的框架)能够帮助企业克服上述挑战。

亚马逊云科技(AWS)有一支由资深科学家和开发者组成的团队,致力于为 Amazon Bedrock(一项用于基础模型的生成式 AI 服务)创建 Amazon Titan 基础模型。该团队在过去几个月中一直在使用 NVIDIA NeMo。

亚马逊云科技高级应用科学家 Leonard Lausen 表示:“我们使用 NeMo 的一大原因是它具有可扩展性,其优化功能使我们能够以较高的 GPU 利用率运行,同时能够扩展到更大的集群,进而能够更快地训练出模型,并向客户交付。”

实现真正的大规模训练

NeMo 的并行技术可实现高效的大规模 LLM 训练。当与亚马逊云科技的 Elastic Fabric Adapter(EFA)配合使用时,团队可以将 LLM 扩展到多颗 GPU 上,从而加快训练速度。

EFA 为亚马逊云科技客户提供了一个 UltraCluster 联网基础设施,可直接连接 1 万多颗 GPU,并使用 NVIDIA GPUDirect 绕过操作系统CPU

这一结合使亚马逊云科技的科学家们能够提供出色的模型质量,这是只依靠其他数据并行方法无法大规模实现的。

通用框架

Lausen 表示:“NeMo 的灵活性支持亚马逊云科技根据新的 Titan 模型、数据集和基础设施的具体情况来定制训练软件。

亚马逊云科技的创新成果包括从 Amazon Simple Storage Service(Amazon S3)到 GPU 集群的高效流式传输。Lausen 表示:“由于 NeMo 本身就是基于标准化 LLM 训练管线组件的常用程序库(如 PyTorch Lightning)所构建的,因此整合这些改进很容易。”

亚马逊云科技和 NVIDIA 的共同目标是将双方的合作经验融入到 NVIDIA NeMo 等产品和 Amazon Titan 等服务中,最终造福客户。

GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行,线上大会也将同期开放。扫描下方海报二维码,立即注册 GTC 大会


原文标题:NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4044

    浏览量

    97709

原文标题:NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA ACE现已支持开源Qwen3-8B小语言模型

    助力打造实时、动态的 NPC 游戏角色,NVIDIA ACE 现已支持开源 Qwen3-8B 小语言模型(SLM),可实现 PC 游戏中的本地部署。
    的头像 发表于 10-29 16:59 1032次阅读

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    本帖欲分享在Ubuntu20.04系统中训练神经网络模型的一些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2训练框架,目标是
    发表于 10-22 07:03

    NVIDIA开源Audio2Face模型及SDK

    NVIDIA 现已开源 Audio2Face 模型与 SDK,让所有游戏和 3D 应用开发者都可以构建并部署带有先进动画的高精度角色。NVIDIA 开源 Audio2Face 的训练
    的头像 发表于 10-21 11:11 557次阅读
    <b class='flag-5'>NVIDIA</b>开源Audio2Face<b class='flag-5'>模型</b>及SDK

    借助NVIDIA Megatron-Core大模型训练框架提高显存使用效率

    随着模型规模迈入百亿、千亿甚至万亿参数级别,如何在有限显存中“塞下”训练任务,对研发和运维团队都是巨大挑战。NVIDIA Megatron-Core 作为流行的大模型
    的头像 发表于 10-21 10:55 812次阅读
    借助<b class='flag-5'>NVIDIA</b> Megatron-Core大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>框架提高显存使用效率

    亚马逊云科技现已上线OpenAI开放权重模型

    开放权重模型,向数百万亚马逊云科技客户开放。 客户可利用这些全新开放权重模型的先进推理能力,支持Agentic工作流、代码生成、科学分析和数学问题求解等应用。 开放权重
    的头像 发表于 08-06 19:29 684次阅读

    NVIDIA Dynamo新增对亚马逊云科技服务的支持

    亚马逊云科技 (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2 上使用 NVIDIA Dynamo,包括由 NVIDIA Blackwe
    的头像 发表于 07-28 14:31 786次阅读
    <b class='flag-5'>NVIDIA</b> Dynamo新增对<b class='flag-5'>亚马逊</b>云科技服务的<b class='flag-5'>支持</b>

    NVIDIA GTC巴黎亮点:全新Cosmos Predict-2世界基础模型与CARLA集成加速智能汽车训练

    。这种向使用大模型的过渡大大增加了对用于训练、测试和验证的高质量、基于物理学传感器数据的需求。 加速下一代辅助驾驶架构的开发,NVIDIA 发布了 
    的头像 发表于 06-12 10:00 940次阅读

    恩智浦eIQ Time Series Studio工具使用教程之模型训练

    大家好,eIQ Time SeriesStudio又和大家见面啦!本章大家带来工具核心部分-模型训练
    的头像 发表于 03-25 15:25 1442次阅读
    恩智浦eIQ Time Series Studio工具使用教程之<b class='flag-5'>模型</b><b class='flag-5'>训练</b>

    英伟达GTC2025亮点 NVIDIA推出Cosmos世界基础模型和物理AI数据工具的重大更新

    推理模型,让开发者以前所未有的方式控制世界生成。 NVIDIA 还推出了两款由 NVIDIA Omniverse 和 Cosmos 平台提供支持
    的头像 发表于 03-20 19:01 1186次阅读

    从Open Model Zoo下载的FastSeg大型公共预训练模型,无法导入名称是怎么回事?

    从 Open Model Zoo 下载的 FastSeg 大型公共预训练模型。 运行 converter.py 以将 FastSeg 大型模型转换为中间表示 (IR): pyth
    发表于 03-05 07:22

    小白学大模型训练大语言模型的深度指南

    4000次的实验。这些实验动用了多达512个GPU(图形处理单元),它们协同工作,模型训练提供了强大的计算支持。在这项研究中,研究人员特别
    的头像 发表于 03-03 11:51 1216次阅读
    小白学大<b class='flag-5'>模型</b>:<b class='flag-5'>训练</b>大语言<b class='flag-5'>模型</b>的深度指南

    Evo 2 AI模型可通过NVIDIA BioNeMo平台使用

    Evo 2 是一个强大的新型 AI 模型,它基于亚马逊云科技(AWS)上的 NVIDIA DGX Cloud 构建而成,能够帮助用户深入了解不同物种的 DNA、RNA 和蛋白质。
    的头像 发表于 02-28 09:57 1253次阅读

    英伟达发布Nemotron-CC大型AI训练数据库

    ,Nemotron-CC数据库总计包含了惊人的6.3万亿个Token,其中1.9万亿精心合成的数据。这一庞大的数据量不仅为AI模型训练提供了丰富的素材,更为学术界和企业界在探索大语
    的头像 发表于 01-14 14:14 797次阅读

    NVIDIA推出面向RTX AI PC的AI基础模型

    NVIDIA 今日发布能在 NVIDIA RTX AI PC 本地运行的基础模型数字人、内容创作、生产力和开发提供强大助力。
    的头像 发表于 01-08 11:01 881次阅读

    亚马逊转向Trainium芯片,全力投入AI模型训练

    亚马逊AWS推出了两款芯片:Inferentia和Trainium。其中,Inferentia主要用于AI推理,而Trainium则专注于AI模型训练。 然而,随着生成式AI技术的不断发展,这两者在
    的头像 发表于 12-13 14:14 971次阅读