0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

NVIDIA英伟达企业解决方案 来源:未知 2023-11-29 21:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文将介绍亚马逊如何使用 NVIDIA NeMo 框架、GPU

以及亚马逊云科技的 EFA 来训练其

最大的新一代大语言模型(LLM)。

wKgZomVnOoKAIrzWAACT_z650WI921.png

大语言模型的一切都很庞大——巨型模型是在数千颗 NVIDIA GPU 和海量的数据集上所训练而成。

不过这可能会给想要使用生成式 AI 的企业带来很多巨大的挑战。NVIDIA NeMo(一个用于构建、自定义和运行 LLM 的框架)能够帮助企业克服上述挑战。

亚马逊云科技(AWS)有一支由资深科学家和开发者组成的团队,致力于为 Amazon Bedrock(一项用于基础模型的生成式 AI 服务)创建 Amazon Titan 基础模型。该团队在过去几个月中一直在使用 NVIDIA NeMo。

亚马逊云科技高级应用科学家 Leonard Lausen 表示:“我们使用 NeMo 的一大原因是它具有可扩展性,其优化功能使我们能够以较高的 GPU 利用率运行,同时能够扩展到更大的集群,进而能够更快地训练出模型,并向客户交付。”

实现真正的大规模训练

NeMo 的并行技术可实现高效的大规模 LLM 训练。当与亚马逊云科技的 Elastic Fabric Adapter(EFA)配合使用时,团队可以将 LLM 扩展到多颗 GPU 上,从而加快训练速度。

EFA 为亚马逊云科技客户提供了一个 UltraCluster 联网基础设施,可直接连接 1 万多颗 GPU,并使用 NVIDIA GPUDirect 绕过操作系统CPU

这一结合使亚马逊云科技的科学家们能够提供出色的模型质量,这是只依靠其他数据并行方法无法大规模实现的。

通用框架

Lausen 表示:“NeMo 的灵活性支持亚马逊云科技根据新的 Titan 模型、数据集和基础设施的具体情况来定制训练软件。

亚马逊云科技的创新成果包括从 Amazon Simple Storage Service(Amazon S3)到 GPU 集群的高效流式传输。Lausen 表示:“由于 NeMo 本身就是基于标准化 LLM 训练管线组件的常用程序库(如 PyTorch Lightning)所构建的,因此整合这些改进很容易。”

亚马逊云科技和 NVIDIA 的共同目标是将双方的合作经验融入到 NVIDIA NeMo 等产品和 Amazon Titan 等服务中,最终造福客户。

GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行,线上大会也将同期开放。扫描下方海报二维码,立即注册 GTC 大会


原文标题:NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4116

    浏览量

    99634

原文标题:NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA亚马逊云科技深化合作伙伴关系

    NVIDIA亚马逊云科技 (AWS) 扩展双方合作,增强在 AWS 平台上的由 NVIDIA 驱动的数据处理能力,并增加对 NVIDIA Nemotron 开放
    的头像 发表于 03-23 15:17 457次阅读

    【瑞萨AI挑战赛】手写数字识别模型在RA8P1 Titan Board上的部署

    最终的板端部署与运行,完整实现手写数字识别模型的端侧落地,嵌入式AI开发提供可参考的实践方案。 一、RA8P1 Titan Board开发板硬件资源 RA8P1
    发表于 03-15 20:42

    NVIDIA推出代理式AI蓝图与电信推理模型

    借助全新开源大型电信模型NVIDIA Blueprint,电信运营商能够利用自有数据训练 AI 智能体,构建自主网络。
    的头像 发表于 03-06 17:37 3078次阅读

    NVIDIA DGX SuperPODRubin平台横向扩展提供蓝图

    NVIDIA DGX Rubin 系统整合了 NVIDIA 在计算、网络和软件领域的最新突破,将推理 token 成本降至 NVIDIA Blackwell 平台的十分之一,可加速从推理和训练
    的头像 发表于 01-14 09:14 851次阅读

    NVIDIA DLSS 4.54K 240Hz路径追踪游戏体验提供强劲支持

    DLSS 技术持续进步,超分辨率升级,并引入基于第二代 Transformer AI 模型的 6 倍动态多帧生成。RTX 加速 ComfyUI、LTX-2 和 Llama.cpp 等顶级主流 AI 工具带来重大升级,RTX Remix 和
    的头像 发表于 01-09 10:28 721次阅读

    NVIDIA ACE现已支持开源Qwen3-8B小语言模型

    助力打造实时、动态的 NPC 游戏角色,NVIDIA ACE 现已支持开源 Qwen3-8B 小语言模型(SLM),可实现 PC 游戏中的本地部署。
    的头像 发表于 10-29 16:59 1424次阅读

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    本帖欲分享在Ubuntu20.04系统中训练神经网络模型的一些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2训练框架,目标是
    发表于 10-22 07:03

    NVIDIA开源Audio2Face模型及SDK

    NVIDIA 现已开源 Audio2Face 模型与 SDK,让所有游戏和 3D 应用开发者都可以构建并部署带有先进动画的高精度角色。NVIDIA 开源 Audio2Face 的训练
    的头像 发表于 10-21 11:11 1023次阅读
    <b class='flag-5'>NVIDIA</b>开源Audio2Face<b class='flag-5'>模型</b>及SDK

    借助NVIDIA Megatron-Core大模型训练框架提高显存使用效率

    随着模型规模迈入百亿、千亿甚至万亿参数级别,如何在有限显存中“塞下”训练任务,对研发和运维团队都是巨大挑战。NVIDIA Megatron-Core 作为流行的大模型
    的头像 发表于 10-21 10:55 1404次阅读
    借助<b class='flag-5'>NVIDIA</b> Megatron-Core大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>框架提高显存使用效率

    英特尔Gaudi 2E AI加速器DeepSeek-V3.1提供加速支持

    英特尔® Gaudi 2EAI加速器现已为DeepSeek-V3.1提供深度优化支持。凭借出色的性能和成本效益,英特尔Gaudi 2E以更低的投入、更高的效率,实现从模型训练的深度突破
    的头像 发表于 08-26 19:18 3315次阅读
    英特尔Gaudi 2E AI加速器<b class='flag-5'>为</b>DeepSeek-V3.1<b class='flag-5'>提供</b>加速<b class='flag-5'>支持</b>

    Votee AI借助NVIDIA技术加速方言小语种LLM开发

    了精准的方言及小语种大语言模型 (LLM)。此举成功解决了数据稀缺、语言复杂及计算效率等挑战,全球数以百万计、缺乏数字化资源的语言使用者提供了技术支持
    的头像 发表于 08-20 14:21 1030次阅读

    亚马逊云科技现已上线OpenAI开放权重模型

    开放权重模型,向数百万亚马逊云科技客户开放。 客户可利用这些全新开放权重模型的先进推理能力,支持Agentic工作流、代码生成、科学分析和数学问题求解等应用。 开放权重
    的头像 发表于 08-06 19:29 959次阅读

    利用NVIDIA Cosmos模型训练通用机器人

    机器人领域的一大核心挑战在于如何让机器人掌握新任务,而无需针对每个新任务和环境耗费大量精力收集和标注数据集。NVIDIA 的最新研究方案通过生成式 AI、世界基础模型(如 NVIDIA Cosmos
    的头像 发表于 08-05 16:22 2259次阅读
    利用<b class='flag-5'>NVIDIA</b> Cosmos<b class='flag-5'>模型</b><b class='flag-5'>训练</b>通用机器人

    NVIDIA Dynamo新增对亚马逊云科技服务的支持

    亚马逊云科技 (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2 上使用 NVIDIA Dynamo,包括由 NVIDIA Blackwe
    的头像 发表于 07-28 14:31 1133次阅读
    <b class='flag-5'>NVIDIA</b> Dynamo新增对<b class='flag-5'>亚马逊</b>云科技服务的<b class='flag-5'>支持</b>

    NVIDIA GTC巴黎亮点:全新Cosmos Predict-2世界基础模型与CARLA集成加速智能汽车训练

    。这种向使用大模型的过渡大大增加了对用于训练、测试和验证的高质量、基于物理学传感器数据的需求。 加速下一代辅助驾驶架构的开发,NVIDIA 发布了 
    的头像 发表于 06-12 10:00 1227次阅读