0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Dynamo新增对亚马逊云科技服务的支持

NVIDIA英伟达 来源:NVIDIA英伟达 2025-07-28 14:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

亚马逊云科技 (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2 上使用NVIDIA Dynamo,包括由 NVIDIA Blackwell 加速的 Amazon EC2 P6,并添加了对 Amazon Simple Storage (S3) 的支持,此外还有与 Amazon Elastic Kubernetes Services (EKS) 和 AWS Elastic Fabric Adapter (EFA) 的现有集成。此次更新将大规模部署大语言模型 (LLM) 的性能、可扩展性和成本效益提升到了新的水平。

NVIDIA Dynamo 扩展并服务于生成式 AI

NVIDIA Dynamo 是专为大规模分布式环境打造的开源推理服务框架。它支持所有主流推理框架,例如 PyTorch、SGLang、TensorRT-LLM 和 vLLM,并包含高级优化功能,例如:

分离服务:在不同的 GPU 上分离预填充和解码推理阶段,以提高吞吐量。

LLM 感知路由:通过路由请求,以更大限度地提高 KV 缓存命中率,并避免重复计算成本。

KV 缓存卸载:将 KV 缓存卸载至经济高效的内存层级中,以降低推理成本。

这些功能使 NVIDIA Dynamo 能够为大规模多节点的 LLM 部署提供出色的推理性能和成本效益。

与亚马逊云科技服务无缝集成

对于在 AWS 云上部署 LLM 的 AWS 开发者和解决方案架构师,Dynamo 将无缝集成到您现有的推理架构中:

Amazon S3:Dynamo NIXL 现在支持 Amazon S3,这是一种对象存储服务,可提供几乎无限的可扩展性、高性能和低成本。

计算 KV 缓存需要大量资源且成本高昂。通常会重复使用缓存值而不是重新计算。但是,随着 AI 工作负载的增长,重用所需的 KV 缓存量可能会迅速超过 GPU 甚至主机显存。通过将 KV 缓存卸载到 S3,开发者可以释放宝贵的 GPU 显存来处理新请求。这种集成减轻了开发者构建自定义插件的负担,使他们能够将 KV 缓存无缝卸载到 S3,从而降低总体推理成本。

Amazon EKS:Dynamo 在 Amazon EKS 上运行,这是一种完全托管的 Kubernetes 服务,使开发者能够运行和扩展容器化应用程序,而无需管理 Kubernetes 基础设施。

随着 LLM 的规模和复杂性不断增加,生产环境中的推理部署现在需要高级组件,例如可感知 LLM 的请求路由、分离服务和 KV 缓存卸载。这些紧密集成的组件增加了在 Kubernetes 环境中部署的复杂性。借助这种支持,开发者可以将 Dynamo 无缝部署到由 EKS 管理的 Kubernetes 集群中,使他们能够按需快速启动新的 Dynamo 副本,以处理推理工作负载的突发增长。

3f3b9ffe-6878-11f0-a6aa-92fbcf53809c.jpg

图 1:使用 Amazon EKS 的 AWS 部署架构上的 Dynamo

AWS Elastic Fabric Adapter (EFA):Dynamo 的 NIXL 数据传输库支持 Amazon 的 EFA,这是一个在 Amazon EC2 实例之间提供低延迟节点间通信的网络接口

随着 LLM 规模的扩大并采用稀疏混合专家模型架构,跨多个 GPU 进行分片可在保持低延迟的同时提高吞吐量。在这些部署中,针对在 AWS 上运行的工作负载,使用 EFA 跨 GPU 节点传输推理数据。借助 Dynamo 的 EFA 支持,开发者可以通过 NIXL 的前端 API 使用简单的 get、push 和 delete 命令,在节点之间轻松移动 KV 缓存。这样一来,无需自定义插件即可访问 Dynamo 的高级功能(如分离服务),加速 AI 应用的生产时间。

在 Blackwell 驱动的 Amazon P6 实例上

使用 Dynamo 优化推理

Dynamo 与任何 NVIDIA GPU 加速的亚马逊云科技实例兼容,但与由 Blackwell 提供支持的 Amazon EC2 P6 实例搭配使用时,可显著提升部署 DeepSeek R1 和最新 Llama 4 等高级逻辑推理模型时的性能。Dynamo 通过管理预填充和解码自动缩放以及速率匹配等关键任务,简化并自动处理分离 MoE 模型的复杂部署流程。

同时,Amazon P6-B200 实例具有第五代 Tensor Core、FP4 加速和 2 倍于上一代的 NVIDIA NVLink 带宽,而由 NVIDIA提供支持的 P6e-GB200 Ultra 服务器具有独特的扩展架构,可提供 130 TBps 的聚合全互联带宽,旨在加速混合专家模型 (MoE) 部署中广泛采用的专家并行解码操作所需的密集型通信模式。Dynamo 和 P6 驱动的 Blackwell 实例相结合,可提高 GPU 利用率,提高每美元的请求吞吐量,并推动生产级 AI 工作负载的利润可持续增长。

开始使用 NVIDIA Dynamo

深化 Dynamo 与亚马逊云科技的集成可帮助开发者无缝扩展其推理工作负载。

NVIDIA Dynamo 可在任何 NVIDIA GPU 加速的亚马逊云科技实例上运行。部署 NVIDIA Dynamo,即刻开始优化推理堆栈:https://github.com/ai-dynamo/dynamo。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5694

    浏览量

    110119
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5272

    浏览量

    136072
  • 亚马逊
    +关注

    关注

    8

    文章

    2736

    浏览量

    85890
  • kubernetes
    +关注

    关注

    0

    文章

    275

    浏览量

    9536

原文标题:NVIDIA Dynamo 新增对亚马逊云科技服务的支持,可大规模提供经济高效的推理

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    易点天下选择亚马逊科技 以Agentic AI驱动营销智能化升级

    北京——2026年 4 月 9 日 行业领先的企业国际化智能营销服务商易点天下选择亚马逊科技,应用亚马逊科技创新的Agent平台Amaz
    的头像 发表于 04-09 16:15 355次阅读

    NVIDIA亚马逊科技深化合作伙伴关系

    NVIDIA亚马逊科技 (AWS) 扩展双方合作,增强在 AWS 平台上的由 NVIDIA 驱动的数据处理能力,并增加对 NVIDIA
    的头像 发表于 03-23 15:17 456次阅读

    Proteintech选择亚马逊科技为首选服务商,构建行业首个AI抗体助手加速科研创新

    商,基于亚马逊科技的计算、容器、数据库和分析等计算服务,仅历时六个月成功构建业内首款AI抗体助手Able,可为全球科研人员提供精准、高效的产品信息与技术
    的头像 发表于 01-05 11:14 581次阅读

    亚马逊科技扩展模型选择 Amazon Bedrock新增18款开放权重模型

    亚马逊科技在2025 re:Invent全球大会上宣布在Amazon Bedrock中新增18款开放权重模型,进一步强化其提供广泛全托管模型选择的承诺。Amazon Bedrock使客户能够
    的头像 发表于 12-13 13:53 891次阅读

    NVIDIA和AWS扩展全栈合作伙伴关系

    亚马逊科技(AWS)将 NVIDIA NVLink Fusion 集成到其定制芯片中,包括新一代 Tranium4 芯片、Graviton 和 AWS Nitro System。
    的头像 发表于 12-13 09:20 1122次阅读

    破局全球化IT挑战:中宇联以亚马逊科技服务赋能制造行业数字化转型

    +AI”服务平台,为企业客户提供从架构设计、迁移实施、智能运维到持续优化的端到端管理服务。近年来,中宇联积极拓展与全球计算领袖
    的头像 发表于 11-13 10:35 663次阅读

    亚马逊科技推出Amazon Quick Suite,引领Agentic AI驱动的工作新范式

    与内网)、主流应用(如Salesforce与Slack)、亚马逊科技服务(如Amazon S3与Amazon Redshift)在内的多种数据源,并通过MCP集成接入超过
    的头像 发表于 10-10 14:50 1036次阅读

    Dynamo 0.4在NVIDIA Blackwell上通过PD分离将性能提升4倍

    近期,OpenAI 的 gpt-oss、月之暗面的 Kimi K2 等多个新的前沿开源模型相继问世,标志着大语言模型 (LLM) 创新浪潮的加速。近日发布的 Dynamo 0.4 提供了一系列新功能
    的头像 发表于 08-22 15:59 1642次阅读
    <b class='flag-5'>Dynamo</b> 0.4在<b class='flag-5'>NVIDIA</b> Blackwell上通过PD分离将性能提升4倍

    亚马逊科技现已上线OpenAI开放权重模型

    客户现可通过Amazon Bedrock和Amazon SageMaker AI使用OpenAI开放权重模型,实现将先进的开放权重模型与全球最广泛服务的深度集成。 亚马逊科技首次上
    的头像 发表于 08-06 19:29 959次阅读

    亚马逊科技在2025纽约峰会发布多项AI agent创新

    七大核心服务,帮助企业大规模、安全部署与运行AI agents 亚马逊科技Marketplace新增多项产品,助力企业发现、采购并部署领先的AI agents和工具 向
    的头像 发表于 07-17 16:06 966次阅读
    <b class='flag-5'>亚马逊</b><b class='flag-5'>云</b>科技在2025纽约峰会发布多项AI agent创新

    NVIDIA计划打造全球首个工业AI平台

    NVIDIA 宣布,其正在为欧洲制造商构建全球首个工业 AI 。这家总部位于德国的 AI 工厂将配备 1 万个 GPU,包括通过 NVIDIA DGX B200 系统 和 NVIDIA
    的头像 发表于 06-16 14:17 1625次阅读

    Dify携手亚马逊科技加速全球企业生成式AI应用规模化落地

    简单易用的AI应用开发平台Dify通过深度集成亚马逊科技的生成式AI技术与服务,在保障性能、合规与全球交付的基础上,显著降低企业在生成式AI应用开发中的技术门槛和部署成本。此外,依
    的头像 发表于 06-07 16:00 1019次阅读

    2025 NVIDIA创业企业展示澳门站圆满收官

    2025 技术精华解读、亚马逊科技 AI Agent 智能化应用分享、圆桌讨论和项目路演、大企业对接、以及第三届 NVIDIA DPU 中国黑客松竞赛启动等环节。本次活动由澳门永利渡假村、创赛创新中心联合主办,
    的头像 发表于 05-29 14:12 1055次阅读

    亚马逊科技与伦敦证券交易所集团扩展多年合作关系

    )业务部门的首选服务提供商。此次协议的签署标志着双方现有合作伙伴关系的进一步深化。   通过将内部系统迁移至亚马逊科技,伦敦证券交易所集团将进一步提升其运营的韧性和安全性,并在此基
    发表于 05-07 14:00 520次阅读

    亚马逊科技新增北京本地专用区域 与四维图新深化合作赋能汽车智能化

    上海 ——2025 年 4 月 23 日 在2025亚马逊科技汽车行业峰会期间,亚马逊科技宣布,由光环新网运营的北京本地专用区域(Local Zones)正式可用,可以
    发表于 04-29 14:20 835次阅读