0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Dynamo新增对亚马逊云科技服务的支持

NVIDIA英伟达 来源:NVIDIA英伟达 2025-07-28 14:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

亚马逊云科技 (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2 上使用NVIDIA Dynamo,包括由 NVIDIA Blackwell 加速的 Amazon EC2 P6,并添加了对 Amazon Simple Storage (S3) 的支持,此外还有与 Amazon Elastic Kubernetes Services (EKS) 和 AWS Elastic Fabric Adapter (EFA) 的现有集成。此次更新将大规模部署大语言模型 (LLM) 的性能、可扩展性和成本效益提升到了新的水平。

NVIDIA Dynamo 扩展并服务于生成式 AI

NVIDIA Dynamo 是专为大规模分布式环境打造的开源推理服务框架。它支持所有主流推理框架,例如 PyTorch、SGLang、TensorRT-LLM 和 vLLM,并包含高级优化功能,例如:

分离服务:在不同的 GPU 上分离预填充和解码推理阶段,以提高吞吐量。

LLM 感知路由:通过路由请求,以更大限度地提高 KV 缓存命中率,并避免重复计算成本。

KV 缓存卸载:将 KV 缓存卸载至经济高效的内存层级中,以降低推理成本。

这些功能使 NVIDIA Dynamo 能够为大规模多节点的 LLM 部署提供出色的推理性能和成本效益。

与亚马逊云科技服务无缝集成

对于在 AWS 云上部署 LLM 的 AWS 开发者和解决方案架构师,Dynamo 将无缝集成到您现有的推理架构中:

Amazon S3:Dynamo NIXL 现在支持 Amazon S3,这是一种对象存储服务,可提供几乎无限的可扩展性、高性能和低成本。

计算 KV 缓存需要大量资源且成本高昂。通常会重复使用缓存值而不是重新计算。但是,随着 AI 工作负载的增长,重用所需的 KV 缓存量可能会迅速超过 GPU 甚至主机显存。通过将 KV 缓存卸载到 S3,开发者可以释放宝贵的 GPU 显存来处理新请求。这种集成减轻了开发者构建自定义插件的负担,使他们能够将 KV 缓存无缝卸载到 S3,从而降低总体推理成本。

Amazon EKS:Dynamo 在 Amazon EKS 上运行,这是一种完全托管的 Kubernetes 服务,使开发者能够运行和扩展容器化应用程序,而无需管理 Kubernetes 基础设施。

随着 LLM 的规模和复杂性不断增加,生产环境中的推理部署现在需要高级组件,例如可感知 LLM 的请求路由、分离服务和 KV 缓存卸载。这些紧密集成的组件增加了在 Kubernetes 环境中部署的复杂性。借助这种支持,开发者可以将 Dynamo 无缝部署到由 EKS 管理的 Kubernetes 集群中,使他们能够按需快速启动新的 Dynamo 副本,以处理推理工作负载的突发增长。

3f3b9ffe-6878-11f0-a6aa-92fbcf53809c.jpg

图 1:使用 Amazon EKS 的 AWS 部署架构上的 Dynamo

AWS Elastic Fabric Adapter (EFA):Dynamo 的 NIXL 数据传输库支持 Amazon 的 EFA,这是一个在 Amazon EC2 实例之间提供低延迟节点间通信的网络接口

随着 LLM 规模的扩大并采用稀疏混合专家模型架构,跨多个 GPU 进行分片可在保持低延迟的同时提高吞吐量。在这些部署中,针对在 AWS 上运行的工作负载,使用 EFA 跨 GPU 节点传输推理数据。借助 Dynamo 的 EFA 支持,开发者可以通过 NIXL 的前端 API 使用简单的 get、push 和 delete 命令,在节点之间轻松移动 KV 缓存。这样一来,无需自定义插件即可访问 Dynamo 的高级功能(如分离服务),加速 AI 应用的生产时间。

在 Blackwell 驱动的 Amazon P6 实例上

使用 Dynamo 优化推理

Dynamo 与任何 NVIDIA GPU 加速的亚马逊云科技实例兼容,但与由 Blackwell 提供支持的 Amazon EC2 P6 实例搭配使用时,可显著提升部署 DeepSeek R1 和最新 Llama 4 等高级逻辑推理模型时的性能。Dynamo 通过管理预填充和解码自动缩放以及速率匹配等关键任务,简化并自动处理分离 MoE 模型的复杂部署流程。

同时,Amazon P6-B200 实例具有第五代 Tensor Core、FP4 加速和 2 倍于上一代的 NVIDIA NVLink 带宽,而由 NVIDIA提供支持的 P6e-GB200 Ultra 服务器具有独特的扩展架构,可提供 130 TBps 的聚合全互联带宽,旨在加速混合专家模型 (MoE) 部署中广泛采用的专家并行解码操作所需的密集型通信模式。Dynamo 和 P6 驱动的 Blackwell 实例相结合,可提高 GPU 利用率,提高每美元的请求吞吐量,并推动生产级 AI 工作负载的利润可持续增长。

开始使用 NVIDIA Dynamo

深化 Dynamo 与亚马逊云科技的集成可帮助开发者无缝扩展其推理工作负载。

NVIDIA Dynamo 可在任何 NVIDIA GPU 加速的亚马逊云科技实例上运行。部署 NVIDIA Dynamo,即刻开始优化推理堆栈:https://github.com/ai-dynamo/dynamo。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5510

    浏览量

    109155
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5110

    浏览量

    134512
  • 亚马逊
    +关注

    关注

    8

    文章

    2725

    浏览量

    85466
  • kubernetes
    +关注

    关注

    0

    文章

    256

    浏览量

    9425

原文标题:NVIDIA Dynamo 新增对亚马逊云科技服务的支持,可大规模提供经济高效的推理

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    亚马逊科技推出Amazon Quick Suite,引领Agentic AI驱动的工作新范式

    与内网)、主流应用(如Salesforce与Slack)、亚马逊科技服务(如Amazon S3与Amazon Redshift)在内的多种数据源,并通过MCP集成接入超过
    的头像 发表于 10-10 14:50 485次阅读

    亚马逊科技现已上线OpenAI开放权重模型

    客户现可通过Amazon Bedrock和Amazon SageMaker AI使用OpenAI开放权重模型,实现将先进的开放权重模型与全球最广泛服务的深度集成。 亚马逊科技首次上
    的头像 发表于 08-06 19:29 692次阅读

    亚马逊科技在2025纽约峰会发布多项AI agent创新

    七大核心服务,帮助企业大规模、安全部署与运行AI agents 亚马逊科技Marketplace新增多项产品,助力企业发现、采购并部署领先的AI agents和工具 向
    的头像 发表于 07-17 16:06 717次阅读
    <b class='flag-5'>亚马逊</b><b class='flag-5'>云</b>科技在2025纽约峰会发布多项AI agent创新

    英伟达GTC25亮点:NVIDIA Dynamo开源库加速并扩展AI推理模型

    Triton 推理服务器的后续产品,NVIDIA Dynamo 是一款全新的 AI 推理服务软件,旨在为部署推理 AI 模型的 AI 工厂最大化其 token 收益。它协调并加速数千
    的头像 发表于 03-20 15:03 1090次阅读

    亚马逊科技Marketplace(中国区)正式支持专业服务产品

    北京 ——2025 年 2 月 28 日 亚马逊科技宣布,由西数据运营的亚马逊科技Marketplace(中国区)正式
    发表于 02-28 13:42 334次阅读

    科技获亚马逊科技生成式AI能力认证

    近日,管理服务提供商聚科技成功获得亚马逊科技生成式AI能力认证。此次认证标志着聚科技在利
    的头像 发表于 02-19 10:33 845次阅读

    科技荣获亚马逊科技生成式AI能力认证

    助力企业加速生成式AI应用落地 北京2025年2月14日 /美通社/ -- 管理服务提供商聚科技获得亚马逊科技生成式AI能力认证,利用
    的头像 发表于 02-14 16:07 711次阅读

    科技荣获亚马逊科技生成式AI能力认证 助力企业加速生成式AI应用落地

    北京 ——2025 年 2 月 14 日 管理服务提供商聚科技获得亚马逊科技生成式AI能力认证,利用
    发表于 02-14 13:41 331次阅读

    HERE携手亚马逊科技创新AI地图解决方案,加速软件定义汽车发展

    HERE与亚马逊科技签订长达十年、价值十亿美元的基础设施合作协议,为全球汽车、交通、物流和移动出行公司提供AI驱动的实时流地图和位置服务支持
    的头像 发表于 01-15 15:33 672次阅读

    晶泰科技携手亚马逊科技加速药物发现

    和机器人等前沿技术,致力于推动生命科学、化学与新材料领域的创新发展。通过与亚马逊科技的深度合作,晶泰科技将能够进一步提升其技术实力和服务水平。 在亚马逊
    的头像 发表于 01-03 11:35 904次阅读

    美的携手亚马逊科技,提升全球客户体验

    字化转型方面的卓越实力,也彰显了亚马逊科技在全球业务扩展中的强大支持。通过Amazon Connect,美的得以构建一个高效、便捷的客户服务平台,为全球用户提供无缝、一致的
    的头像 发表于 12-24 11:48 901次阅读

    Grab选定亚马逊科技为首选服务

    合作标志着Grab正加速实施其以技术为核心的发展战略。借助亚马逊科技的强大能力,Grab期望在出行、配送以及金融服务等多个垂直领域实现业务的快速增长。特别是随着Grab在金融服务领域
    的头像 发表于 12-24 10:22 736次阅读

    PingCAP携手亚马逊科技,加速全球业务拓展

    近日,在2024年亚马逊科技re:Invent全球大会上,一项重要合作得以宣布:数据库即服务(DBaaS)产品TiDB Cloud的领先开发商PingCAP,正式选择亚马逊
    的头像 发表于 12-23 15:05 863次阅读

    超级应用程序Grab选择亚马逊科技为首选服务

    亚马逊科技为首选服务商。借助亚马逊科技,Grab正在实施以技术为核心的发展战略,旨在推动其
    的头像 发表于 12-19 15:31 870次阅读

    PingCAP选择亚马逊科技为首选服务商 加速全球业务拓展

    北京2024年12月18日 /美通社/ -- 亚马逊科技在2024 re:Invent全球大会上宣布,数据库即服务(DBaaS)产品TiDB Cloud的开发商PingCAP选择亚马逊
    的头像 发表于 12-18 17:42 826次阅读