0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Triton推理服务器简化人工智能推理

星星科技指导员 来源:NVIDIA 作者:Uttara Kumar 2022-04-08 16:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能的快速发展正在推高数据集的规模,以及网络的规模和复杂性。支持人工智能的应用程序,如电子商务产品推荐、基于语音的助手和呼叫中心自动化,需要数十到数百个经过培训的人工智能模型。推理服务帮助基础设施管理人员部署、管理和扩展这些模型,并在生产中保证实时服务质量( QoS )。此外,基础架构经理希望提供和管理用于部署这些 AI 模型的正确计算基础架构,最大限度地利用计算资源,灵活地放大或缩小规模,以优化部署的运营成本。将人工智能投入生产既是一项推理服务,也是一项基础设施管理挑战。

NVIDIA 与谷歌云合作,将 CPUGPU 通用推理服务平台 NVIDIA Triton Inference Server的功能与谷歌 Kubernetes 引擎( GKE )相结合,使企业更容易将人工智能投入生产。NVIDIA Triton Inference Server 是一个托管环境,用于在安全的谷歌基础设施中部署、扩展和管理容器化人工智能应用程序。

使用 NVIDIA Triton 推理服务器在谷歌云上的 CPU 和 GPU 上提供推理服务

在企业应用程序中操作 AI 模型带来了许多挑战——为在多个框架中培训的模型提供服务,处理不同类型的推理查询类型,并构建一个能够跨 CPU 和 GPU 等多个部署平台进行优化的服务解决方案。

Triton 推理服务器通过提供一个单一的标准化推理平台来解决这些挑战,该平台可以从任何基于 TensorFlow 、TensorRT、 PyTorch 、 ONNX 运行时、 OpenVINO 或自定义 C ++/ Python 框架的本地存储或谷歌云的托管存储在任何基于 GPU 或 CPU 的基础设施上部署经过培训的 AI 模型。

图 1 Triton 部署在 Google Kubernetes 引擎( GKE )上的推理服务器

在 GKE 集群上一键部署 NVIDIA Triton 推理服务器

Google Kubernetes Engine ( GKE )上的 Triton 为部署在 CPU 和 GPU 上的 AI 模型提供了通用推理服务平台,并结合了 Kubernetes 群集管理、负载平衡和基于需求的自动缩放计算的方便性。

使用谷歌市场上新的一键式 Triton GKE 推理服务器应用程序,可以将 Triton 无缝部署为 Google Kubernetes Engine ( GKE )管理的集群上的容器化微服务。

GKE 的 Triton 推理服务器应用程序是一个 helm chart 部署程序,可自动安装和配置 Triton ,以便在具有 NVIDIA GPU 节点池的 GKE 集群上使用,包括 NVIDIA A100 Tensor Core GPU s 和 NVIDIA T4 Tensor Core GPU s ,并利用谷歌云上的 Istio 进行流量进入和负载平衡。它还包括一个水平 pod autoscaler ( HPA ),它依赖堆栈驱动程序自定义度量适配器来监控 GPU 占空比,并根据推理查询和 SLA 要求自动缩放 GKE 集群中的 GPU 节点。

关于作者

Uttara Kumar 是 NVIDIA 的高级产品营销经理,专注于 GPU - 云计算中的人工智能加速应用。她非常关心让每个人都能获得技术的民主化,让开发者能够利用 NVIDIA 数据中心平台的力量来加快创新步伐。在 NVIDIA 之前,她领导半导体和科学计算软件公司的软件产品营销。她拥有安娜堡密歇根大学的 Eel CTR 工程硕士学位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11218

    浏览量

    222974
  • 服务器
    +关注

    关注

    13

    文章

    10095

    浏览量

    90899
  • 人工智能
    +关注

    关注

    1813

    文章

    49746

    浏览量

    261602
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何在NVIDIA Jetson AGX Thor上通过Docker高效部署vLLM推理服务

    继系统安装与环境配置后,本期我们将继续带大家深入 NVIDIA Jetson AGX Thor 的开发教程之旅,了解如何在 Jetson AGX Thor 上,通过 Docker 高效部署 vLLM 推理服务
    的头像 发表于 11-13 14:08 3091次阅读
    如何在<b class='flag-5'>NVIDIA</b> Jetson AGX Thor上通过Docker高效部署vLLM<b class='flag-5'>推理</b><b class='flag-5'>服务</b>

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实
    的头像 发表于 10-21 11:04 770次阅读

    Lambda采用Supermicro NVIDIA Blackwell GPU服务器集群构建人工智能工厂

    大批量 Supermicro GPU 优化服务器(包括基于 NVIDIA Blackwell 的系统),以扩展其人工智能基础设施并向客户交付高性能计算系统。此次合作于今年 6 月率先在俄亥俄州哥伦布市的 Cologix COL4
    的头像 发表于 08-30 16:55 626次阅读

    NVIDIA Nemotron Nano 2推理模型发布

    NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的头像 发表于 08-27 12:45 1404次阅读
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型发布

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力,融合了自然语言处理(NLP)、深度
    发表于 07-16 15:29

    大模型推理显存和计算量估计方法研究

    随着人工智能技术的飞速发展,深度学习大模型在各个领域得到了广泛应用。然而,大模型的推理过程对显存和计算资源的需求较高,给实际应用带来了挑战。为了解决这一问题,本文将探讨大模型推理显存和计算量的估计
    发表于 07-03 19:43

    ai服务器是什么?与普通服务器有什么区别

    AI服务器并非简单的硬件堆砌,而是专门为人工智能任务设计的高性能计算系统。其核心目标是高效处理海量数据并行计算(如矩阵乘法、模型推理),并针对AI工作负载(如深度学习训练、大模型推理
    的头像 发表于 06-24 16:39 2959次阅读

    AI 推理服务器都有什么?2025年服务器品牌排行TOP10与选购技巧

    根据行业数据,AI推理服务器的性能差异可以达到10倍以上。比如,用普通服务器跑一个700亿参数的大模型,可能需要30秒才能出结果,而用顶级服务器可能只需要3秒。这就是为什么选对
    的头像 发表于 04-09 11:06 7378次阅读
    AI <b class='flag-5'>推理</b><b class='flag-5'>服务器</b>都有什么?2025年<b class='flag-5'>服务器</b>品牌排行TOP10与选购技巧

    推理服务器的7大可靠性指标,宽温/抗震/EMC防护实测数据分享

    在 AIoT 设备突破百亿级的今天,边缘计算推理服务器已成为智能时代的 "神经末梢"。根据 Gartner 预测,到 2025 年将有 75% 的企业关键任务部署在边缘端。然而,工业级应用场景(如
    的头像 发表于 04-02 10:43 843次阅读
    <b class='flag-5'>推理</b><b class='flag-5'>服务器</b>的7大可靠性指标,宽温/抗震/EMC防护实测数据分享

    国产推理服务器如何选择?深度解析选型指南与华颉科技实战案例

    人工智能技术的爆发催生了对推理算力的迫切需求,而进口服务器的高成本与技术依赖性,推动了国产推理服务器的快速发展。据IDC预测,到2025年,
    的头像 发表于 03-24 17:11 944次阅读
    国产<b class='flag-5'>推理</b><b class='flag-5'>服务器</b>如何选择?深度解析选型指南与华颉科技实战案例

    英伟达GTC25亮点:NVIDIA Dynamo开源库加速并扩展AI推理模型

    Triton 推理服务器的后续产品,NVIDIA Dynamo 是一款全新的 AI 推理服务
    的头像 发表于 03-20 15:03 1077次阅读

    浪潮信息发布元脑R1推理服务器

    近日,浪潮信息正式推出了其创新的元脑R1推理服务器。这款服务器通过系统的创新与软硬件的协同优化,实现了对DeepSeek R1 671B模型的单机部署与运行,为客户在智能应用部署方面带
    的头像 发表于 02-17 10:32 1040次阅读

    使用NVIDIA推理平台提高AI推理性能

    NVIDIA推理平台提高了 AI 推理性能,为零售、电信等行业节省了数百万美元。
    的头像 发表于 02-08 09:59 1332次阅读
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平台提高AI<b class='flag-5'>推理</b>性能

    摩尔线程宣布成功部署DeepSeek蒸馏模型推理服务

    近日,摩尔线程智能科技(北京)有限责任公司在其官方渠道发布了一则重要消息,宣布公司已经成功实现了对DeepSeek蒸馏模型推理服务的部署。这一技术突破,标志着摩尔线程在人工智能领域迈出
    的头像 发表于 02-06 13:49 1185次阅读

    Triton编译在机器学习中的应用

    1. Triton编译概述 Triton编译NVIDIA Triton
    的头像 发表于 12-24 18:13 1634次阅读