0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA Triton推理服务器来加速AI预测

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-02-29 14:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。

作为一名狂热的自行车爱好者,Thomas Park 深知拥有多个变速档位对于平稳、快速骑行的重要性。

因此,当这位软件架构师为 Oracle Cloud Infrastructure(OCI)的视觉 AI 服务设计 AI 推理平台时,他选择了 NVIDIA Triton 推理服务器,因为它可以通过变换“档位”,来快速高效地处理几乎任何 AI 模型、框架、硬件和运行模式。

Park 表示:“NVIDIA AI推理平台为我们的全球云服务客户带来了巨大的灵活性,让他们可以构建和运行 AI 应用。”Park 是一位在苏黎世工作的计算机工程师,同时也是一名富有竞争力的自行车手,他曾先后就职于四家全球超大型云服务提供商。

具体而言,Triton 将 OCI 的总拥有成本降低了 10%、将迁移到 Triton 的 OCI 视觉和文档理解服务模型的预测吞吐量提高了 76%,并将推理延迟降低了 51%。Park 和一位同事在今年早些时候发布的一篇 Oracle 博客中指出,全球有超过 45 个区域数据中心在运行这些服务。

计算机视觉加速深入洞察

依靠 OCI 视觉 AI,客户可以进行各种物体检测和图像分类工作。例如,美国的一家运输公司利用它来自动检测经过的车轴数,以计算和结算过桥费,从而节省了忙碌的卡车司机在收费站的等待时间。

OCI AI 还通过 Oracle NetSuite 提供,Oracle NetSuite 是全球 37,000 多个企业组织使用的一套商业应用程序,它可以用于自动识别发票等工作。

在 Park 的努力下,Triton 如今也被其他 OCI 服务所采用。

能够识别 Triton 的数据服务

负责处理 Oracle 内外部用户机器学习事务的 OCI 数据科学服务产品管理总监 Tzvi Keisar 表示:“我们的 AI 平台能够识别 Triton,以造福于我们的客户。”

Keisar 提到:“想要使用 Triton 的客户不必担心配置问题,因为平台会自动完成配置,为他们启动一个 Triton 驱动的推理终端节点。”

Triton 包含在 NVIDIA AI Enterprise 中,该平台可提供企业所需的全方位的安全和支持,并且可以在 OCI Marketplace 上获得

一个庞大的 SaaS 平台

OCI 的数据科学服务是一个适用于 Oracle NetSuite 和 Oracle Fusion 应用程序的机器学习平台。

“这些商业应用套件规模庞大,有数以万计的客户也在我们的服务上构建他们的框架。”Keisar 说。

这些客户主要是来自于制造业、零售业、交通运输业等行业的企业用户。他们正在构建和使用几乎所有形态与规模的 AI 模型。

推理是该团队推出的首批服务之一,而 Triton 在推出后不久就进入了该团队的视线。

最佳的推理框架

“我们看到 Triton 作为一流的服务框架越来越受欢迎,于是开始试用。”Keisar 说,“我们发现它的性能非常出色,弥补了现有产品的不足,尤其是在多模型推理方面。它是目前功能最全面、最先进的推理框架。”

Triton 于 3 月在 OCI 上发布,已经吸引了 Oracle 许多内部团队的关注。他们希望将其用于需要同时运行多个 AI 模型以作出预测的推理工作。

他表示:“当用于部署在单个端点上的多个模型时,Triton 的表现和性能都非常好。”

加快未来发展

展望未来,复杂的大语言模型(LLM)激发了众多用户的想象力。为了能够在未来为这些模型上的推理提供更强大的助力,Keisar 的团队正在对 NVIDIA TensorRT-LLM 软件进行评估。

身为一名活跃的博主,Keisar 在其最新文章中详细介绍了在 NVIDIA A10 Tensor Core GPU 上运行具有高达 700 亿参数的 Llama 2 LLM 的量化技术。

他表示:“即使减低到四位参数,模型输出的质量仍然相当不错。在 NVIDIA GPU 上的部署使我们能够灵活地在延迟、吞吐量和成本之间找到良好的平衡点。”




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5692

    浏览量

    110118
  • 计算机视觉
    +关注

    关注

    9

    文章

    1715

    浏览量

    47723
  • LLM
    LLM
    +关注

    关注

    1

    文章

    350

    浏览量

    1394

原文标题:名不虚传:NVIDIA Triton 加速 Oracle Cloud 上的推理

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI基建加速服务器企业营收齐涨!液冷、高速交换机成布局重点

    规模提出了更高要求。   据TrendForce预测,2026年全球AI服务器出货量将同比增长28.3%,带动整体服务器市场增幅扩大至12.8%。为应对高功耗与能效挑战,以液冷为代表的
    的头像 发表于 04-14 09:03 7506次阅读
    <b class='flag-5'>AI</b>基建<b class='flag-5'>加速</b>,<b class='flag-5'>服务器</b>企业营收齐涨!液冷、高速交换机成布局重点

    服务器发展趋势:迎接数字时代新变革

    的迅猛发展对服务器性能提出了更高要求。AI训练和推理任务需要强大的并行计算能力,传统CPU架构已难以满足。因此,搭载GPU、TPU、FPGA等专用加速芯片的
    的头像 发表于 03-19 16:58 252次阅读
    <b class='flag-5'>服务器</b>发展趋势:迎接数字时代新变革

    Supermicro率先发布NVIDIA BlueField-4 STX存储服务器,提升AI推理性能

      Supermicro凭借其基于NVIDIA STX AI存储参考架构打造的上下文内存(CMX)存储服务器,进一步彰显其行业领先地位。 BlueField-4 STX存储服务器结合了
    的头像 发表于 03-19 15:46 182次阅读
    Supermicro率先发布<b class='flag-5'>NVIDIA</b> BlueField-4 STX存储<b class='flag-5'>服务器</b>,提升<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

    国产AI服务器核心工艺突破,高密度贴片良率创新高

    AI服务器贴片打样 是高性能计算硬件研发的关键前哨。作为承载AI训练与推理任务的硬件核心,AI服务器
    的头像 发表于 02-04 20:37 312次阅读
    国产<b class='flag-5'>AI</b><b class='flag-5'>服务器</b>核心工艺突破,高密度贴片良率创新高

    使用NORDIC AI的好处

    ; 自定义 Neuton 模型博客] Axon NPU :集成在 nRF54LM20B 等高端 SoC 中的专用 AI 加速器,对 TensorFlow Lite 模型可实现最高约 15× 推理
    发表于 01-31 23:16

    普通服务器电源与AI服务器电源的区别(上)

    引言服务器是数据中心的核心设备,其稳定运行依赖可靠的电源供应。随着AI技术的飞速发展,AI服务器大量涌现,与普通服务器在应用场景等方面存在显
    的头像 发表于 01-12 09:31 1417次阅读
    普通<b class='flag-5'>服务器</b>电源与<b class='flag-5'>AI</b><b class='flag-5'>服务器</b>电源的区别(上)

    液冷散热时代:AI服务器如何重构磁元件设计

    随着AI服务器功率密度的快速提升,传统的风冷散热方案在热管理方面逐渐面临挑战。在此背景下,液冷散热技术正加速应用于数据中心,特别是高算力的AI集群中。 这一散热方式的变革,并不仅仅是冷
    的头像 发表于 11-21 11:42 1106次阅读
    液冷散热时代:<b class='flag-5'>AI</b><b class='flag-5'>服务器</b>如何重构磁元件设计

    加速是如何隐藏源服务器ip的

    服务器IP是保护服务器的一项重要安全措施。 华纳云 为大家分享受一下内容: 隐藏源服务器IP的主要目的是防止恶意攻击者通过直接访问服务器IP地址
    的头像 发表于 09-12 16:31 806次阅读

    NVIDIA三台计算机解决方案如何协同助力机器人技术

    NVIDIA DGX、基于 NVIDIA RTX PRO 服务器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速从人形机器人到机器人工厂等基于
    的头像 发表于 08-27 11:48 2609次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
    发表于 07-16 15:29

    ai服务器是什么?与普通服务器有什么区别

    AI服务器并非简单的硬件堆砌,而是专门为人工智能任务设计的高性能计算系统。其核心目标是高效处理海量数据并行计算(如矩阵乘法、模型推理),并针对AI工作负载(如深度学习训练、大模型
    的头像 发表于 06-24 16:39 4956次阅读

    NVIDIA计划打造全球首个工业AI云平台

    NVIDIA 宣布,其正在为欧洲制造商构建全球首个工业 AI 云。这家总部位于德国的 AI 工厂将配备 1 万个 GPU,包括通过 NVIDIA DGX B200 系统 和
    的头像 发表于 06-16 14:17 1620次阅读

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Love
    的头像 发表于 06-12 15:37 2079次阅读
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS应用的最佳实践

    基于RAKsmart云服务器AI大模型实时推理方案设计

    面对高并发请求、严格的响应延迟要求及波动的业务负载,传统本地化部署的算力瓶颈愈发显著。RAKsmart云服务器凭借其弹性计算资源池、分布式网络架构与全栈AI加速能力,为AI大模型实时
    的头像 发表于 05-13 10:33 722次阅读

    RAKsmart服务器如何赋能AI开发与部署

    AI开发与部署的复杂性不仅体现在算法设计层面,更依赖于底层基础设施的支撑能力。RAKsmart服务器凭借其高性能硬件架构、灵活的资源调度能力以及面向AI场景的深度优化,正在成为企业突破算力瓶颈、
    的头像 发表于 04-30 09:22 956次阅读