0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA Triton推理服务器来加速AI预测

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-02-29 14:04 次阅读

这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。

作为一名狂热的自行车爱好者,Thomas Park 深知拥有多个变速档位对于平稳、快速骑行的重要性。

因此,当这位软件架构师为 Oracle Cloud Infrastructure(OCI)的视觉 AI 服务设计 AI 推理平台时,他选择了 NVIDIA Triton 推理服务器,因为它可以通过变换“档位”,来快速高效地处理几乎任何 AI 模型、框架、硬件和运行模式。

Park 表示:“NVIDIA AI推理平台为我们的全球云服务客户带来了巨大的灵活性,让他们可以构建和运行 AI 应用。”Park 是一位在苏黎世工作的计算机工程师,同时也是一名富有竞争力的自行车手,他曾先后就职于四家全球超大型云服务提供商。

具体而言,Triton 将 OCI 的总拥有成本降低了 10%、将迁移到 Triton 的 OCI 视觉和文档理解服务模型的预测吞吐量提高了 76%,并将推理延迟降低了 51%。Park 和一位同事在今年早些时候发布的一篇 Oracle 博客中指出,全球有超过 45 个区域数据中心在运行这些服务。

计算机视觉加速深入洞察

依靠 OCI 视觉 AI,客户可以进行各种物体检测和图像分类工作。例如,美国的一家运输公司利用它来自动检测经过的车轴数,以计算和结算过桥费,从而节省了忙碌的卡车司机在收费站的等待时间。

OCI AI 还通过 Oracle NetSuite 提供,Oracle NetSuite 是全球 37,000 多个企业组织使用的一套商业应用程序,它可以用于自动识别发票等工作。

在 Park 的努力下,Triton 如今也被其他 OCI 服务所采用。

能够识别 Triton 的数据服务

负责处理 Oracle 内外部用户机器学习事务的 OCI 数据科学服务产品管理总监 Tzvi Keisar 表示:“我们的 AI 平台能够识别 Triton,以造福于我们的客户。”

Keisar 提到:“想要使用 Triton 的客户不必担心配置问题,因为平台会自动完成配置,为他们启动一个 Triton 驱动的推理终端节点。”

Triton 包含在 NVIDIA AI Enterprise 中,该平台可提供企业所需的全方位的安全和支持,并且可以在 OCI Marketplace 上获得

一个庞大的 SaaS 平台

OCI 的数据科学服务是一个适用于 Oracle NetSuite 和 Oracle Fusion 应用程序的机器学习平台。

“这些商业应用套件规模庞大,有数以万计的客户也在我们的服务上构建他们的框架。”Keisar 说。

这些客户主要是来自于制造业、零售业、交通运输业等行业的企业用户。他们正在构建和使用几乎所有形态与规模的 AI 模型。

推理是该团队推出的首批服务之一,而 Triton 在推出后不久就进入了该团队的视线。

最佳的推理框架

“我们看到 Triton 作为一流的服务框架越来越受欢迎,于是开始试用。”Keisar 说,“我们发现它的性能非常出色,弥补了现有产品的不足,尤其是在多模型推理方面。它是目前功能最全面、最先进的推理框架。”

Triton 于 3 月在 OCI 上发布,已经吸引了 Oracle 许多内部团队的关注。他们希望将其用于需要同时运行多个 AI 模型以作出预测的推理工作。

他表示:“当用于部署在单个端点上的多个模型时,Triton 的表现和性能都非常好。”

加快未来发展

展望未来,复杂的大语言模型(LLM)激发了众多用户的想象力。为了能够在未来为这些模型上的推理提供更强大的助力,Keisar 的团队正在对 NVIDIA TensorRT-LLM 软件进行评估。

身为一名活跃的博主,Keisar 在其最新文章中详细介绍了在 NVIDIA A10 Tensor Core GPU 上运行具有高达 700 亿参数的 Llama 2 LLM 的量化技术。

他表示:“即使减低到四位参数,模型输出的质量仍然相当不错。在 NVIDIA GPU 上的部署使我们能够灵活地在延迟、吞吐量和成本之间找到良好的平衡点。”




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4592

    浏览量

    101713
  • 计算机视觉
    +关注

    关注

    8

    文章

    1600

    浏览量

    45616
  • LLM
    LLM
    +关注

    关注

    0

    文章

    201

    浏览量

    233

原文标题:名不虚传:NVIDIA Triton 加速 Oracle Cloud 上的推理

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将
    的头像 发表于 04-20 09:39 158次阅读

    台积电:AI服务器处理器预计翻番,拉动收入增长 

    台积电将 AI 服务器处理器严格限定为用于 AI 训练与推理的 GPU、CPU 及 AI 加速
    的头像 发表于 04-19 15:04 93次阅读

    NVIDIA和谷歌云宣布开展一项新的合作,加速AI开发

    NVIDIA 和谷歌云宣布开展一项新的合作,以帮助全球初创企业加速创建生成式 AI 应用和服务
    的头像 发表于 04-11 14:03 161次阅读

    利用NVIDIA产品技术组合提升用户体验

    本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型,并借助NVIDIA Triton推理
    的头像 发表于 01-17 09:30 368次阅读

    周四研讨会预告 | 注册报名 NVIDIA AI Inference Day - 大模型推理线上研讨会

    ,使用 NVIDIA Triton TM  推理服务器进行端到端部署 LLM Serving,以及金融行业的 AI、NLP/LLM 应用场景
    的头像 发表于 10-26 09:05 193次阅读

    全球领先系统制造商推出 NVIDIA AI 就绪型服务器,为企业大幅提升生成式 AI 性能

    戴尔科技、慧与和联想即将推出采用 NVIDIA L40S GPU 和 NVIDIA BlueField 的服务器,以支持 VMware Private AI Foundation
    的头像 发表于 08-23 19:10 376次阅读

    《开放加速规范AI服务器设计指南》发布,应对生成式AI算力挑战

    北京2023年8月11日 /美通社/ -- 8月10日,在2023年开放计算社区中国峰会(OCP China Day 2023)上,《开放加速规范AI服务器设计指南》(以下简称《指南》)发布。《指南
    的头像 发表于 08-14 09:49 511次阅读

    SIGGRAPH 2023 | NVIDIA 与全球数据中心系统制造商大力推动 AI 与工业数字化的发展

    OVX 服务器采用全新 NVIDIA GPU 以加速训练和推理以及图形密集型工作负载,将通过戴尔科技、慧与、联想、超微等公司提供。 洛杉矶 — SIGGRAPH — 太平洋时间 202
    的头像 发表于 08-09 19:10 284次阅读

    cdn加速国外服务器(国外云服务器

    cdn加速国外服务器:是指通过在全球分布的服务器上缓存国外服务器的内容,使用户能够快速访问国外服务器上的内容。CDN通过将内容分发到离用户最
    的头像 发表于 08-02 14:32 573次阅读

    大模型算力新选择——宝德AI服务器采用8颗英特尔Gaudi®2加速

    要的战略合作伙伴和中国AI服务器市场的TOP3.宝德计算积极携手英特尔,推出了支持8颗Gaudi®2加速器的AI加速计算
    的头像 发表于 07-19 14:43 494次阅读

    浪潮信息联合英特尔发布新一代AI服务器NF5698G7

    浪潮信息联合英特尔发布面向生成式AI领域创新开发的新一代AI服务器NF5698G7。该AI服务器支持8颗OAM高速互联的Gaudi2
    的头像 发表于 07-13 09:43 420次阅读

    如何使用NVIDIA Triton 推理服务器来运行推理管道

    使用集成模型在 NVIDIA Triton 推理服务器上为 ML 模型管道提供服务
    的头像 发表于 07-05 16:30 1158次阅读
    如何使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b> <b class='flag-5'>推理</b><b class='flag-5'>服务器</b>来运行<b class='flag-5'>推理</b>管道

    NVIDIA GPU 加速 WPS Office AI 服务,助力打造优质的用户体验

    案例介绍 金山办公与 NVIDIA 团队合作,通过 NVIDIA Tensor Core GPU、TensorRT 提升图像文档识别与理解的推理效率;借助 NVIDIA
    的头像 发表于 06-29 21:35 394次阅读
    <b class='flag-5'>NVIDIA</b> GPU <b class='flag-5'>加速</b> WPS Office <b class='flag-5'>AI</b> <b class='flag-5'>服务</b>,助力打造优质的用户体验

    AI服务器与传统服务器的区别是什么?

    AI 服务器确实是整个服务器市场的一部分,但它们是专门为基于云的 AI 模型训练或推理而设计的。在规格方面,广义的
    发表于 06-21 12:40 1320次阅读

    NVIDIA 招聘 | NVIDIA 最新热招岗位!一起迎接未来加速计算!

    NVIDIA 计算架构团队和  NVIDIA 计算专家团队正在热招! 如果你对加速计算领域充满热情,并且希望与优秀的技术专家一起合作,那么这个机会将是你展现才华的优质平台,快来 加入
    的头像 发表于 06-14 18:35 660次阅读