0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Triton助力腾讯PCG加速在线推理

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-05-20 15:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

案例简介

本案例中通过NVIDIA T4 GPU,通过Ronda平台调用Triton以及TensorRT, 整体提升开发和推理效能, 帮助腾讯PCG的多个服务整体效能提升2倍,吞吐量最大提升6倍,同时降低了40%的延时。本案例主要应用到 NVIDIA T4 GPU、TensorRT和Triton。

本案例主要应用到 NVIDIA T4 GPU、TensorRT和Triton。

客户简介及应用背景

腾讯平台与内容事业群(简称 腾讯PCG)负责公司互联网平台和内容文化生态融合发展,整合QQ、QQ空间等社交平台,和应用宝、浏览器等流量平台,以及新闻资讯、视频、体育、直播、动漫、影业等内容业务,推动IP跨平台、多形态发展,为更多用户创造海量的优质数字内容体验。

腾讯PCG机器学习平台部旨在构建和持续优化符合PCG技术中台战略的机器学习平台和系统,提升PCG机器学习技术应用效率和价值。建设业务领先的模型训练系统和算法框架;提供涵盖数据标注、模型训练、评测、上线的全流程平台服务,实现高效率迭代;在内容理解和处理领域,输出业界领先的元能力和智能策略库。机器学习平台部正服务于PCG所有业务产品。

客户挑战

业务繁多,场景复杂

业务开发语言包括C++/Python

模型格式繁多,包括ONNX、Pytorch、TensorFlow、TensorRT等

模型预处理涉及图片下载等网络io

多模型融合流程比教复杂,涉及循环调用

支持异构推理

模型推理结果异常时,难以方便地调试定位问题

需要与公司内现有协议/框架/平台进行融合

应用方案

基于以上挑战,腾讯PCG选择了采用NVIDIA 的Triton推理服务器,以解决新场景下模型推理引擎面临的挑战,在提升用户研效的同时,大幅降低了服务成本。

NVIDIA Triton 是一款开源软件,对于所有推理模式都可以简化模型在任一框架中以及任何 GPU 或 CPU 上的运行方式,从而在生产环境中使用 AI。Triton 支持多模型ensemble,以及 TensorFlow、PyTorch、ONNX 等多种深度学习模型框架,可以很好的支持多模型联合推理的场景,构建起视频、图片、语音、文本整个推理服务过程,大大降低多个模型服务的开发和维护成本。

基于C++ 的基础架构、Dynamic-batch、以及对 TensorRT 的支持,同时配合 T4 的 GPU,将整体推理服务的吞吐能力最大提升 6 倍,延迟最大降低 40%,既满足了业务的低延时需求,成本也降低了20%-66%。

通过将Triton编译为动态链接库,可以方便地链入公司内部框架,对接公司的平台治理体系。符合C语言规范的API也极大降低了用户的接入成本。

借助Python Backend和Custom Backend,用户可以自由选择使用C++/Python语言进行二次开发。

Triton的Tracing能力可以方便地捕捉执行过程中的数据流状态。结合Metrics 和 Perf Analysis等组件,可以快速定位开发调试,甚至是线上问题,对于开发和定位问题的效率有很大提升。

NVIDIA DALI 是 GPU 加速的数据增强和图像加载库。DALI Backend可以用于替换掉原来的图片解码、resize等操作。FIL Backend也可以替代Python XGBoost模型推理,进一步提升服务端推理性能。

方案效果及影响

借助NVIDIA Triton 推理框架,配合 DALI/FIL/Python 等Backend,以及 TensorRT,整体推理服务的吞吐能力最大提升 6 倍,延迟最大降低 40%。帮助腾讯PCG各业务场景中,以更低的成本构建了高性能的推理服务,同时更低的延迟降低了整条系统链路的响应时间,优化了用户体验。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5682

    浏览量

    110095
  • C++
    C++
    +关注

    关注

    22

    文章

    2124

    浏览量

    77353
  • python
    +关注

    关注

    58

    文章

    4882

    浏览量

    90289
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA加速计算平台助力从地球到太空的AI应用

    NVIDIA 今日宣布,其最新一代加速计算平台正在开启太空创新的新时代,将为轨道数据中心 (ODC)、地理空间信息收集以及自主太空运行提供 AI 算力。
    的头像 发表于 03-18 14:44 494次阅读

    NVIDIA推出BlueField-4 STX存储架构

    NVIDIA 今日宣布推出 NVIDIA BlueField-4® STX 模块化参考架构,该架构可助力企业、云计算及 AI 服务商轻松部署加速存储基础设施,以满足代理式 AI 所需的
    的头像 发表于 03-18 14:40 260次阅读

    NVIDIA DGX SuperPOD为Rubin平台横向扩展提供蓝图

    NVIDIA DGX Rubin 系统整合了 NVIDIA 在计算、网络和软件领域的最新突破,将推理 token 成本降至 NVIDIA Blackwell 平台的十分之一,可
    的头像 发表于 01-14 09:14 805次阅读

    NVIDIA 推出 Alpamayo 系列开源 AI 模型与工具,加速安全可靠的推理型辅助驾驶汽车开发

    新闻摘要 : l NVIDIA 率先发布为应对辅助驾驶长尾场景挑战而设计的开源视觉-语言-动作推理模型(Reasoning VLA);NVIDIA Alpamayo 系列还包含赋能辅助驾驶汽车开发
    的头像 发表于 01-06 09:40 505次阅读
    <b class='flag-5'>NVIDIA</b> 推出 Alpamayo 系列开源 AI 模型与工具,<b class='flag-5'>加速</b>安全可靠的<b class='flag-5'>推理</b>型辅助驾驶汽车开发

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实
    的头像 发表于 10-21 11:04 1385次阅读

    NVIDIA 利用全新开源模型与仿真库加速机器人研发进程

      由 NVIDIA、Google DeepMind 以及 Disney Research 联合开发的开源物理引擎 Newton,现可在 NVIDIA Isaac Lab 中使用。这一物理引擎将助力
    的头像 发表于 09-30 09:52 3196次阅读
    <b class='flag-5'>NVIDIA</b> 利用全新开源模型与仿真库<b class='flag-5'>加速</b>机器人研发进程

    什么是AI模型的推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的头像 发表于 09-23 15:19 1445次阅读

    ADI借助NVIDIA Jetson Thor平台加速人形机器人研发进程

    当前,人形机器人正逐步迈向实际应用部署阶段,其落地节奏取决于物理智能与实时推理能力的发展。随着NVIDIA Jetson Thor平台的正式面市,Analog Devices, Inc. (ADI)将进一步加速人形机器人与自主移
    的头像 发表于 08-29 14:07 3468次阅读

    NVIDIA Nemotron Nano 2推理模型发布

    NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的头像 发表于 08-27 12:45 1991次阅读
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型发布

    NVIDIA三台计算机解决方案如何协同助力机器人技术

    NVIDIA DGX、基于 NVIDIA RTX PRO 服务器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速从人形机器人到机器人工厂等基于物理 AI 的系统的开发,贯穿训练、仿真和
    的头像 发表于 08-27 11:48 2586次阅读

    NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

    的发布持续深化了双方的 AI 创新合作。NVIDIANVIDIA Blackwell 架构上优化了这两款全新的开放权重模型并实现了推理性能加速,在
    的头像 发表于 08-15 20:34 2474次阅读
    <b class='flag-5'>NVIDIA</b>从云到边缘<b class='flag-5'>加速</b>OpenAI gpt-oss模型部署,实现150万TPS<b class='flag-5'>推理</b>

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载

    NVIDIA RTX 与 NVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma 3n 现可借助 RTX 和 NVIDIA
    的头像 发表于 07-16 09:16 2156次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 2395次阅读

    大模型推理显存和计算量估计方法研究

    上进行了实验。实验结果表明,所提出的估计方法具有较高的准确性和实用性。 五、结论 本文针对大模型推理的显存和计算量估计问题,提出了基于模型结构和硬件加速的估计方法。实验结果表明,这些方法具有较高的准确性和实用性
    发表于 07-03 19:43

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Love
    的头像 发表于 06-12 15:37 2048次阅读
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS应用的最佳实践