NVIDIA Triton助力腾讯构建高性能推理服务-电子发烧友网

藉由 NVIDIAT4 GPU，通过 Ronda 平台调用 NVIDIA Triton 以及 TensorRT ，整体提升开发和推理效能，帮助腾讯 PCG 的多个服务整体效能提升 2 倍，吞吐量最大提升 6 倍，同时降低了 40% 的延时。

腾讯平台与内容事业群（简称腾讯 PCG）负责公司互联网平台和内容文化生态融合发展，整合 QQ、QQ 空间等社交平台，和应用宝、浏览器等流量平台，以及新闻资讯、视频、体育、直播、动漫、影业等内容业务，推动 IP 跨平台、多形态发展，为更多用户创造海量的优质数字内容体验。

腾讯 PCG 机器学习平台部旨在构建和持续优化符合 PCG 技术中台战略的机器学习平台和系统，提升 PCG 机器学习技术应用效率和价值。建设业务领先的模型训练系统和算法框架；提供涵盖数据标注、模型训练、评测、上线的全流程平台服务，实现高效率迭代；在内容理解和处理领域，输出业界领先的元能力和智能策略库。机器学习平台部正服务于 PCG 所有业务产品。

而过往在项目执行时，团队所面挑战包含：

1. 业务繁多，场景复杂

业务开发语言包括C++/Python

模型格式繁多，包括ONNX、Pytorch、TensorFlow、TensorRT等

模型预处理涉及图片下载等网络IO

多模型融合流程比教复杂，涉及循环调用

支持异构推理

2. 模型推理结果异常时，难以方便地调试定位问题

3. 需要与公司内现有协议/框架/平台进行融合

基于以上挑战，腾讯 PCG 选择了采用 NVIDIA Triton 推理服务器，以解决新场景下模型推理引擎面临的挑战，在提升用户研效的同时，大幅降低了服务成本。

NVIDIA Triton 是一款开源软件，对于所有推理模式都可以简化模型在任一框架中以及任何 GPU 或 CPU 上的运行方式，从而在生产环境中使用 AI。Triton 支持多模型 ensemble，以及 TensorFlow、PyTorch、ONNX 等多种深度学习模型框架，可以很好的支持多模型联合推理的场景，构建起视频、图片、语音、文本整个推理服务过程，大大降低多个模型服务的开发和维护成本。

基于 C++ 的基础架构、Dynamic-batch、以及对 TensorRT 的支持，同时配合 T4 的 GPU，将整体推理服务的吞吐能力最大提升 6 倍，延迟最大降低 40%，既满足了业务的低延时需求，成本也降低了 20%-66%。

通过将 Triton 编译为动态链接库，可以方便地链入公司内部框架，对接公司的平台治理体系。符合 C 语言规范的 API 也极大降低了用户的接入成本。

借助 Python Backend 和 Custom Backend，用户可以自由选择使用 C++/Python 语言进行二次开发。

Triton 的 Tracing 能力可以方便地捕捉执行过程中的数据流状态。结合 Metrics 和 Perf Analysis 等组件，可以快速定位开发调试，甚至是线上问题，对于开发和定位问题的效率有很大提升。

NVIDIA DALI 是 GPU 加速的数据增强和图像加载库。DALI Backend 可以用于替换掉原来的图片解码、resize 等操作。FIL Backend 也可以替代 Python XGBoost 模型推理，进一步提升服务端推理性能。

借助 NVIDIA Triton 推理框架，配合 DALI/FIL/Python 等 Backend，以及 TensorRT，整体推理服务的吞吐能力最大提升 6 倍，延迟最大降低 40%。帮助腾讯 PCG 各业务场景中，以更低的成本构建了高性能的推理服务，同时更低的延迟降低了整条系统链路的响应时间，优化了用户体验。

审核编辑：彭菁

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
6515

浏览量
87629
NVIDIA

NVIDIA

+关注

关注
14

文章
4598

浏览量
101780
腾讯

腾讯

+关注

关注
7

文章
1620

浏览量
49164

利用NVIDIA组件提升GPU推理的吞吐

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）将推理的稠密网络和热

发表于 04-20 09:39 •176次阅读

使用NVIDIA Triton推理服务器来加速AI预测

这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。

发表于 02-29 14:04 •224次阅读

利用NVIDIA产品技术组合提升用户体验

本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型，并借助NVIDIA Triton推理服务器在

发表于 01-17 09:30 •373次阅读

Torch TensorRT是一个优化PyTorch模型推理性能的工具

那么，什么是Torch TensorRT呢？Torch是我们大家聚在一起的原因，它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torch TensorRT就是这两者的结合。

发表于 01-09 16:41 •404次阅读

Torch TensorRT是一个优化PyTorch模型<b class='flag-5'>推理性能</b>的工具

腾讯云与 IBM 共同打造“高性能计算服务解决方案”

在今天的“人工智能时代”，与 AI 技术并驾齐驱的是服务于 AI 算法训练及推理的“高性能计算”HPC 技术。HPC 并行工作处理器集群能以高于商用系统百万倍以上的速度运行，强有力地对海量多维数据

发表于 12-22 18:55 •333次阅读

<b class='flag-5'>腾讯</b>云与 IBM 共同打造“<b class='flag-5'>高性能</b>计算<b class='flag-5'>服务</b>解决方案”

什么是Triton-shared？Triton-shared的安装和使用

经过前面几章关于triton在nv gpu上调优的讲解，我们这章开始来看看triton的一个third_party库，该库是为了让triton去支持更多其他的backend。该项目的地址如下所示

发表于 12-19 09:47 •468次阅读

什么是<b class='flag-5'>Triton</b>-shared？<b class='flag-5'>Triton</b>-shared的安装和使用

Triton编译器的原理和性能

Triton是一种用于编写高效自定义深度学习原语的语言和编译器。Triton的目的是提供一个开源环境，以比CUDA更高的生产力编写快速代码，但也比其他现有DSL具有更大的灵活性。Triton已被采用

发表于 12-16 11:22 •1084次阅读

<b class='flag-5'>Triton</b>编译器的原理和<b class='flag-5'>性能</b>

创新企业云福利：腾讯云 × NVIDIA 初创加速计划

助力生成式 AI、大模型训练与推理、自动驾驶、图像处理等场景初创企业加速成长，最高获赠 10 万元扶持基金、NVIDIA 深度学习培训中心（DLI）优惠课程，以及免费的 GPU 技术支持。腾

发表于 11-13 20:40 •387次阅读

周四研讨会预告 | 注册报名 NVIDIA AI Inference Day - 大模型推理线上研讨会

，使用 NVIDIA Triton TM 推理服务器进行端到端部署 LLM Serving，以及金融行业的 AI、NLP/LLM 应用场景、客户案例。通过本次活动，您将了解基于上述

发表于 10-26 09:05 •200次阅读

NVIDIA Grace Hopper超级芯片横扫MLPerf推理基准测试

平台无论是在云端还是网络边缘均展现出卓越的性能和通用性。此外，NVIDIA宣布推出全新推理软件，该软件将为用户带来性能、能效和总体拥有成本的大幅提升。 GH200 超级芯

发表于 09-13 09:45 •169次阅读

NVIDIA Grace Hopper 超级芯片横扫 MLPerf 推理基准测试

平台无论是在云端还是网络边缘均展现出卓越的性能和通用性。此外，NVIDIA 宣布推出全新推理软件，该软件将为用户带来性能、能效和总体拥有成本的大幅提升。 GH200 超级芯片在

发表于 09-12 20:40 •281次阅读

如何使用NVIDIA Triton 推理服务器来运行推理管道

使用集成模型在 NVIDIA Triton 推理服务器上为 ML 模型管道提供服务

发表于 07-05 16:30 •1172次阅读

Fujitsu、NVIDIA、AMD和Intel高性能处理器架构分析

商用高性能计算处理器市场主要被NVIDIA、AMD和Intel3家公司长期占据,在面向E级计算的高性能处理器中,AMD 最新的Instinct MI250X处理器双精度浮点运算

发表于 06-30 09:49 •663次阅读

NVIDIA GPU 加速 WPS Office AI 服务，助力打造优质的用户体验

案例介绍金山办公与 NVIDIA 团队合作，通过 NVIDIA Tensor Core GPU、TensorRT 提升图像文档识别与理解的推理效率；借助 NVIDIA

发表于 06-29 21:35 •397次阅读

如何使用triton的language api来实现gemm的算子

前言通过前两章对于triton的简单介绍，相信大家已经能够通过从源码来安装triton，同时通过triton提供的language前端写出自己想要的一些计算密集型算子。这章开始，我们通过构建

发表于 05-29 14:34 •1114次阅读