0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Triton助力腾讯构建高性能推理服务

科技绿洲 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-04-10 10:08 次阅读

藉由 NVIDIAT4 GPU,通过 Ronda 平台调用 NVIDIA Triton 以及 TensorRT ,整体提升开发和推理效能,帮助腾讯 PCG 的多个服务整体效能提升 2 倍,吞吐量最大提升 6 倍,同时降低了 40% 的延时。

腾讯平台与内容事业群(简称 腾讯 PCG)负责公司互联网平台和内容文化生态融合发展,整合 QQ、QQ 空间等社交平台,和应用宝、浏览器等流量平台,以及新闻资讯、视频、体育、直播、动漫、影业等内容业务,推动 IP 跨平台、多形态发展,为更多用户创造海量的优质数字内容体验。

腾讯 PCG 机器学习平台部旨在构建和持续优化符合 PCG 技术中台战略的机器学习平台和系统,提升 PCG 机器学习技术应用效率和价值。建设业务领先的模型训练系统和算法框架;提供涵盖数据标注、模型训练、评测、上线的全流程平台服务,实现高效率迭代;在内容理解和处理领域,输出业界领先的元能力和智能策略库。机器学习平台部正服务于 PCG 所有业务产品

而过往在项目执行时,团队所面挑战包含:

1. 业务繁多,场景复杂

业务开发语言包括C++/Python

模型格式繁多,包括ONNX、Pytorch、TensorFlow、TensorRT等

模型预处理涉及图片下载网络IO

多模型融合流程比教复杂,涉及循环调用

支持异构推理

2. 模型推理结果异常时,难以方便地调试定位问题

3. 需要与公司内现有协议/框架/平台进行融合

基于以上挑战,腾讯 PCG 选择了采用 NVIDIA Triton 推理服务器,以解决新场景下模型推理引擎面临的挑战,在提升用户研效的同时,大幅降低了服务成本。

NVIDIA Triton 是一款开源软件,对于所有推理模式都可以简化模型在任一框架中以及任何 GPU 或 CPU 上的运行方式,从而在生产环境中使用 AI。Triton 支持多模型 ensemble,以及 TensorFlow、PyTorch、ONNX 等多种深度学习模型框架,可以很好的支持多模型联合推理的场景,构建起视频、图片、语音、文本整个推理服务过程,大大降低多个模型服务的开发和维护成本。

基于 C++ 的基础架构、Dynamic-batch、以及对 TensorRT 的支持,同时配合 T4 的 GPU,将整体推理服务的吞吐能力最大提升 6 倍,延迟最大降低 40%,既满足了业务的低延时需求,成本也降低了 20%-66%。

通过将 Triton 编译为动态链接库,可以方便地链入公司内部框架,对接公司的平台治理体系。符合 C 语言规范的 API 也极大降低了用户的接入成本。

借助 Python Backend 和 Custom Backend,用户可以自由选择使用 C++/Python 语言进行二次开发。

Triton 的 Tracing 能力可以方便地捕捉执行过程中的数据流状态。结合 Metrics 和 Perf Analysis 等组件,可以快速定位开发调试,甚至是线上问题,对于开发和定位问题的效率有很大提升。

NVIDIA DALI 是 GPU 加速的数据增强和图像加载库。DALI Backend 可以用于替换掉原来的图片解码、resize 等操作。FIL Backend 也可以替代 Python XGBoost 模型推理,进一步提升服务端推理性能。

借助 NVIDIA Triton 推理框架,配合 DALI/FIL/Python 等 Backend,以及 TensorRT,整体推理服务的吞吐能力最大提升 6 倍,延迟最大降低 40%。帮助腾讯 PCG 各业务场景中,以更低的成本构建了高性能的推理服务,同时更低的延迟降低了整条系统链路的响应时间,优化了用户体验。

审核编辑:彭菁
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6515

    浏览量

    87629
  • NVIDIA
    +关注

    关注

    14

    文章

    4598

    浏览量

    101780
  • 腾讯
    +关注

    关注

    7

    文章

    1620

    浏览量

    49164
收藏 人收藏

    评论

    相关推荐

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热
    的头像 发表于 04-20 09:39 176次阅读

    使用NVIDIA Triton推理服务器来加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。
    的头像 发表于 02-29 14:04 224次阅读

    利用NVIDIA产品技术组合提升用户体验

    本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型,并借助NVIDIA Triton推理服务器在
    的头像 发表于 01-17 09:30 373次阅读

    Torch TensorRT是一个优化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我们大家聚在一起的原因,它是一个端到端的机器学习框架。而TensorRT则是NVIDIA高性能深度学习推理软件工具包。Torch TensorRT就是这两者的结合。
    的头像 发表于 01-09 16:41 404次阅读
    Torch TensorRT是一个优化PyTorch模型<b class='flag-5'>推理性能</b>的工具

    腾讯云与 IBM 共同打造“高性能计算服务解决方案”

    在今天的“人工智能时代”,与 AI 技术并驾齐驱的是服务于 AI 算法训练及推理的“高性能计算”HPC 技术。HPC 并行工作处理器集群能以高于商用系统百万倍以上的速度运行,强有力地对海量多维数据
    的头像 发表于 12-22 18:55 333次阅读
    <b class='flag-5'>腾讯</b>云与 IBM 共同打造“<b class='flag-5'>高性能</b>计算<b class='flag-5'>服务</b>解决方案”

    什么是Triton-shared?Triton-shared的安装和使用

    经过前面几章关于triton在nv gpu上调优的讲解,我们这章开始来看看triton的一个third_party库,该库是为了让triton去支持更多其他的backend。该项目的地址如下所示
    的头像 发表于 12-19 09:47 468次阅读
    什么是<b class='flag-5'>Triton</b>-shared?<b class='flag-5'>Triton</b>-shared的安装和使用

    Triton编译器的原理和性能

    Triton是一种用于编写高效自定义深度学习原语的语言和编译器。Triton的目的是提供一个开源环境,以比CUDA更高的生产力编写快速代码,但也比其他现有DSL具有更大的灵活性。Triton已被采用
    的头像 发表于 12-16 11:22 1084次阅读
    <b class='flag-5'>Triton</b>编译器的原理和<b class='flag-5'>性能</b>

    创新企业云福利:腾讯云 × NVIDIA 初创加速计划

    助力生成式 AI、大模型训练与推理、自动驾驶、图像处理等场景初创企业加速成长,最高获赠 10 万元扶持基金、NVIDIA 深度学习培训中心(DLI)优惠课程,以及免费的 GPU 技术支持。
    的头像 发表于 11-13 20:40 387次阅读
    创新企业云福利:<b class='flag-5'>腾讯</b>云 × <b class='flag-5'>NVIDIA</b> 初创加速计划

    周四研讨会预告 | 注册报名 NVIDIA AI Inference Day - 大模型推理线上研讨会

    ,使用 NVIDIA Triton TM  推理服务器进行端到端部署 LLM Serving,以及金融行业的 AI、NLP/LLM 应用场景、客户案例。 通过本次活动,您将了解基于上述
    的头像 发表于 10-26 09:05 200次阅读

    NVIDIA Grace Hopper超级芯片横扫MLPerf推理基准测试

    平台无论是在云端还是网络边缘均展现出卓越的性能和通用性。   此外,NVIDIA宣布推出全新推理软件,该软件将为用户带来性能、能效和总体拥有成本的大幅提升。   GH200 超级芯
    发表于 09-13 09:45 169次阅读
    <b class='flag-5'>NVIDIA</b> Grace Hopper超级芯片横扫MLPerf<b class='flag-5'>推理</b>基准测试

    NVIDIA Grace Hopper 超级芯片横扫 MLPerf 推理基准测试

    平台无论是在云端还是网络边缘均展现出卓越的性能和通用性。 此外,NVIDIA 宣布推出全新推理软件,该软件将为用户带来性能、能效和总体拥有成本的大幅提升。 GH200 超级芯片在
    的头像 发表于 09-12 20:40 281次阅读

    如何使用NVIDIA Triton 推理服务器来运行推理管道

    使用集成模型在 NVIDIA Triton 推理服务器上为 ML 模型管道提供服务
    的头像 发表于 07-05 16:30 1172次阅读
    如何使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b> <b class='flag-5'>推理</b><b class='flag-5'>服务</b>器来运行<b class='flag-5'>推理</b>管道

    Fujitsu、NVIDIA、AMD和Intel高性能处理器架构分析

    商用高性能计算处理器市场主要被NVIDIA、AMD和Intel3家公司长期占据,在面向E级计算 的 高 性 能 处 理 器 中,AMD 最 新 的Instinct MI250X处理器双精度浮点运算
    发表于 06-30 09:49 663次阅读
    Fujitsu、<b class='flag-5'>NVIDIA</b>、AMD和Intel<b class='flag-5'>高性能</b>处理器架构分析

    NVIDIA GPU 加速 WPS Office AI 服务助力打造优质的用户体验

    案例介绍 金山办公与 NVIDIA 团队合作,通过 NVIDIA Tensor Core GPU、TensorRT 提升图像文档识别与理解的推理效率;借助 NVIDIA
    的头像 发表于 06-29 21:35 397次阅读
    <b class='flag-5'>NVIDIA</b> GPU 加速 WPS Office AI <b class='flag-5'>服务</b>,<b class='flag-5'>助力</b>打造优质的用户体验

    如何使用triton的language api来实现gemm的算子

    前言 通过前两章对于triton的简单介绍,相信大家已经能够通过从源码来安装triton,同时通过triton提供的language前端写出自己想要的一些计算密集型算子。这章开始,我们通过构建
    的头像 发表于 05-29 14:34 1114次阅读
    如何使用<b class='flag-5'>triton</b>的language api来实现gemm的算子