NVIDIA TensorRT插件的全自动生成工具-电子发烧友网

NVIDIA TensorRT 是性能最优、应用最广的 GPU 推理框架，但用户常常因为不支持的算子而面临手写插件的痛点。为此，腾讯 TEG 与 NVIDIA 联合开发了一款能自动生成插件的工具：TensorRT Plugin Autogen Tool，简称 TPAT。它能支持几乎所有的 ONNX 算子，在节省人力成本的同时，性能对比手写插件也毫不逊色。

腾讯 TEG（技术工程团队）为腾讯各个团队提供技术与工程服务，日常任务是为各种产品提供工程设计与实现，以满足其他团队的业务需要。

随着 AI 应用的普及，腾讯 TEG 在深度学习模型的推理上也开始了技术积累。腾讯 TEG 选择了TensorRT作为 NVIDIA GPU 上推理应用的基础软件，开发了大量基于 TensorRT 的 AI 模型，并与 NVIDIA 展开了深入合作。

TensorRT 是一个由 NVIDIA 开发的用于推理的高性能 SDK，包含深度学习推理优化器和运行时环境，可以为深度学习推理应用提供低延迟和高吞吐量，这也是 TensorRT 相比其他框架最大的优势。

不过，TensorRT 也存在一定局限性，当现有模型的算子不能被 TensorRT 直接支持时，工程师不得不手写插件，比较耗时耗力。

腾讯 TEG 表示，手写插件往往是 TensorRT 模型开发中最耗时的一部分，其难点在于：

手写插件需要熟悉 TensorRT 插件的编程接口，需要学习 GPU 和 CUDA 相关知识。

新入门的工程师通常需要 1~2 周时间来编写一个算子实现，模型中如果包含多个不支持算子，就需要更多时间来逐个编写和调试。

如果有一种自动生成插件的工具，将极大地提高 TensorRT 模型开发的效率，于是腾讯 TEG 与 NVIDIA 开展了这方面的合作，历时数月，共同开发了TPAT（TensorRT Plugin Autogen Tool）。

TPAT 本质上是对 TensorRT 的功能扩展。它要解决的关键问题在于如下方面：

为了生成通用的插件，需要开发出 TensorRT 插件的代码模板。与此同时，需要提供部分插件的手工参考实现，用于比对计算结果与性能。这一部分由 NVIDIA 负责。

对于给定的具体算子，其 GPU 上的 CUDA kernel 需要一种自动生成机制。经腾讯 TEG 与 NVIDIA 协商，选择 ONNX 作为候选算子集合，在编写中间代码之后由 TVM 生成 CUDA kernel。这一部分由腾讯 TEG 负责。

在完成上述开发之后，腾讯 TEG 与 NVIDIA 进行联调，并后续同步进行版本迭代。

历经腾讯 TEG 与 NVIDIA 工程师的共同努力，TPAT 已正式发布 1.0 版本。它基于 TVM 和 ONNX，实现了 TensorRT 插件的全自动生成，使得 TensorRT 的部署和上线能基本流程化，不再需要人工参与。

另外，TPAT 全自动生成一个算子插件耗时仅需要 30-60 分钟的时间（该时间用于搜索算子的高性能 CUDA kernel），TensorRT 会因此成为一个真正端到端的推理框架。

TPAT 亮点:

覆盖度：几乎支持 ONNX 所有的算子

全自动：端到端全自动生成用户指定的 TensorRT Plugin

高性能：大部分算子的性能与手写插件相比并不逊色

值得一提的是，最新发布的 TPAT 也支持了动态 batch，从而成为真正具有业界实用性的工具。

TPAT 已经用在了腾讯游戏中心的多个游戏 AI 模型上，体现了优秀的好用性与性能。此外，很多其他腾讯团队也对 TPAT 感兴趣，在评估与尝试部署 TPAT 生成的 TensorRT 模型。

“对内部业务模型里的部分算子进行了测试，TPAT 的性能几乎全面达到甚至超越 CUDA 工程师手写的插件，并且端到端的设计能够大幅减少人力投入。”来自腾讯 TEG 的工程师邱骞表示。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4592

浏览量
101717
gpu

gpu

+关注

关注
27

文章
4417

浏览量
126705

原文标题：腾讯 TEG 与 NVIDIA 团队共同开发 TPAT：TensorRT 插件的全自动生成工具

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

NVIDIA生成式AI研究实现在1秒内生成3D形状

NVIDIA 研究人员使 LATTE3D （一款最新文本转 3D 生成式 AI 模型）实现双倍加速。

发表于 03-27 10:28 •161次阅读

<b class='flag-5'>NVIDIA</b><b class='flag-5'>生成</b>式AI研究实现在1秒内<b class='flag-5'>生成</b>3D形状

全自动激光切管机：高效、精确的切割利器

编辑：镭拓激光在当今的制造业中，全自动激光切管机已成为切割领域的重要工具。作为一种先进的切割设备，全自动激光切管机以其高效、精确的特点，得到了广大用户的青睐。全自动激光切管机的工作原理

发表于 01-19 11:48 •231次阅读

<b class='flag-5'>全自动</b>激光切管机：高效、精确的切割利器

Torch TensorRT是一个优化PyTorch模型推理性能的工具

那么，什么是Torch TensorRT呢？Torch是我们大家聚在一起的原因，它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torc

发表于 01-09 16:41 •394次阅读

Torch <b class='flag-5'>TensorRT</b>是一个优化PyTorch模型推理性能的<b class='flag-5'>工具</b>

NVIDIA 通过企业级生成式 AI 微服务为聊天机器人、AI 助手和摘要工具带来商业智能

Cadence、Dropbox、SAP、ServiceNow 率先使用 NVIDIA NeMo Retriever 优化语义检索，实现准确的 AI 推理 NVIDIA 今日宣布推出一项生成式 AI

发表于 11-29 21:05 •380次阅读

NVIDIA 通过企业级生成式 AI 微服务为聊天机器人、AI 助手和摘要工具带来商业智能

。 NVIDIA NeMo™ Retriever 是 NVIDIA NeMo（一个用于构建、自定义和部署生成式 AI 模型的框架和工具系列）的一项全新服务，通过企业级检索增强

发表于 11-29 14:37 •131次阅读

<b class='flag-5'>NVIDIA</b> 通过企业级<b class='flag-5'>生成</b>式 AI 微服务为聊天机器人、AI 助手和摘要<b class='flag-5'>工具</b>带来商业智能

TPT自动生成测试用例

从测试数据中分离激励是完全自动化测试数据生成的推动者。通过对期望的全面描述，您可以创建任何场景(通过测试数据)并及时检测问题。 TPT插件TASMO是迄今为止最受TPT用户喜爱的测试数据生成

发表于 11-06 17:30 •534次阅读

现已公开发布！欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

NVIDIA 于 2023 年 10 月 19 日公开发布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和优化最新的大语言模型（Large Language Models）的推理性

发表于 10-27 20:05 •530次阅读

阿里云 & NVIDIA TensorRT Hackathon 2023 决赛圆满收官，26 支 AI 团队崭露头角

2023 年 9 月 29 日，由阿里云、NVIDIA 联合主办，阿里云天池平台承办的 “NVIDIA TensorRT Hackathon 2023 生成式 AI 模型优化赛” 圆满

发表于 10-17 03:20 •352次阅读

学习资源 | NVIDIA TensorRT 全新教程上线

NVIDIA TensorRT 是一个用于高效实现已训练好的深度学习模型推理过程的软件开发工具包，内含推理优化器和运行环境两部分，其目的在于让深度学习模型能够在 GPU 上以更高吞吐量和更低

发表于 08-04 17:45 •468次阅读

全自动焊接方法有哪些？

全自动焊接是一种高效、精准的焊接技术，它在工业领域中得到广泛应用。根据焊接工艺的不同，全自动焊接方法可以分为以下几种，每种方法都有其常用的领域。

发表于 07-25 15:36 •776次阅读

NVIDIA 助力 Saildrone 引领全自动海洋监测

Saildrone 的无人航行器正在推动天气、海洋生物、海底等方面的研究。 Saildrone 在全自动海洋监测领域“一石激起千层浪”。 Saidrone 航海数据采集技术

发表于 07-24 19:35 •295次阅读

即刻报名第三届 NVIDIA TensorRT Hackathon 生成式 AI 模型优化赛

近日，由阿里云及 NVIDIA 联合举办的 “NVIDIA TensorRT Hackathon 2023 生成式 AI 模型优化赛”已正式启动。此大赛是由阿里云天池组织运营，

发表于 07-17 19:45 •335次阅读

NVIDIA TensorRT与Apache Beam SDK的集成

使用 NVIDIA TensorRT 在 Apache Beam 中简化和加速机器学习预测

发表于 07-05 16:30 •276次阅读

NVIDIA 招聘 | NVIDIA 最新热招岗位！一起迎接未来加速计算！

/ LLM - TensorRT 工作内容：围绕深度学习端到端 AI 软件全栈，包括但不限于：训练框架、核心计算库、推理优化工具（比如 TensorRT）、AI 编译器、模型压缩等全栈软件栈，

发表于 06-14 18:35 •661次阅读

全自动烟尘烟气检测仪安全高效的检测工具-欧森杰

烟尘烟气检测仪是工业及生活等场所环境监测的必备仪器，现代社会对环境安全的要求越来越高，涉及到的检测仪器也应该越来越先进，满足安全、高效检测的必要。全自动烟尘烟气检测仪作为环境安全检测的重要工具，具有

发表于 05-25 10:36 •420次阅读