NVIDIA TensorRT 8.2将推理速度提高6倍-电子发烧友网

NVIDIA 发布了 TensorRT 8.2 ，对十亿参数 NLU 模型进行了优化。其中包括 T5 和 GPT-2 ，用于翻译和文本生成，使实时运行 NLU 应用程序成为可能。

TensorRT 是一款高性能的深度学习推理优化器和运行时，为人工智能应用程序提供低延迟、高吞吐量推理。 TensorRT 用于医疗、汽车、制造、互联网/电信服务、金融服务和能源等多个行业。

PyTorch 和 TensorFlow 是拥有数百万用户的最流行的深度学习框架。新的 TensorRT 框架集成现在在 PyTorch 和 TensorFlow 中提供了一个简单的 API ，并提供了强大的 FP16 和 INT8 优化，从而将推理速度提高了 6 倍。

亮点包括

TensorRT 8.2:T5 和 GPT-2 的优化运行实时翻译和摘要，与 CPU 相比，性能提高了 21 倍。

TensorRT 8.2 ：适用于使用 Windows 的开发人员的简单 Python API 。

Torch TensorRT:PyTorch 的集成与 GPU 上的框架内推理相比，仅需一行代码即可提供高达 6 倍的性能。

TensorFlow TensorRT:TensorFlow 与 TensorRT 的集成提供了比使用一行代码在 GPU 上进行框架内推理快 6 倍的性能。

资源

Torch- TensorRT 在 NGC catalog 的 PyTorch 容器中提供。

TensorFlow- TensorRT 目前可从 NGC catalog 的 TensorFlow 容器中获得。

TensorRT 免费提供给 NVIDIA 开发程序的成员。

在 TensorRT 产品页面了解更多信息。

关于作者

About Jay Rodge

Jay Rodge 是 NVIDIA 的产品营销经理，负责深入学习和推理产品，推动产品发布和产品营销计划。杰伊在芝加哥伊利诺伊理工学院获得计算机科学硕士学位，主攻计算机视觉和自然语言处理。在 NVIDIA 之前，杰伊是宝马集团的人工智能研究实习生，为宝马最大的制造厂使用计算机视觉解决问题。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4595

浏览量
101724
互联网

互联网

+关注

关注
54

文章
10906

浏览量
100748
深度学习

深度学习

+关注

关注
73

文章
5239

浏览量
119910

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的

发表于 04-28 10:36 •76次阅读

NVIDIA全面加快Meta Llama 3的推理速度

Meta 最新开源大语言模型采用 NVIDIA 技术构建，其经过优化后可在云、数据中心、边缘和 PC 的 NVIDIA GPU 上运行。

发表于 04-23 09:52 •122次阅读

利用NVIDIA组件提升GPU推理的吞吐

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）将

发表于 04-20 09:39 •163次阅读

Torch TensorRT是一个优化PyTorch模型推理性能的工具

那么，什么是Torch TensorRT呢？Torch是我们大家聚在一起的原因，它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torc

发表于 01-09 16:41 •394次阅读

Torch <b class='flag-5'>TensorRT</b>是一个优化PyTorch模型<b class='flag-5'>推理</b>性能的工具

现已公开发布！欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

NVIDIA 于 2023 年 10 月 19 日公开发布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和优化最新的大语言模型（Large Language Models）的

发表于 10-27 20:05 •533次阅读

周四研讨会预告 | 注册报名 NVIDIA AI Inference Day - 大模型推理线上研讨会

由 CSDN 举办的 NVIDIA AI Inference Day - 大模型推理线上研讨会，将帮助您了解 NVIDIA 开源大型语言模型（LLM）推理加速库

发表于 10-26 09:05 •195次阅读

Nvidia 通过开源库提升 LLM 推理性能

加利福尼亚州圣克拉拉——Nvidia通过一个名为TensorRT LLM的新开源软件库，将其H100、A100和L4 GPU的大型语言模型(LLM)推理性能提高了一倍。正如对相同硬件

发表于 10-23 16:10 •325次阅读

阿里云 & NVIDIA TensorRT Hackathon 2023 决赛圆满收官，26 支 AI 团队崭露头角

2023 年 9 月 29 日，由阿里云、NVIDIA 联合主办，阿里云天池平台承办的 “NVIDIA TensorRT Hackathon 2023 生成式 AI 模型优化赛” 圆满落幕。该赛事

发表于 10-17 03:20 •353次阅读

C++演示中的推理速度比Python演示中的推理速度更快是为什么？

在同一主机机上采用相同型号的 Ran Object Detection C++ 演示和对象检测 Python 演示。 C++ 演示中的推理速度比 Python 演示中的推理速度

发表于 08-15 06:52

学习资源 | NVIDIA TensorRT 全新教程上线

NVIDIA TensorRT 是一个用于高效实现已训练好的深度学习模型推理过程的软件开发工具包，内含推理优化器和运行环境两部分，其目的在于让深度学习模型能够在 GPU 上以更高吞

发表于 08-04 17:45 •469次阅读

TensorRT怎么在多个GPU中指定推理设备

说实话，之前我在笔记本上都一直都是只有一块N卡，所以没有过多关注过这个问题。然而昨天有个人问我，TensorRT怎么在多个GPU中指定模型推理GPU设备？我查了一下，发现官方有几个不同的解决方案，个人总结了一下，主要的做法有两种。

发表于 08-03 14:10 •523次阅读

即刻报名第三届 NVIDIA TensorRT Hackathon 生成式 AI 模型优化赛

全社会开放，接受个人或不多于三人的组队形式参赛。 NVIDIA TensorRT 作为 NVIDIA GPU 上的 AI 推理加速库，已在业界得到广泛应用与

发表于 07-17 19:45 •336次阅读

NVIDIA TensorRT与Apache Beam SDK的集成

使用 NVIDIA TensorRT 在 Apache Beam 中简化和加速机器学习预测

发表于 07-05 16:30 •277次阅读

如何使用NVIDIA Triton 推理服务器来运行推理管道

使用集成模型在 NVIDIA Triton 推理服务器上为 ML 模型管道提供服务

发表于 07-05 16:30 •1159次阅读

NVIDIA 招聘 | NVIDIA 最新热招岗位！一起迎接未来加速计算！

/ LLM - TensorRT 工作内容：围绕深度学习端到端 AI 软件全栈，包括但不限于：训练框架、核心计算库、推理优化工具（比如 TensorRT）、AI 编译器、模型压缩等全栈软件栈，

发表于 06-14 18:35 •662次阅读