0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA TensorRT 8.2将推理速度提高6倍

星星科技指导员 来源:NVIDIA 作者:About Jay Rodge 2022-03-31 17:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA 发布了 TensorRT 8.2 ,对十亿参数 NLU 模型进行了优化。其中包括 T5 和 GPT-2 ,用于翻译和文本生成,使实时运行 NLU 应用程序成为可能。

TensorRT 是一款高性能的深度学习推理优化器和运行时,为人工智能应用程序提供低延迟、高吞吐量推理。 TensorRT 用于医疗、汽车、制造、互联网/电信服务、金融服务和能源等多个行业。

PyTorch 和 TensorFlow 是拥有数百万用户的最流行的深度学习框架。新的 TensorRT 框架集成现在在 PyTorch 和 TensorFlow 中提供了一个简单的 API ,并提供了强大的 FP16 和 INT8 优化,从而将推理速度提高了 6 倍。

亮点包括

TensorRT 8.2:T5 和 GPT-2 的优化运行实时翻译和摘要,与 CPU 相比,性能提高了 21 倍。

TensorRT 8.2 :适用于使用 Windows 的开发人员的简单 Python API 。

Torch TensorRT:PyTorch 的集成与 GPU 上的框架内推理相比,仅需一行代码即可提供高达 6 倍的性能。

TensorFlow TensorRT:TensorFlow 与 TensorRT 的集成提供了比使用一行代码在 GPU 上进行框架内推理快 6 倍的性能。

资源

Torch- TensorRT 在 NGC catalog 的 PyTorch 容器中提供。

TensorFlow- TensorRT 目前可从 NGC catalog 的 TensorFlow 容器中获得。

TensorRT 免费提供给 NVIDIA 开发程序 的成员。

在 TensorRT 产品页面了解更多信息。

关于作者

About Jay Rodge

Jay Rodge 是 NVIDIA 的产品营销经理,负责深入学习和推理产品,推动产品发布和产品营销计划。杰伊在芝加哥伊利诺伊理工学院获得计算机科学硕士学位,主攻计算机视觉和自然语言处理。在 NVIDIA 之前,杰伊是宝马集团的人工智能研究实习生,为宝马最大的制造厂使用计算机视觉解决问题。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5783

    浏览量

    110525
  • 互联网
    +关注

    关注

    55

    文章

    11363

    浏览量

    110909
  • 深度学习
    +关注

    关注

    73

    文章

    5615

    浏览量

    124885
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA全面升级RTX PC和DGX Spark上的本地AI智能体

    COMPUTEX 期间的 GTC 台北,NVIDIA OpenShell 安全智能体带到 Windows,并在 llama.cpp 上实现高达 2 推理性能加速。Adobe 对旗
    的头像 发表于 06-07 14:46 291次阅读
    <b class='flag-5'>NVIDIA</b>全面升级RTX PC和DGX Spark上的本地AI智能体

    NVIDIA 推出适用于无人驾驶出租车的 Alpamayo 2 Super 开放推理模型

    新闻摘要: ·NVIDIA Alpamayo 2 Super 是 NVIDIA 功能极其强大的开放推理模型,是一个包含 320 亿个参数的开放视觉-语言-动作推理模型(Reasonin
    的头像 发表于 06-01 15:22 711次阅读
    <b class='flag-5'>NVIDIA</b> 推出适用于无人驾驶出租车的 Alpamayo 2 Super 开放<b class='flag-5'>推理</b>模型

    NVIDIA DGX SuperPOD为Rubin平台横向扩展提供蓝图

    NVIDIA DGX Rubin 系统整合了 NVIDIA 在计算、网络和软件领域的最新突破,推理 token 成本降至 NVIDIA B
    的头像 发表于 01-14 09:14 1084次阅读

    如何在NVIDIA Jetson AGX Thor上通过Docker高效部署vLLM推理服务

    继系统安装与环境配置后,本期我们继续带大家深入 NVIDIA Jetson AGX Thor 的开发教程之旅,了解如何在 Jetson AGX Thor 上,通过 Docker 高效部署 vLLM 推理服务。
    的头像 发表于 11-13 14:08 4605次阅读
    如何在<b class='flag-5'>NVIDIA</b> Jetson AGX Thor上通过Docker高效部署vLLM<b class='flag-5'>推理</b>服务

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的
    的头像 发表于 10-21 11:04 1619次阅读

    什么是AI模型的推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的头像 发表于 09-23 15:19 1695次阅读

    TensorRT-LLM的大规模专家并行架构设计

    之前文章已介绍引入大规模 EP 的初衷,本篇继续深入介绍 TensorRT-LLM 的大规模专家并行架构设计与创新实现。
    的头像 发表于 09-23 14:42 1561次阅读
    <b class='flag-5'>TensorRT</b>-LLM的大规模专家并行架构设计

    DeepSeek R1 MTP在TensorRT-LLM中的实现与优化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 4898次阅读
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的实现与优化

    NVIDIA Nemotron Nano 2推理模型发布

    NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的头像 发表于 08-27 12:45 2189次阅读
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型发布

    NVIDIA Jetson AGX Thor开发者套件概述

    TFLOPS 的 AI 计算性能,从而轻松运行最新的生成式 AI模型,且功耗不超过 130 W。与 NVIDIA Jetson AGX Orin 相比,其 AI 计算性能提高至7.5 ,能效
    的头像 发表于 08-11 15:03 2180次阅读

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载

    NVIDIA RTX 与 NVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma 3n 现可借助 RTX 和 NVIDIA
    的头像 发表于 07-16 09:16 2299次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 2606次阅读

    大模型推理显存和计算量估计方法研究

    过程中需要占用大量显存,导致推理速度变慢,甚至无法进行。 计算量过大:大模型的计算量较大,导致推理速度慢,难以满足实时性要求。 为了解决这些问题,本文
    发表于 07-03 19:43

    NVIDIA Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1在最小延迟场景中的性能纪录

    本文探讨 NVIDIA TensorRT-LLM 如何基于 8 个 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延迟场景中的性能纪录:在 G
    的头像 发表于 07-02 19:31 3806次阅读
    <b class='flag-5'>NVIDIA</b> Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1在最小延迟场景中的性能纪录

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张
    的头像 发表于 06-12 15:37 2224次阅读
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS应用的最佳实践