0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Torch-TensorRT软件更新 HF BERT性能提升40%

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-05-16 15:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

我们十分高兴地宣布,Torch-TensorRT 1.1.0 版本正式发布!

软件版本

PyTorch 1.11

CUDA 11.3(在 x86_64 上,默认设置下,兼容的 PyTorch Build 支持较新版本的 CUDA 11)

cuDNN 8.2.4.15

TensorRT 8.2.4.2

由于最近 JetPack 的升级和其发布流程的变化,Torch-TRTv1.1.0 版本不支持Jetson(Jetpack 5.0DP 或其他)。将在中期版本(Torch-TensorRT1.1.x)同时支持 Jetpack 5.0DP 和 TensorRT 8.4。

重要变更

HF BERT性能

算子和性能的进一步优化使 HF BERT 的性能比 V1.1 版本提升了 40%

更多的算子

18 个新的 aten 算子转换器提高了 TensorRT 的模型覆盖范围和性能

查看全部 250+ 个算子

Triton 后端支持

21.12 版本以上的 Triton 现已支持 Torch-TensorRT

将在不久后提供工作流程教程

调试工具

上下文管理器现在允许使用更简洁清晰的调试工作流程

不支持的算子已降级为警告,建议使用上下文管理器进行调查

API 变更

max_batch_size 和 strict_types 由于在 TRT 中不被遵守已被删除

所有与 Torch-TensorRT 相关的 Bug 都应被归入新的 “MachineLearning – TorchTRT” nvbugs 模块。

原文标题:Torch-TensorRT 1.1.0 版本正式发布

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 软件
    +关注

    关注

    69

    文章

    5297

    浏览量

    90881
  • pytorch
    +关注

    关注

    2

    文章

    813

    浏览量

    14699

原文标题:Torch-TensorRT 1.1.0 版本正式发布

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程发布Torch-MUSA v2.7.0版本

    近日,摩尔线程正式发布PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2.7.0,新版本在功能集成、性能优化与硬件支持方面实现进一步突破。Torch-MUSA在短短一个月
    的头像 发表于 12-04 09:05 508次阅读

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一方面,针对需
    的头像 发表于 10-21 11:04 754次阅读

    TensorRT-LLM的大规模专家并行架构设计

    之前文章已介绍引入大规模 EP 的初衷,本篇将继续深入介绍 TensorRT-LLM 的大规模专家并行架构设计与创新实现。
    的头像 发表于 09-23 14:42 692次阅读
    <b class='flag-5'>TensorRT</b>-LLM的大规模专家并行架构设计

    Perforce QAC 2025.2版本更新:虚拟内存优化、100%覆盖CERT C规则、CI构建性能提升

    【产品更新】Perforce QAC更新至2025.2版本,安装路径和许可证都有变化!重点:虚拟内存占用降低、100%覆盖CERT C规则,C23支持增强、CI构建性能提升等。建议尽快
    的头像 发表于 09-09 14:40 433次阅读
    Perforce QAC 2025.2版本<b class='flag-5'>更新</b>:虚拟内存优化、100%覆盖CERT C规则、CI构建<b class='flag-5'>性能</b><b class='flag-5'>提升</b>等

    DeepSeek R1 MTP在TensorRT-LLM中的实现与优化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 3967次阅读
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的实现与优化

    TensorRT-LLM中的分离式服务

    在之前的技术博客中,我们介绍了低延迟[1] 和高吞吐[2] 场景的优化方法。对于生产部署,用户还关心在满足特定延迟约束的情况下,每个 GPU 的吞吐表现。本文将围绕“吞吐量-延迟”性能场景,介绍 TensorRT-LLM 分离式服务的设计理念、使用方法,以及
    的头像 发表于 08-27 12:29 1379次阅读
    <b class='flag-5'>TensorRT</b>-LLM中的分离式服务

    HF87611_VC1/HF87611Q_VC1:全能型多通道USB HiFi音频解码器固件技术解析

    87611_VC1/HF87611Q_VC1,这是一款支持多种输入输出组合的专业音频软件解决方案。产品概述HF87611_VC1/HF87611Q_VC1是一款运行在A316-Mini
    的头像 发表于 07-24 10:10 446次阅读
    <b class='flag-5'>HF</b>87611_VC1/<b class='flag-5'>HF</b>87611Q_VC1:全能型多通道USB HiFi音频解码器固件技术解析

    HF87611_VB1/HF87611Q_VB1:全能型多通道USB HiFi音频解码器固件技术解析

    87611_VB1/HF87611Q_VB1,这是一款支持多种输入输出组合的专业音频软件解决方案。产品概述HF87611_VB1/HF87611Q_VB1是一款运行在A316-1926
    的头像 发表于 07-24 10:00 447次阅读
    <b class='flag-5'>HF</b>87611_VB1/<b class='flag-5'>HF</b>87611Q_VB1:全能型多通道USB HiFi音频解码器固件技术解析

    HF83311_VC1/HF83311Q_VC1:高性能USB HiFi音频解码器固件技术解析

    引言随着高品质音频体验需求的不断增长,音频解码器固件的性能和功能成为决定音频设备品质的关键因素。本文将介绍一款基于XMOSXU316技术的高性能USBHiFi音频解码器固件——HF
    的头像 发表于 07-23 11:30 466次阅读
    <b class='flag-5'>HF</b>83311_VC1/<b class='flag-5'>HF</b>83311Q_VC1:高<b class='flag-5'>性能</b>USB HiFi音频解码器固件技术解析

    HF83311_VB1/HF83311Q_VB1:高性能USB HiFi音频解码器固件技术解析

    引言随着高品质音频体验需求的不断增长,音频解码器固件的性能和功能成为决定音频设备品质的关键因素。本文将介绍一款基于XMOSXU316技术的高性能USBHiFi音频解码器固件——HF
    的头像 发表于 07-23 11:16 442次阅读
    <b class='flag-5'>HF</b>83311_VB1/<b class='flag-5'>HF</b>83311Q_VB1:高<b class='flag-5'>性能</b>USB HiFi音频解码器固件技术解析

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Lovelace
    的头像 发表于 06-12 15:37 1300次阅读
    使用NVIDIA Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS应用的最佳实践

    firefly的bm1688硬件,无法import torch怎么解决?

    的,sdcard.tgz进行了重新刷系统。 问题1 在进行import时,报如下的错误:内部跟踪,跟torch._C有关,但是我不知道如何解决,希望有大佬能帮忙 问题2 model_run时,出现了如下的错误,事实上,他们的size是相等的。如下图
    发表于 04-22 07:42

    软件更新 | 你期待的新功能来了!TSMaster 202502 新版本亮点抢先看!

    备受期待的TSMaster202502最新版终于来了!在本月更新中,我们为用户带来了超多全新功能,旨在进一步提升软件性能、灵活性与用户体验。接下来,我们将为您详细介绍本次
    的头像 发表于 03-07 20:03 1107次阅读
    <b class='flag-5'>软件</b><b class='flag-5'>更新</b> | 你期待的新功能来了!TSMaster 202502 新版本亮点抢先看!

    如何使SOLIDWORKS参数化设计软件提升效率

    SOLIDWORKS参数化设计软件-SolidKits.AutoWorks可实现智能选型、自动化修改产品属性、产品参数、产品状态、图纸更新、重命名、并自动打包生成交付物,实现产品自动设计。大幅提升设计效率,减少错误、降低对人工经
    的头像 发表于 12-19 15:53 1305次阅读

    解锁NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术,包括自定义 Attention Kernel、Inflight
    的头像 发表于 12-17 17:47 1605次阅读