0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA TensorRT LLM 1.0推理框架正式上线

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-10-21 11:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

TensorRT LLM作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一方面,针对需部署热门开源模型的应用场景,框架已支持 GPT-OSS、DeepSeek、Llama 2 及 Llama 3 等主流模型的端到端部署;另一方面,框架将部署功能封装为可扩展的 Python 框架;同时,TensorRT LLM 还承担着推理领域新技术载体的角色,通过将前沿创新引入 LLM 推理生态,持续提升整个生态系统合作伙伴的技术能力。

TensorRT LLM 1.0易用性优化与实现方式:TensorRT LLM 1.0 版本的核心升级聚焦于易用性提升,且针对不同角色的用户需求进行了差异化设计。为实现这些易用性目标,框架在技术层面做了多重优化:首先,支持将现有 PyTorch 模型(如 Hugging Face 生态中的建模代码)迁移至 TensorRT LLM,且优化过程可分步实施;其次,框架完全兼容 PyTorch 与 Python 生态中的调试工具,开发者可直接使用 PDB 调试或打印张量中间值等熟悉的方式排查问题;此外,新运行时采用模块化 Python 构建块设计,为核心组件定义清晰接口并提供 Python 实现;同时,框架无需提前编译或构建显式引擎,支持快速迭代参数与跨硬件切换;最后,所有功能均开源在 GitHub,开发者可直接与 NVIDIA 团队协作,通过贡献代码推动框架路线图演进。

TensorRT LLM 性能突破:评估 TensorRT LLM 的核心价值,需重点关注其在推理性能极限上的突破能力,而这一突破依赖于对全堆栈优化机会的精准把握与软硬件协同优化。从 Hopper 架构到最新的 Blackwell 架构,NVIDIA 借助大型 NVLink 域、FP4 Tensor Cores 等硬件新技术,结合框架层面的模型分解服务,实现了软硬件能力的深度协同。

针对 NVIDIA 平台的优化过程中,这种协同设计让 Hopper 到 Blackwell 两代硬件的性能实现 8 倍提升。在分析性能前沿时,需重点关注两个关键维度:一是交互性(即用户体验),具体表现为 token 在终端用户屏幕上的传播速度,直接影响用户使用时的流畅感;二是系统产能,即单位时间内系统的 token 输出量,决定了系统的服务效率。通过软硬件协同优化,TensorRT LLM 可同时改善这两个维度的表现,真正突破 LLM 推理的性能极限,推动领域发展边界。

支撑易部署易扩展的三大核心特征:TensorRT LLM 之所以能实现易部署、易扩展的特性,并持续突破性能边界,核心依赖于三类关键技术特征的支撑。

第一类特征是针对 LLM 推理中最常见操作的优化内核,包括快速注意力内核、GEMM 内核、通信内核等,这些内核以 Torch 自定义操作的形式实现模块化封装,可直接在模型前向传递过程中调用,确保核心计算环节的高效性。

第二类核心特征是提供高效运行时支持。该运行时集成了动态批处理、高级 KV Cache 重用、预测性解码、高级并行化等关键技术,能够从系统层面优化整体性能,而非局限于模型单一计算环节的提升。

第三类核心特征则是将所有技术能力封装至 Pythonic 框架中,开发者可直接在 PyTorch 环境中编写模型代码,同时通过 Python 运行时模块灵活自定义系统行为,既降低了使用门槛,又保留了足够的扩展灵活性,让不同技术背景的开发者都能高效利用框架能力。

快速启动并使用 TensorRT LLM:为帮助开发者快速启动并使用 TensorRT LLM,框架提供了三种核心交互方式。首先,通过 TRT LLM serve CLI 工具,开发者可仅用一行代码启动服务器。对于更大规模的部署场景,尤其是需要多实例编排的需求,开发者可借助 Dynamo 等工具实现高级数据中心规模优化。若开发者需要更灵活、稳定的 API 支持,框架推荐使用 LLM API。该 API 在 1.x 版本中保持接口稳定,能确保部署过程的稳定性与无缝性,同时支持各类自定义场景,无论是调整运行时参数还是集成自定义模块,都能通过 API 便捷实现,兼顾稳定性与灵活性。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109109
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51719
  • LLM
    LLM
    +关注

    关注

    1

    文章

    340

    浏览量

    1258

原文标题:轻松部署、加速推理:TensorRT LLM 1.0 正式上线,全新易用的 Python 式运行

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    TensorRT-LLM的大规模专家并行架构设计

    之前文章已介绍引入大规模 EP 的初衷,本篇将继续深入介绍 TensorRT-LLM 的大规模专家并行架构设计与创新实现。
    的头像 发表于 09-23 14:42 709次阅读
    <b class='flag-5'>TensorRT-LLM</b>的大规模专家并行架构设计

    DeepSeek R1 MTP在TensorRT-LLM中的实现与优化

    TensorRT-LLMNVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 3970次阅读
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT-LLM</b>中的实现与优化

    NVIDIA Nemotron Nano 2推理模型发布

    NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的头像 发表于 08-27 12:45 1404次阅读
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型发布

    TensorRT-LLM中的分离式服务

    在之前的技术博客中,我们介绍了低延迟[1] 和高吞吐[2] 场景的优化方法。对于生产部署,用户还关心在满足特定延迟约束的情况下,每个 GPU 的吞吐表现。本文将围绕“吞吐量-延迟”性能场景,介绍 TensorRT-LLM 分离式服务的设计理念、使用方法,以及性能研究结果。
    的头像 发表于 08-27 12:29 1383次阅读
    <b class='flag-5'>TensorRT-LLM</b>中的分离式服务

    Votee AI借助NVIDIA技术加速方言小语种LLM开发

    Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 数据处理软件、NeMo Framework 模型训练框架及 Auto Configurator 优化工具,高效构建
    的头像 发表于 08-20 14:21 651次阅读

    NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

    的发布持续深化了双方的 AI 创新合作。NVIDIANVIDIA Blackwell 架构上优化了这两款全新的开放权重模型并实现了推理性能加速,在 NVIDIA 系统上至高达到每
    的头像 发表于 08-15 20:34 1966次阅读
    <b class='flag-5'>NVIDIA</b>从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS<b class='flag-5'>推理</b>

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产
    的头像 发表于 07-04 14:38 1760次阅读

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张
    的头像 发表于 06-12 15:37 1306次阅读
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT-LLM</b>部署TTS应用的最佳实践

    详解 LLM 推理模型的现状

    2025年,如何提升大型语言模型(LLM)的推理能力成了最热门的话题之一,大量优化推理能力的新策略开始出现,包括扩展推理时间计算、运用强化学习、开展监督微调和进行提炼等。本文将深入探讨
    的头像 发表于 04-03 12:09 1249次阅读
    详解 <b class='flag-5'>LLM</b> <b class='flag-5'>推理</b>模型的现状

    新品 | Module LLM Kit,离线大语言模型推理模块套装

    推理与数据交互需求。ModuleLLM是一款集成化的离线大语言模型(LLM)推理模块,专为需要高效、智能交互的终端设备设计。Module13.2LLMMate模块
    的头像 发表于 03-28 18:49 895次阅读
    新品 | Module <b class='flag-5'>LLM</b> Kit,离线大语言模型<b class='flag-5'>推理</b>模块套装

    使用NVIDIA推理平台提高AI推理性能

    NVIDIA推理平台提高了 AI 推理性能,为零售、电信等行业节省了数百万美元。
    的头像 发表于 02-08 09:59 1332次阅读
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平台提高AI<b class='flag-5'>推理</b>性能

    新品| LLM630 Compute Kit,AI 大语言模型推理开发平台

    LLM630LLM推理,视觉识别,可开发,灵活扩展···LLM630ComputeKit是一款AI大语言模型推理开发平台,专为边缘计算和智能交互应用而设计。该套件的主板搭载爱芯AX63
    的头像 发表于 01-17 18:48 1205次阅读
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大语言模型<b class='flag-5'>推理</b>开发平台

    京东广告生成式召回基于 NVIDIA TensorRT-LLM推理加速实践

    、个性化召回、深度召回等),以召回大量候选商品。随后,系统通过相对简单的粗排模型对候选集进行初步筛选,缩小候选范围,最后通过精排和重排模型,确定最终返回给用户的推荐结果。 随着大语言模型(LLM)在推荐系统中的应用,生成
    的头像 发表于 01-14 15:17 1009次阅读

    NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

    Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,该技术现在可与 NVIDIA TensorRT-L
    的头像 发表于 12-25 17:31 1242次阅读
    在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT-LLM</b>中启用ReDrafter的一些变化

    解锁NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术,包括自定义 Attention Kernel、Inflight
    的头像 发表于 12-17 17:47 1612次阅读