0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA TensorRT Edge-LLM在汽车与机器人行业的落地应用

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2026-01-14 09:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大语言模型(LLM)与多模态推理系统正迅速突破数据中心的局限。越来越多的汽车与机器人领域的开发者希望将对话式 AI 智能体、多模态感知系统和高级规划功能直接部署在端侧,因为在这些场景中,低延迟、高可靠性以及离线运行能力至关重要。

目前主流的 LLM 和视觉语言模型(VLM)推理框架主要围绕数据中心需求设计,例如应对大量并发用户请求并最大化其吞吐量,而嵌入式推理场景则需要一套专用的定制化解决方案。

本文介绍了 NVIDIA TensorRT Edge-LLM——一个用于 LLM 和 VLM 推理的新型开源 C++ 框架,旨在满足日益增长的高性能边缘端推理需求。该框架专为嵌入式汽车平台 NVIDIA DRIVE AGX Thor 及机器人平台 NVIDIA Jetson Thor 上的实时应用而打造。该框架已在 GitHub 上随 NVIDIA JetPack 7.1 版本发布并开源。

TensorRT Edge-LLM 依赖项很少,专为实现量产级边缘端应用部署而设计。其精简轻量化的设计专注于嵌入式场景的特定功能,能够显著降低框架的资源占用。

此外,TensorRT Edge-LLM 所具备的先进功能——如 EAGLE-3 投机采样、NVFP4 量化支持以及分块预填充技术,能够满足高要求的实时应用场景所需的前沿的性能需求。

wKgZPGlm7TaAAlmYAABXzWc4uuI604.png

图 1. 与主流 LLM 和 VLM 推理框架 vLLM 相比,TensorRT Edge-LLM 性能表现卓越。

面向实时边缘端应用的 LLM 与 VLM 推理

边缘端 LLM 推理任务和 VLM 推理任务具有以下特征:

请求来自少数或单一用户

批处理规模较小,通常需跨多个摄像头输入

面向关键任务应用的量产级部署

支持离线运行且无需更新

因此,机器人和汽车领域的实时应用提出了以下特定要求:

延迟低且可预测

最小化磁盘、内存和计算资源的占用

符合量产标准

高鲁棒性和高可靠性

TensorRT Edge-LLM 旨在满足并优先处理这些嵌入式场景的特定需求,为嵌入式 LLM 和 VLM 的推理提供坚实基础。

TensorRT Edge-LLM 在汽车行业的落地应用

合作伙伴已开始将 TensorRT Edge-LLM 作为其车用 AI 产品的基础,其中博世、中科创达和 MediaTek 等企业在 CES 2026 上展示了其相关技术。

博世与 NVIDIA 及微软共同开发新一代博世智能座舱,该座舱搭载的车载 AI 助手具备自然语音交互能力。该解决方案集成了嵌入式自动语音识别(ASR)与文本转语音(TTS)AI 模型,并通过 TensorRT Edge-LLM 实现 LLM 推理,从而构建了一个强大的车载 AI 系统。同时,该系统还可通过精密协调器与云端的大型 AI 模型协同运作。

中科创达将 TensorRT Edge-LLM 集成至其即将推出的 AIBOX 平台,该平台基于 NVIDIA DRIVE AGX Orin 架构,旨在为车内提供响应迅速的车端 LLM 及多模态推理能力。通过整合中科创达的汽车软件栈与 TensorRT Edge-LLM 的轻量级 C++ 运行时及优化解码路径,该 AIBOX 能在严苛的功耗和内存限制下,提供低延迟的语音交互与座舱辅助体验。

MediaTek 在其 CX1 系统级芯片中基于 TensorRT Edge-LLM 进行开发,以支持先进的座舱 AI 与人机交互应用。TensorRT Edge-LLM 加速了 LLM 和 VLM 的推理过程,适用于多种应用场景,包括驾驶员和座舱活动监测。同时,MediaTek 通过开发新型嵌入式专用推理方法,持续反哺 TensorRT Edge-LLM 的技术演进。

随着 TensorRT Edge-LLM 的发布,这些 LLM 和 VLM 的推理能力现已面向 NVIDIA Jetson 生态系统开放,可为机器人技术提供基础支撑。

TensorRT Edge-LLM 技术解析

TensorRT Edge-LLM 旨在为 LLM 和 VLM 的推理提供一个端到端工作流。该流程涵盖三个阶段:

将 Hugging Face 模型导出为 ONNX 格式

针对目标硬件构建优化的 NVIDIA TensorRT 引擎

在目标硬件上运行推理任务

wKgZPGlm7TaAbiDzAABVRkKhNVU013.png

图 2. TensorRT Edge-LLM 工作流及关键组件

Python 导出流程能够将 Hugging Face 模型转换为 ONNX 格式,并支持量化、LoRA 适配器和 EAGLE-3 投机采样(图 3)。

wKgZPGlm7TaATA-JAACOFurX8XY425.png

图 3. TensorRT Edge-LLM Python导出流程阶段与工具

引擎构建器负责构建专为嵌入式目标硬件优化的 TensorRT(图 4)。

wKgZO2lm7TaAJAdNAABJhqZHf_U160.png

图 4. TensorRT Edge-LLM 引擎构建器工作流

C++ 运行时负责在目标硬件上执行 LLM 和 VLM 的推理任务。它利用 TensorRT 引擎来实现自回归模型解码循环:即基于输入和先前生成 token 进行迭代式的 token 生成。用户应用程序通过与该运行时交互,来处理 LLM 和 VLM 的工作负载。

wKgZO2lm7TaAH7s7AABK9eC5zhU934.png

图 5. TensorRT Edge-LLM C++ 运行时的预填充与解码阶段

如需了解上述各组件的更多说明,请参阅 TensorRT Edge-LLM 的完整文档。

开始使用 TensorRT Edge-LLM

准备好在您的 Jetson AGX Thor 开发套件上开始 LLM 和 VLM 推理了吗?

下载 JetPack 7.1 版本

克隆 NVIDIA/TensorRT-Edge-LLM GitHub 仓库的 JetPack 7.1 发布分支:

git clone https://github.com/NVIDIA/TensorRT-Edge-LLM.git

查阅 TensorRT Edge-LLM 快速入门指南,了解如何从 Hugging Face 获取开箱即用的支持模型、并将其转换为 ONNX 格式、为 Jetson AGX Thor 平台构建 TensorRT 引擎,以及最终通过 C++ 运行时进行运行的完整步骤。

参阅 TensorRT Edge-LLM 示例,了解更多特性和功能。

若需根据自身需求定制 TensorRT Edge-LLM,请参阅 TensorRT Edge-LLM 定制指南。

对于 NVIDIA DRIVE AGX Thor 用户,TensorRT Edge-LLM 已作为 NVIDIA DriveOS 发行包的标准组件提供。后续 DriveOS 版本将通过 GitHub 仓库进行发布。

随着 LLM 和 VLM 快速向边缘端迁移,TensorRT Edge-LLM 提供了一条清晰可靠的路径,能够将 Hugging Face 模型直接部署至 NVIDIA 汽车和机器人平台,实现实时、量产级落地。

探索工作流,充分测试模型效果,并着手构建下一代智能端侧应用。了解更多信息,请访问 NVIDIA/TensorRT-Edge-LLM GitHub 仓库。

致谢

感谢 Michael Ferry、Nicky Liu、Martin Chi、Ruo Cheng Jia、Charl Li、Maggie Hu、Krishna Sai Chemudupati、Frederik Kaster、XiangGuo、Yuan Yao、Vincent Wang、Levi Chen、Chen Fu、Le An、Josh Park、Xinru Zhu、Chengming Zhao、Sunny Gai、Ajinkya Rasani、Zhijia Liu、Ever Wong、Wenting Jiang、Jonas Li、Po-Han Huang、Brant Zhao、Yiheng张和 Ashwin Nanjappa,感谢你们对 TensorRT Edge-LLM 的贡献和支持。

关于作者

Lin Chai 是 NVIDIA 的高级产品经理,负责领导 TensorRT 和 TensorRTEdge-LLM,这是 NVIDIA 跨数据中心和嵌入式平台深度学习的 AI 推理平台。凭借在自动驾驶和汽车原始设备制造商 (OEM) 方面的背景,她受到启发,想要构建生产级推理系统,为数据中心、边缘和物理 AI 应用中的深度学习工作负载提供一流的性能,使系统能够在现实世界中感知、推理和行动。

Felix Friedmann 是 NVIDIA DRIVE 平台的产品和工程主管,涵盖 NVIDIA 嵌入式 AI 推理和 NVIDIA DriveWorks。他将嵌入式视觉语言模型等最新技术创新与汽车软件平台所需的可靠性和安全性相结合。自 NVIDIA DRIVE 平台问世以来,Felix 一直在前一个职位上与之合作,当时他在奥迪将早期的深度学习模型引入嵌入式应用程序,并为 atVW 的 AID 智能汽车和后来的 Argo AI 设计了感知和系统架构。

Luxiao Zheng 是 NVIDIA 的高级系统软件工程师。他是 TensorRT 一般性能团队的成员,专门从事大语言模型推理工作流程。他从事 x86_64 和 aarch64 平台的端到端 LLM 软件开发、性能测量、分析和改进。陆晓持有理科硕士学位。计算机科学专业,理学学士学位。计算机科学和理学学士学位。华盛顿大学化学工程专业的博士学位。

Fan Shi 是 NVIDIA TensorRT 团队的高级系统软件工程师,专门负责在边缘平台上高效部署先进的 AI 模型。他的工作重点是优化深度学习推理的性能和可用性。风扇拥有 M.S。卡耐基梅隆大学计算数据科学博士学位和理学学士学位。来自伊利诺伊大学的统计学和计算机科学博士学位。

Amber Liu 是 NVIDIA 的高级系统软件工程师,专注于边缘 AI 和大语言模型应用。她与中国的客户和合作伙伴密切合作,在自动驾驶、AI 驾驶舱和机器人领域实现 LLM 用例,帮助团队构建生产就绪型边缘 AI 系统。作为 TensorRT Edge™ LLM 的核心贡献者,她致力于开发高性能推理解决方案,将先进的大语言模型引入嵌入式平台。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    31493

    浏览量

    223724
  • NVIDIA
    +关注

    关注

    14

    文章

    5696

    浏览量

    110127
  • AI
    AI
    +关注

    关注

    91

    文章

    41293

    浏览量

    302659

原文标题:CES 2026 | NVIDIA TensorRT Edge-LLM 加速汽车与机器人领域的 LLM 和 VLM 推理

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    DeepSeek R1 MTPTensorRT-LLM中的实现与优化

    TensorRT-LLM NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 4713次阅读
    DeepSeek R1 MTP<b class='flag-5'>在</b><b class='flag-5'>TensorRT-LLM</b>中的实现与优化

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。单张
    的头像 发表于 06-12 15:37 2083次阅读
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT-LLM</b>部署TTS应用的最佳实践

    中国机器人行业的现状——行业***

    以高端工业机器人为主,几乎垄断了汽车制造、焊接等高端领域,占比达96%,而国产机器人则以搬运和上下料机器人为主,处于行业***。
    发表于 02-13 15:46

    中国工业机器人行业发展和未来趋势分析

    汽车制造业推广到其他制造业,进而推广到诸如采矿机器人、建筑业机器人以及水电系统维护维修机器人等各种非制造行业。 图片来源:
    发表于 04-25 16:45

    2016年工业机器人行业前瞻

    行业,其中汽车整车及零部件制造一直是工业机器人的最重要应用领域。三、行业基本风险特征  宏观经济波动风险:工业机器人行业具有一定的周期性特
    发表于 12-28 17:32

    工业机器人行业分析

    自于汽车行业,并且主要用于焊接领域。随着汽车行业市场的成熟,一般工业将逐渐成为各大工业机器人厂家竞相角逐的新市场。因此,汽车工业是工业机器人
    发表于 10-19 15:25

    机器人行业周报-政策与园区

    无序竞争,规范行业的发展。此前工信部公布了一批符合《工业机器人行业规范条件》的企业名单,接下来,工信部将进一步实施行业的规范管理,引导政策资源集中集聚。同时利用中国机器人产业联盟等
    发表于 05-08 17:41

    无线模块机器人行业中需求量不断增长

    中国,机器人制作技术已经逐渐走向成熟,用工难、用工成本高以及经济结构转型的需要进一步推动机器人的发展。制造业、物流、医疗、餐饮、电子商务等行业广泛使用了
    发表于 08-14 09:52

    机器人行业,我从哪里入手

    各位大神们好,我是刚毕业的大学生。我想进入机器人行业,但不知道从什么地方入手。你们能不能给我指点一下
    发表于 12-12 18:12

    新松眼中的机器人行业是怎么样的?

      近日,新松发布《向特定对象发行股票并在创业板上市募集说明书》时,对中国机器人行业的发展现状及趋势做了详细的分析与说明,下面我们来看下,新松机器人眼中的机器人行业是怎么样的?  
    的头像 发表于 03-08 15:38 6692次阅读

    现已公开发布!欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

    能。该开源程序库现已作为 NVIDIA NeMo 框架的一部分, /NVIDIA/TensorRT-LLM GitHub 资源库中免费提供。 大语言模型彻底改变了人工智能领域,并创造
    的头像 发表于 10-27 20:05 2219次阅读
    现已公开发布!欢迎使用 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT-LLM</b> 优化大语言模型推理

    NVIDIA TensorRT-LLM Roadmap现已在GitHub上公开发布

    感谢众多用户及合作伙伴一直以来对NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布!
    的头像 发表于 11-28 10:43 1633次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT-LLM</b> Roadmap现已在GitHub上公开发布

    解锁NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术,包括自定义 Attention Kernel、Inflight
    的头像 发表于 12-17 17:47 2037次阅读

    NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

    Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,该技术现在可与 NVIDIA TensorRT-LLM 一起使用。
    的头像 发表于 12-25 17:31 1655次阅读
    <b class='flag-5'>在</b><b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT-LLM</b>中启用ReDrafter的一些变化

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实
    的头像 发表于 10-21 11:04 1438次阅读