点亮未来：TensorRT-LLM 更新加速 AI 推理性能，支持在 RTX 驱动的 Windows PC 上运行新模型-电子发烧友网

微软 Ignite 2023 技术大会发布的新工具和资源包括 OpenAIChatAPI 的 TensorRT-LLM 封装接口、RTX 驱动的性能改进 DirectMLforLlama2、其他热门 LLM

Windows PC 上的 AI 标志着科技史上的关键时刻，它将彻底改变玩家、创作者、主播、上班族、学生乃至普通 PC 用户的体验。

AI 为 1 亿多台采用 RTX GPU 的 Windows PC 和工作站提高生产力带来前所未有的机会。NVIDIA RTX 技术使开发者更轻松地创建 AI 应用，从而改变人们使用计算机的方式。

在微软 Ignite 2023 技术大会上发布的全新优化、模型和资源将更快地帮助开发者提供新的终端用户体验。

TensorRT-LLM 是一款提升 AI 推理性能的开源软件，它即将发布的更新将支持更多大语言模型，在 RTX GPU 8GB 及以上显存的 PC 和笔记本电脑上使要求严苛的 AI 工作负载更容易完成。

Tensor RT-LLM for Windows 即将通过全新封装接口与 OpenAI 广受欢迎的聊天 API 兼容。这将使数以百计的开发者项目和应用能在 RTX PC 的本地运行，而非云端运行，因此用户可以在 PC 上保留私人和专有数据。

定制的生成式 AI 需要时间和精力来维护项目。特别是跨多个环境和平台进行协作和部署时，该过程可能会异常复杂和耗时。

AI Workbench 是一个统一、易用的工具包，允许开发者在 PC 或工作站上快速创建、测试和定制预训练生成式 AI 模型和 LLM。它为开发者提供一个单一平台，用于组织他们的 AI 项目，并根据特定用户需求来调整模型。

这使开发者能够进行无缝协作和部署，快速创建具有成本效益、可扩展的生成式 AI 模型。加入抢先体验名单，成为首批用户以率先了解不断更新的功能，并接收更新信息。

为支持 AI 开发者，NVIDIA 与微软发布 DirectML 增强功能以加速最热门的基础 AI 模型之一的 Llama 2。除了全新性能标准，开发者现在有更多跨供应商部署可选。

便携式 AI

2023 年 10 月，NVIDIA 发布 TensorRT-LLM for Windows —— 一个用于加速大语言模型（LLM）推理的库。

本月底发布的 TensorRT-LLM v0.6.0 更新将带来至高达 5 倍的推理性能提升，并支持更多热门的 LLM，包括全新 Mistral 7B 和 Nemotron-3 8B。这些 LLM 版本将可在所有采用 8GB 及以上显存的 GeForce RTX 30系列和 40系列 GPU 上运行，从而使最便携的 Windows PC 设备也能获得快速、准确的本地运行 LLM 功能。

TensorRT-LLM v0.6.0

带来至高达 5 倍推理性能提升

新发布的 TensorRT-LLM 可在/NVIDIA/TensorRT-LLMGitHub 代码库中下载安装，新调优的模型将在ngc.nvidia.com提供。

从容对话

世界各地的开发者和爱好者将 OpenAI 的聊天 API 广泛用于各种应用——从总结网页内容、起草文件和电子邮件，到分析和可视化数据以及创建演示文稿。

这类基于云的 AI 面临的一大挑战是它们需要用户上传输入数据，因此对于私人或专有数据以及处理大型数据集来说并不实用。

为应对这一挑战，NVIDIA 即将启用 TensorRT-LLM for Windows，通过全新封装接口提供与 OpenAI 广受欢迎的 ChatAPI 类似的 API 接口，为开发者带来类似的工作流，无论他们设计的模型和应用要在 RTX PC 的本地运行，还是在云端运行。只需修改一两行代码，数百个 AI 驱动的开发者项目和应用现在就能从快速的本地 AI 中受益。用户可将数据保存在 PC 上，不必担心将数据上传到云端。

使用由 TensorRT-LLM 驱动的

Microsoft VS Code 插件 Continue.dev 编码助手

此外，最重要的一点是这些项目和应用中有很多都是开源的，开发者可以轻松利用和扩展它们的功能，从而加速生成式 AI 在 RTX 驱动的 Windows PC 上的应用。

该封装接口可与所有对 TensorRT-LLM 进行优化的 LLM （如，Llama 2、Mistral 和 NV LLM）配合使用，并作为参考项目在 GitHub 上发布，同时发布的还有用于在 RTX 上使用 LLM 的其他开发者资源。

模型加速

开发者现可利用尖端的 AI 模型，并通过跨供应商 API 进行部署。NVIDIA 和微软一直致力于增强开发者能力，通过 DirectML API 在 RTX 上加速 Llama。

在 10 月宣布的为这些模型提供最快推理性能的基础上，这一跨供应商部署的全新选项使将 AI 引入 PC 变得前所未有的简单。

开发者和爱好者可下载最新的 ONNX 运行时并按微软的安装说明进行操作，同时安装最新 NVIDIA 驱动（将于 11 月 21 日发布）以获得最新优化体验。

这些新优化、模型和资源将加速 AI 功能和应用在全球 1 亿台 RTX PC 上的开发和部署，一并加入 400 多个合作伙伴的行列，他们已经发布了由 RTX GPU 加速的 AI 驱动的应用和游戏。

随着模型易用性的提高，以及开发者将更多生成式 AI 功能带到 RTX 驱动的 Windows PC 上，RTX GPU 将成为用户利用这一强大技术的关键。

GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行，线上大会也将同期开放。点击“阅读原文”或扫描下方海报二维码，立即注册 GTC 大会。

原文标题：点亮未来：TensorRT-LLM 更新加速 AI 推理性能，支持在 RTX 驱动的 Windows PC 上运行新模型

文章出处：【微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英伟达

英伟达

+关注

关注
22

文章
3332

浏览量
87801

原文标题：点亮未来：TensorRT-LLM 更新加速 AI 推理性能，支持在 RTX 驱动的 Windows PC 上运行新模型

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从

发表于 04-28 10:36 •101次阅读

自然语言处理应用LLM推理优化综述

当前，业界在将传统优化技术引入 LLM 推理的同时，同时也在探索从大模型自回归解码特点出发，通过调整推理过程和引入新的模型结构来进一步提升

发表于 04-10 11:48 •81次阅读

自然语言处理应用<b class='flag-5'>LLM</b><b class='flag-5'>推理</b>优化综述

Torch TensorRT是一个优化PyTorch模型推理性能的工具

那么，什么是Torch TensorRT呢？Torch是我们大家聚在一起的原因，它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torc

发表于 01-09 16:41 •398次阅读

Torch <b class='flag-5'>TensorRT</b>是一个优化PyTorch<b class='flag-5'>模型</b><b class='flag-5'>推理性能</b>的工具

安霸发布N1系列生成式AI芯片支持前端设备运行本地LLM应用

单颗 SoC 支持 1 至 340 亿参数的多模态大模型（Multi-Modal LLM）推理，实现前端低功耗生成式 AI。

发表于 01-09 15:19 •628次阅读

如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

背景介绍大语言模型正以其惊人的新能力推动人工智能的发展，扩大其应用范围。然而，由于这类模型具有庞大的参数规模，部署和推理的难度和成本极高，这一挑战一直困扰着 AI 领域。此外，当前存

发表于 12-04 20:25 •531次阅读

如何在 NVIDIA <b class='flag-5'>TensorRT-LLM</b> 中<b class='flag-5'>支持</b> Qwen <b class='flag-5'>模型</b>

用上这个工具包，大模型推理性能加速达40倍

作者：英特尔公司沈海豪、罗屿、孟恒宇、董波、林俊编者按：只需不到9行代码，就能在CPU上实现出色的LLM推理性能。英特尔 Extension for Transformer 创新

发表于 12-01 20:40 •642次阅读

用上这个工具包，大<b class='flag-5'>模型</b><b class='flag-5'>推理性能</b><b class='flag-5'>加速</b>达40倍

TensorRT-LLM初探（一）运行llama

TensorRT-LLM正式出来有半个月了，一直没有时间玩，周末趁着有时间跑一下。

发表于 11-16 17:39 •837次阅读

<b class='flag-5'>TensorRT-LLM</b>初探（一）<b class='flag-5'>运行</b>llama

现已公开发布！欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

NVIDIA 于 2023 年 10 月 19 日公开发布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和优化最新的大语言模型（Large Language Models）的

发表于 10-27 20:05 •540次阅读

周四研讨会预告 | 注册报名 NVIDIA AI Inference Day - 大模型推理线上研讨会

由 CSDN 举办的 NVIDIA AI Inference Day - 大模型推理线上研讨会，将帮助您了解 NVIDIA 开源大型语言模型（LLM

发表于 10-26 09:05 •195次阅读

Nvidia 通过开源库提升 LLM 推理性能

加利福尼亚州圣克拉拉——Nvidia通过一个名为TensorRT LLM的新开源软件库，将其H100、A100和L4 GPU的大型语言模型(LLM)

发表于 10-23 16:10 •327次阅读

最新MLPerf v3.1测试结果认证，Gaudi2在GPT-J模型上推理性能惊人

英特尔产品在全新MLCommons AI推理性能测试中尽显优势今日，MLCommons公布针对 60 亿参数大语言模型及计算机视觉与自然语言处理模型GPT-J的 MLPerf

发表于 09-12 17:54 •237次阅读

求助，为什么将不同的权重应用于模型会影响推理性能？

生成两个 IR文件（相同的 .xml 文件，但不同的 .bin 文件）具有不同重量的类似模型，以不同的 fps （27fps 和 6fps）运行更多样化的权重是否会影响 Myriad X 上的

发表于 08-15 07:00

如何提高YOLOv4模型的推理性能？

使用 PyTorch 对具有非方形图像的 YOLOv4 模型进行了训练。将权重转换为 ONNX 文件，然后转换为中间表示（IR）。无法确定如何获得更好的推理性能。

发表于 08-15 06:58

英特尔® AMX 助力百度ERNIE-Tiny AI推理性能提升2.66倍，尽释AI加速潜能

科技赋能千行百业人民网携手英特尔启动“数智加速度”计划 WAIC 2023：英特尔以技术之力推动边缘人工智能发展，打造数字化未来“芯”时代英特尔 AMX 加速AI

发表于 07-14 20:10 •273次阅读

英特尔® AMX 加速AI推理性能，助阿里电商推荐系统成功应对峰值负载压力

达沃斯论坛｜英特尔王锐：AI驱动工业元宇宙，释放数实融合无穷潜力英特尔研究院发布全新AI扩散模型，可根据文本提示生成360度全景图英特尔内部代工模式的最新进展原文标题：英特尔®

发表于 07-08 14:15 •332次阅读

搜索历史

点亮未来：TensorRT-LLM 更新加速 AI 推理性能，支持在 RTX 驱动的 Windows PC 上运行新模型

评论

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

自然语言处理应用LLM推理优化综述

Torch TensorRT是一个优化PyTorch模型推理性能的工具

安霸发布N1系列生成式AI芯片支持前端设备运行本地LLM应用

如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

用上这个工具包，大模型推理性能加速达40倍

TensorRT-LLM初探（一）运行llama

现已公开发布！欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

周四研讨会预告 | 注册报名 NVIDIA AI Inference Day - 大模型推理线上研讨会

Nvidia 通过开源库提升 LLM 推理性能

最新MLPerf v3.1测试结果认证，Gaudi2在GPT-J模型上推理性能惊人

求助，为什么将不同的权重应用于模型会影响推理性能？

如何提高YOLOv4模型的推理性能？

英特尔® AMX 助力百度ERNIE-Tiny AI推理性能提升2.66倍，尽释AI加速潜能

英特尔® AMX 加速AI推理性能，助阿里电商推荐系统成功应对峰值负载压力