0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA TensorRT提升Llama 3.2性能

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-11-20 09:59 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Llama 3.2 模型集扩展了 Meta Llama 开源模型集的模型阵容,包含视觉语言模型(VLM)、小语言模型(SLM)和支持视觉的更新版 Llama Guard 模型。与 NVIDIA 加速计算平台搭配使用,Llama 3.2 可为开发者、研究者和企业提供极具价值的新功能和优化,帮助实现生成式 AI 用例。

1B 和 3B 规模的 SLM 基于 NVIDIA Tensor Core GPU 训练而成,最适合用于在各种边缘设备上部署基于 Llama 的 AI 助手。11B 和 90B 规模的 VLM 支持文本和图像输入以及文本输出。凭借多模态支持,VLM 可以帮助开发者构建需要视觉基础、推理和理解能力的强大应用。例如,他们可以构建用于图像描述生成、图像转文本检索、视觉问答和文档问答等的 AI 智能体。除文本输入外,Llama Guard 模型现在还支持图像输入护栏。

Llama 3.2 模型架构是一种自动回归语言模型,使用了经过优化的 Transformer 架构。其指令调整版本使用了监督微调(SFT)和人类反馈强化学习(RLHF)技术,以符合人类对有用性和安全性的偏好。所有模型均支持 128K 词元的长上下文长度,并通过支持分组查询注意力(GQA)针对推理进行了优化。

NVIDIA 已对 Llama 3.2 模型集进行了优化,使其能够在全球数百万个 GPU 上实现高吞吐量和低延迟,其中包括数据中心、搭载NVIDIA RTX的本地工作站和搭载NVIDIA Jetson的边缘应用。本文将介绍针对硬件和软件的优化、定制和易于部署的功能。

使用 NVIDIA TensorRT

提升 Llama 3.2 的性能

为了提供空前吞吐量和最佳终端用户体验,同时降低成本和延迟,NVIDIA 正在加速 Llama 3.2 模型集。NVIDIA TensorRT包含了适用于高性能深度学习推理的 TensorRT 和 TensorRT-LLM 程序库。

Llama 3.2 1B 和 Llama 3.2 3B 模型在 TensorRT-LLM 中使用按比例旋转位置嵌入(RoPE)技术和其他几项优化措施(包括 KV 缓存和飞行批处理)获得加速,以支持长上下文。

Llama 3.2 11B 和 Llama 3.2 90B 模型均为多模态模型,并且包含一个视觉编码器和一个文本解码器。视觉编码器通过将模型导出为 ONNX 图并构建 TensorRT 引擎获得加速。ONNX 导出创建了一个包含内置运算符和标准数据类型的标准模型定义,主要用于推理。TensorRT 利用 ONNX 图,通过构建 TensorRT 引擎针对目标 GPU 优化模型。这种引擎能够提供各种硬件级优化,通过层和张量融合以及内核自动调整最大程度地提高 NVIDIA GPU 的利用率。

借助 TensorRT-LLM 支持的交叉注意力机制,视觉编码器的视觉信息被融合到 Llama 文本解码器中。这样一来,VLM 就能联系输入的文本进行视觉推理和理解,从而高效率地生成文本。

使用 NVIDIA NIM

轻松部署生成式 AI 解决方案

用户可使用NVIDIA NIM微服务将 TensorRT 优化直接部署到生产中。NIM 微服务加速了生成式 AI 模型在所有 NVIDIA 加速基础设施上的部署,包括云、数据中心和工作站等。

NIM 微服务支持 Llama 3.2 90B Vision Instruct,Llama 3.2 11B Vision Instruct,Llama 3.2 3B Instruct 和 Llama 3.2 1B Instruct 在生产中的部署。NIM 为生成式 AI 工作负载提供了经过简化的管理和编排、标准应用编程接口(API)以及带有生产就绪容器的企业级支持。世界各地的开发者、研究者和企业对整个生态系统提供了强大且日益增强的支持,目前已有超过 175 家合作伙伴将其解决方案与 NVIDIA NIM 微服务集成,他们可以从生成式 AI 应用投资中取得最大的回报。

使用 NVIDIA AI Foundry 和 NVIDIA NeMo

定制和评估 Llama 3.2 模型

NVIDIA AI Foundry提供了一个端到端的 Llama 3.2 模型定制平台,使用户能够获取先进的 AI 工具、计算资源和 AI 专业知识。定制模型在专有数据上进行微调,使企业能够在特定领域的任务中实现更高的性能和准确性,从而获得竞争优势。

开发者可以借助NVIDIA NeMo整理他们的训练数据,充分利用 LoRA、SFT、DPO、RLHF 等先进的调校技术定制 Llama 3.2 模型、评估准确性和添加护栏,以此保证模型提供适当的回答。AI Foundry 在 NVIDIA DGX Cloud 上提供专用容量并得到 NVIDIA AI 专家的支持。输出被打包成 NVIDIA NIM 推理微服务的定制 Llama 3.2 模型,该模型可部署在任何地方。

使用 NVIDIA RTX 和

NVIDIA Jetson 扩展本地推理

如今,Llama 3.2 模型已在全球超过 1 亿台 NVIDIA RTX PC 和工作站上进行了优化。为了部署在 Windows 中,NVIDIA 已对这套模型进行了优化,使其能够利用 ONNX-GenAI 运行时和 DirectML 后端实现高效运行。

全新的 VLM 和 SLM 为 NVIDIA RTX 系统解锁了新的功能。为了进行演示,我们创建了一个多模态检索增强生成(RAG)管线示例。该管线结合了文本和可视化数据处理(例如图像、统计图和图表),具有更强大的信息检索和生成功能。

请注意,您需要一个配备 NVIDIA RTX 专业 GPU且显存在 30GB 以上的 Linux 工作站。

SLM 专为边缘设备本地部署而定制,采用了蒸馏、剪枝和量化等技术降低显存、延迟和计算要求,同时保持了重点应用领域的准确性。如要下载 Llama 3.2 1B 和 3B SLM 并将其部署到 GPU 推理能力经过优化且具有 INT4/FP8 量化功能的 Jetson 上,请参见NVIDIA Jetson AI Lab 上的 SLM 教程。

多模态模型为视频分析和机器人领域带来了独一无二的视觉功能,因此在边缘应用中的作用越来越突出。

推动社区 AI 模型的发展

作为积极的开源贡献者,NVIDIA 致力于优化社区软件,帮助用户应对最严峻的挑战。开源 AI 模型还能促进公开透明,使用户能够大范围地分享 AI 安全性和弹性方面的工作成果。

借助 Hugging Face 推理即服务功能,开发者能够快速部署领先的大语言模型(LLM),例如在 NVIDIA DGX Cloud 上运行且通过 NVIDIA NIM 微服务优化的 Llama 3 模型集。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5689

    浏览量

    110118
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5272

    浏览量

    136070
  • AI
    AI
    +关注

    关注

    91

    文章

    41127

    浏览量

    302608
  • 模型
    +关注

    关注

    1

    文章

    3818

    浏览量

    52269

原文标题:从边缘到云端部署经加速的 Llama 3.2

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA推出Vera CPU以显著提升系统性能与能效

    NVIDIA 今日发布 NVIDIA Vera CPU,这是全球首款专为代理式 AI 与强化学习时代打造的处理器,其效率是传统机架级 CPU 的 2 倍,速度提升 50%。
    的头像 发表于 03-18 14:33 1760次阅读

    如何在Arm Neoverse N2平台上提升llama.cpp扩展性能

    跨 NUMA 内存访问可能会限制 llama.cpp 在 Arm Neoverse 平台上的扩展能力。本文将为你详细分析这一问题,并通过引入原型验证补丁来加以解决。测试结果表明,在基于 Neoverse N2 平台的系统上运行 llama3_Q4_0 模型时,该补丁可使文
    的头像 发表于 02-11 10:06 308次阅读

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一
    的头像 发表于 10-21 11:04 1420次阅读

    使用NVIDIA NVLink Fusion技术提升AI推理性能

    本文详细阐述了 NVIDIA NVLink Fusion 如何借助高效可扩展的 NVIDIA NVLink scale-up 架构技术,满足日益复杂的 AI 模型不断增长的需求。
    的头像 发表于 09-23 14:45 1117次阅读
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion技术<b class='flag-5'>提升</b>AI推理<b class='flag-5'>性能</b>

    TensorRT-LLM的大规模专家并行架构设计

    之前文章已介绍引入大规模 EP 的初衷,本篇将继续深入介绍 TensorRT-LLM 的大规模专家并行架构设计与创新实现。
    的头像 发表于 09-23 14:42 1382次阅读
    <b class='flag-5'>TensorRT</b>-LLM的大规模专家并行架构设计

    DeepSeek R1 MTP在TensorRT-LLM中的实现与优化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 4683次阅读
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的实现与优化

    TensorRT-LLM中的分离式服务

    在之前的技术博客中,我们介绍了低延迟[1] 和高吞吐[2] 场景的优化方法。对于生产部署,用户还关心在满足特定延迟约束的情况下,每个 GPU 的吞吐表现。本文将围绕“吞吐量-延迟”性能场景,介绍 TensorRT-LLM 分离式服务的设计理念、使用方法,以及
    的头像 发表于 08-27 12:29 1980次阅读
    <b class='flag-5'>TensorRT</b>-LLM中的分离式服务

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载

    NVIDIA RTX 与 NVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma 3n 现可借助 RTX 和 NVIDIA
    的头像 发表于 07-16 09:16 2184次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 2428次阅读

    NVIDIA Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1在最小延迟场景中的性能纪录

    本文将探讨 NVIDIA TensorRT-LLM 如何基于 8 个 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延迟场景中的性能纪录:在 G
    的头像 发表于 07-02 19:31 3561次阅读
    <b class='flag-5'>NVIDIA</b> Blackwell GPU优化DeepSeek-R1<b class='flag-5'>性能</b> 打破DeepSeek-R1在最小延迟场景中的<b class='flag-5'>性能</b>纪录

    使用 NPU 插件对量化的 Llama 3.1 8b 模型进行推理时出现“从 __Int64 转换为无符号 int 的错误”,怎么解决?

    安装了 OpenVINO™ GenAI 2024.4。 使用以下命令量化 Llama 3.1 8B 模型: optimum-cli export openvino -m meta-llama
    发表于 06-25 07:20

    全球各大品牌利用NVIDIA AI技术提升运营效率

    欧莱雅、LVMH 集团和雀巢利用 NVIDIA 加速的智能体 AI 和物理 AI,大幅提升产品设计、营销及物流等方面的运营效率。
    的头像 发表于 06-19 14:36 1358次阅读

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Love
    的头像 发表于 06-12 15:37 2078次阅读
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS应用的最佳实践

    ServiceNow携手NVIDIA构建150亿参数超级助手

    Apriel Nemotron 15B 开源大语言模型 (LLM) 使用 NVIDIA NeMo、NVIDIA Llama Nemotron 开放数据集以及 ServiceNow 专业领域数据创建而成,并在
    的头像 发表于 05-12 15:37 1058次阅读

    企业使用NVIDIA NeMo微服务构建AI智能体平台

    已发布的 NeMo 微服务可与合作伙伴平台集成,作为创建 AI 智能体的构建模块,使用商业智能与强大的逻辑推理模型 (包括 NVIDIA Llama Nemotron) 处理更多任务。
    的头像 发表于 04-27 15:05 1489次阅读