0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA RTX AI Toolkit拥抱LoRA技术

NVIDIA英伟达 来源:NVIDIA英伟达 2024-11-20 09:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在 RTX AI PC 和工作站上使用最新版 RTX AI Toolkit 微调 LLM,最高可将性能提升至原来的 6 倍。

凭借其快速理解、总结和生成基于文本的内容的能力,大语言模型(LLM)正在推动 AI 领域中的一些极为激动人心的发展。

LLM 的这些能力可支持各种场景,包括生产力工具、数字助理、电子游戏中的 NPC 等。但它们并非万能的解决方案,开发者通常必须对 LLM 进行微调,使 LLM 适应他们应用的需求。

NVIDIA RTX AI Toolkit 可通过一种名为“低秩自适应(LoRA)”的技术,让用户轻松地在 RTX AI PC 和工作站上微调和部署 AI 模型。现已推出的最新版支持在 NVIDIA TensorRT-LLM AI 加速库中同时使用多个 LoRA,最高可将微调模型的性能提升至原来的 6 倍。

通过微调提升性能

LLM 必须经过精心定制,才能实现更高的性能并满足用户日益增长的需求。

虽然这些基础模型是基于海量数据训练出来的,但它们通常缺乏开发者的特定场景所需的上下文。例如,通用型 LLM 可以生成游戏对话,但很可能会忽略文风的细微差别和微妙之处。例如,以一位有着黑暗过往并蔑视权威的林地精灵的口吻编写对话时,LLM 很有可能会忽略需要展现出来的微妙文风。

为了获得更符合自己需求的输出,开发者可以使用与应用场景相关的信息对模型进行微调。

以开发一款利用 LLM 生成游戏内对话的应用为例。微调时,首先需要使用预训练模型的权重,例如角色可能会在游戏中说出的内容的相关信息。为使对话符合相应文风,开发者可以基于较小的示例数据集(例如以更诡异或更邪恶的语气编写的对话)调整模型。

在某些情况下,开发者可能希望同时运行所有不同的微调流程。例如,他们可能希望为不同的内容频道生成以不同的语气编写的营销文案。同时,他们可能还希望总结文档并提出文风方面的建议,以及为文生图工具起草电子游戏场景描述和图像提示词。

同时运行多个模型并不现实,因为 GPU 显存无法同时容纳所有模型。即使能同时容纳,模型的推理时间也会受制于显存带宽(即 GPU 从显存读取数据的速度)。

拥抱 LoRA 技术

解决上述问题的常用方法是使用低秩自适应(LoRA)等微调技术。简单来说,您可以将这种技术视为补丁文件,其中包含微调流程中的定制过程。

训练完毕后,定制的 LoRA 可以在推理过程中与基础模型无缝集成,额外的性能开销极少。开发者可以将多个 LoRA 连接到单个模型上,以服务多种场景。这样既能使显存占用率保持在较低水平,又能为各个特定场景提供所需的额外细节内容。

2a5badd8-9ffe-11ef-93f3-92fbcf53809c.png

使用多 LoRA 功能通过单个基础模型同时支持多个客户端和场景的架构图

在实际操作中,这意味着应用可以在显存中只保留一个基础模型,同时使用多个 LoRA 实现多种定制。

这个过程称为多 LoRA 服务。当对模型进行多次调用时,GPU 可以并行处理所有调用,更大限度地利用其 Tensor Core 并尽可能减少对显存和带宽的需求,以便开发者在工作流中高效使用 AI 模型。使用多 LoRA 的微调模型的性能最高可提升至原来的 6 倍。

2a7c2450-9ffe-11ef-93f3-92fbcf53809c.png

在 GeForce RTX 4090 台式电脑 GPU 上运行 Llama 3B int4 时,应用 LoRA 的 LLM 的推理性能。输入序列长度为 1,000 个 token,输出序列长度为 100 个 token。LoRA 最大秩为 64。

在前文所述的游戏内对话应用的示例中,通过使用多 LoRA 服务,应用的范围可以扩展到同时生成剧情元素和插图,两者都是由单个提示驱动的。

用户可以输入基本的剧情创意,然后 LLM 会充实这个概念,在基本创意的基础上进行扩展,提供详细的基础剧情。然后,应用可以使用相同的模型,并通过两个不同的 LoRA 进行增强,以完善剧情并生成相应的图像。其中一个 LoRA 负责生成 Stable Diffusion 提示词,以便使用本地部署的 Stable Diffusion XL 模型创建视觉效果。同时,另一个针对剧情写作进行微调的 LoRA 可以编写出结构合理、引人入胜的叙事内容。

在这种情况下,两次推理均使用相同的模型,这可确保推理过程所需的空间不会显著增加。第二次推理涉及文本和图像生成,采用批量推理的方式执行。这使得整个过程能够在 NVIDIA GPU 上异常快速且高效地推进。这样一来,用户便能快速迭代不同版本的剧情,轻松完善叙事和插图。

LLM 正在成为现代 AI 的一大重要组成部分。随着采用率和集成率的提升,对于功能强大、速度快、具有特定于应用的定制功能的 LLM 的需求也将与日俱增。RTX AI Toolkit 新增的多 LoRA 支持可为开发者提供强有力的全新方法来加速满足上述需求。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5687

    浏览量

    110112
  • AI
    AI
    +关注

    关注

    91

    文章

    41101

    浏览量

    302576
  • 模型
    +关注

    关注

    1

    文章

    3818

    浏览量

    52265

原文标题:不同凡响:NVIDIA RTX AI Toolkit 现提供多 LoRA 支持

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA RTX加速的计算机现可直接连接到Apple Vision Pro

    NVIDIA 与 Apple 协作将 NVIDIA CloudXR 6.0 原生集成到 visionOS 中,安全地将基于 NVIDIA RTX 的仿真器和专业 3D 图形应用,如
    的头像 发表于 03-23 15:03 493次阅读

    NVIDIA和ComfyUI携手简化本地AI视频生成工作流

    借助 ComfyUI 的应用视图、NVIDIA RTX Video 超分辨率和全新的 NVFP4 模型,AI 驱动的视频生成更加易用。
    的头像 发表于 03-14 16:37 2491次阅读
    <b class='flag-5'>NVIDIA</b>和ComfyUI携手简化本地<b class='flag-5'>AI</b>视频生成工作流

    NVIDIA RTX PRO 5000 Blackwell GPU的深度评测

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升级迭代产品,其各项核心指标均针对 GPU 加速工作流的
    的头像 发表于 01-06 09:51 4008次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> PRO 5000 Blackwell GPU的深度评测

    NVIDIA RTX PRO 4000 Blackwell GPU性能测试

    作为 NVIDIA 专业显卡产品线中单槽性能的巅峰之作,NVIDIA RTX PRO 4000 Blackwell 在各项核心指标上均实现对前代 NVIDIA
    的头像 发表于 12-29 15:30 1832次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> PRO 4000 Blackwell GPU性能测试

    NVIDIA RTX PRO 5000 72GB Blackwell GPU现已全面上市

    NVIDIA RTX PRO 5000 72GB Blackwell GPU 现已全面上市,将基于 NVIDIA Blackwell 架构的强大代理式与生成式 AI 能力带到更多桌面和
    的头像 发表于 12-24 10:32 1093次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> PRO 5000 72GB Blackwell GPU现已全面上市

    NVIDIA RTX PRO 2000 Blackwell GPU性能测试

    越来越多的应用正在使用 AI 加速,而无论工作站的大小或形态如何,都有越来越多的用户需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新
    的头像 发表于 11-28 09:39 6984次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> PRO 2000 Blackwell GPU性能测试

    Lora技术应用领域

    1. 物联网应用:Lora技术的远距离传输特性使其在物联网应用中得到广泛应用。通过Lora技术,可以实现智能城市、智能家居、智能农业等多种物联网应用,为人们的生活带来便利和舒适。 2.
    发表于 11-26 08:10

    lora通信技术的特点

    1.低功耗   LoRa通信技术采用了一种先进的调制方式,能够在低功耗的情况下实现远距离通信。这使得LoRa通信技术非常适合用于物联网设备等需要长时间运行的应用场景。 2.长距离  
    发表于 11-20 07:50

    使用NVIDIA NVLink Fusion技术提升AI推理性能

    本文详细阐述了 NVIDIA NVLink Fusion 如何借助高效可扩展的 NVIDIA NVLink scale-up 架构技术,满足日益复杂的 AI 模型不断增长的需求。
    的头像 发表于 09-23 14:45 1111次阅读
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion<b class='flag-5'>技术</b>提升<b class='flag-5'>AI</b>推理性能

    NVIDIA RTX PRO 4500 Blackwell GPU测试分析

    今天我们带来全新 NVIDIA Blackwell 架构 GPU —— NVIDIA RTX PRO 4500 Blackwell 的测试,对比上一代产品 NVIDIA
    的头像 发表于 08-28 11:02 4353次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> PRO 4500 Blackwell GPU测试分析

    NVIDIA RTX PRO 4500 Blackwell产品特性

    AI 浪潮正席卷全球,驱动着各行各业的深刻变革。面对生成式 AI 的创意爆发、实时仿真的复杂需求以及逼真渲染的品质追求,企业亟需强大的工具来拥抱这股变革力量。
    的头像 发表于 08-05 16:39 2403次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> PRO 4500 Blackwell产品特性

    新唐科技推出高效AI MCU部署工具NuML Toolkit

    随着 AI 技术加速导入各类嵌入式系统,如何将训练完成的 AI 模型顺利部署至资源有限的微控制器成为工程师面对的重大挑战。为协助开发者快速落地 AI 方案,新唐科技推出 NuML
    的头像 发表于 08-01 17:21 2475次阅读

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载

    NVIDIA RTXNVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma 3n 现可借助 RTX
    的头像 发表于 07-16 09:16 2175次阅读

    制作团队如何借助NVIDIA RTX AI让创意成真

    艺术家和开发者已经在利用生成式 AI 简化工作、突破创意边界,无论是探索概念、设计虚拟世界还是构建智能应用。借助 RTX AI PC,用户能够将最新、最强大的模型和工具,以及强大的 AI
    的头像 发表于 07-09 16:28 927次阅读

    NVIDIA计划打造全球首个工业AI云平台

    NVIDIA 宣布,其正在为欧洲制造商构建全球首个工业 AI 云。这家总部位于德国的 AI 工厂将配备 1 万个 GPU,包括通过 NVIDIA DGX B200 系统 和
    的头像 发表于 06-16 14:17 1615次阅读