0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

LM Studio使用NVIDIA技术加速LLM性能

NVIDIA英伟达 来源:NVIDIA英伟达 2025-06-06 15:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着 AI 使用场景不断扩展(从文档摘要到定制化软件代理),开发者和技术爱好者正在寻求以更 快、更灵活的方式来运行大语言模型(LLM)。

在配备 NVIDIA GeForce RTX GPU 的 PC 上本地运行模型,可实现高性能推理、增强型数据隐私保护,以及对 AI 部署与集成的完全控制。LM Studio 等工具(可免费试用)使这一切成为可能,为用户提供了在自有硬件上探索和构建 LLM 的便捷途径。

LM Studio 已成为最主流的本地 LLM 推理工具之一。该应用基于高性能 llama.cpp 运行时构建,支持完全离线运行模型,还可作为兼容 OpenAI 应用编程接口(API)的端点,无缝集成至定制化工作流程。

得益于 CUDA 12.8,LM Studio 0.3.15 的推出提升了 RTX GPU 的性能,模型加载和响应时间均有显著改善。此次更新还推出数项面向开发者的全新功能,包括通过“tool_choice”参数增强工具调用能力和重新设计的系统提示词编辑器。

LM Studio 的最新改进提高了它的性能和易用性——实现了 RTX AI PC 上迄今最高的吞吐量。这意味着更快的响应速度、更敏捷的交互体验,以及更强大的本地 AI 构建与集成工具。

日常 App 与 AI 加速相遇

LM Studio 专为灵活性打造 —— 既适用于随意的实验,也可完全集成至定制化工作流。用户可以通过桌面聊天界面与模型交互,或启用开发者模式部署兼容 OpenAI API 的端点。这使得将本地大语言模型连接到 VS Code 等应用的工作流或定制化桌面智能体变得轻而易举。

例如,LM Studio 可以与 Obsidian 集成,后者是一款广受欢迎的 Markdown 知识管理应用。使用 Text Generator 和 Smart Connections 等社区开发的插件,用户可以生成内容、对研究进行摘要并查询自己的笔记 —— 所有功能均由基于 LM Studio 运行的本地大语言模型提供支持。这些插件直接连接到 LM Studio 的本地服务器,无需依赖云服务即可实现快速且私密的 AI 交互。

541639bc-4149-11f0-b715-92fbcf53809c.png

使用 LM Studio 生成由 RTX 加速的笔记的示例

0.3.15 更新新增多项开发者功能,包括通过“tool_choice”参数实现更细粒度的工具控制,以及经过升级、支持更长或更复杂提示词的系统提示词编辑器。

tool_choice 参数使开发者能够控制模型与外部工具的交互方式 —— 无论是强制调用工具、完全禁用工具,还是允许模型动态决策。这种增强的灵活性对于构建结构化交互、检索增强生成(RAG)工作流或智能体工作流尤为重要。这些更新共同增强了开发者基于大语言模型开展实验和生产用途两方面的能力。

LM Studio 支持广泛的开源模型(包括 Gemma、Llama 3、Mistral 和 Orca),支持从 4 位到全精度的各种量化格式。

常见场景涵盖 RAG、长上下文窗口多轮对话、基于文档的问答和本地智能体工作流。而 NVIDIA RTX 加速的 llama.cpp 软件库可以作为本地推理服务器,让 RTX AI PC 用户轻松利用本地大语言模型。

无论是为紧凑型 RTX 设备实现能效优化,还是在高性能台式机上更大限度地提高吞吐量,LM Studio 能够在 RTX 平台上提供从全面控制、速度到隐私保障的一切。

体验 RTX GPU 的最大吞吐量

LM Studio 加速的核心在于 llama.cpp —— 这是一款专为基于消费级硬件进行高效推理而设计的开源运行时。NVIDIA 与 LM Studio 和 llama.cpp 社区展开合作,集成多项增强功能,以尽可能充分地发挥 RTX GPU 的性能。

关键优化包括:

CUDA 计算图优化:将多个 GPU 操作聚合为单次 CPU 调用,从而降低 CPU 负载并可将模型吞吐量提高最多达 35%。

Flash Attention CUDA 内核:通过改进大语言模型的注意力处理机制(Transformer 模型的核心运算),实现吞吐量额外提升 15%。这可以在不增加显存或算力需求的前提下,支持更长的上下文窗口。

支持最新 RTX 架构:LM Studio 升级至 CUDA 12.8 版本,确保全面兼容从 GeForce RTX 20 系列到 NVIDIA Blackwell 架构 GPU 的全部 RTX AI PC 设备,使用户能够灵活扩展其本地 AI 工作流 —— 从笔记本电脑到高端台式机。

543e8a7a-4149-11f0-b715-92fbcf53809c.png

数据展示了不同版本的 LM Studio 和 CUDA 后端在 GeForce RTX 5080 上运行 DeepSeek-R1-Distill-Llama-8B 模型的性能数据。所有配置均使用 Q4_K_M GGUF(Int4)量化,在 BS=1、ISL=4000、OSL=200 并开启 Flash Attention 的条件下测量。得益于 NVIDIA 对 llama.cpp 推理后端的贡献,CUDA 计算图在最新版本的 LM Studio 中实现了约 27% 的加速。

借助兼容的驱动,LM Studio 可自动升级到 CUDA 12.8 运行时,从而显著缩短模型加载时间并提高整体性能。

这些增强功能显著提升了所有 RTX AI PC 设备的推理流畅度与响应速度 —— 从轻薄笔记本到高性能台式机与工作站。

LM Studio 使用入门

LM Studio 提供免费下载,支持 Windows、macOS 和 Linux 系统。借助最新的 0.3.15 版本以及持续优化,用户将在性能、定制化与易用性方面得到持续提升 —— 让本地 AI 更快、更灵活、更易用。

用户既能通过桌面聊天界面加载模型,也可以启用开发者模式,开放兼容 OpenAI API 的接口。

要快速入门,请下载最新版本的 LM Studio 并打开应用。

1、点击左侧面板上的放大镜图标以打开 Discover(发现)菜单。

548d7d24-4149-11f0-b715-92fbcf53809c.png

2、选择左侧面板中的运行时设置,然后在可用性列表中搜索 CUDA 12 llama.cpp(Windows)运行时。点击按钮进行下载与安装。

54abbb54-4149-11f0-b715-92fbcf53809c.png

3、安装完成后,通过在“默认选择”下拉菜单中选择 CUDA 12 llama.cpp(Windows),将 LM Studio 默认配置为此运行时环境。

54cb519e-4149-11f0-b715-92fbcf53809c.png

4、完成 CUDA 执行优化的最后步骤:在 LM Studio 中加载模型后,点击已加载模型左侧的齿轮图标进入设置菜单。

54eddd0e-4149-11f0-b715-92fbcf53809c.png

5、在展开的下拉菜单中,将“Flash Attention”功能切换为开启状态,并通过向右拖动“GPU Offload”(GPU 卸载)滑块将所有模型层转移至 GPU。

55092c4e-4149-11f0-b715-92fbcf53809c.png

完成这些功能的启用与配置后,即可在本地设备上运行 NVIDIA GPU 推理任务了。

LM Studio 支持模型预设、多种量化格式及开发者控制项比如 tool_choice,以实现调优的推理。对于希望参与贡献的开发者,llama.cpp 的 GitHub 仓库持续积极维护,并随着社区与 NVIDIA 驱动的性能优化持续演进。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109110
  • Studio
    +关注

    关注

    2

    文章

    221

    浏览量

    30561
  • LLM
    LLM
    +关注

    关注

    1

    文章

    341

    浏览量

    1258

原文标题:LM Studio 借助 NVIDIA GeForce RTX GPU 和 CUDA 12.8 加速 LLM 性能

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Love
    的头像 发表于 06-12 15:37 1308次阅读
    使用<b class='flag-5'>NVIDIA</b> Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS应用的最佳实践

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产
    的头像 发表于 07-04 14:38 1760次阅读

    《CST Studio Suite 2024 GPU加速计算指南》

    问题,但会降低旧GPU硬件性能,可通过NVIDIA控制面板或命令行工具nvidia - smi管理。 - TCC模式(Windows only):某些GPU计算需要启用,可通过命令行工具nv
    发表于 12-16 14:25

    NVIDIA Jetson介绍

    首发极术社区如对Arm相关技术感兴趣,欢迎私信 aijishu20加入技术微信群。分享内容NVIDIA Jetson是嵌入式计算平台,具有低功耗、高性能和小体积等特点,可
    发表于 12-14 08:05

    NVIDIA Studio开创创意性能的新时代

    顶尖的游戏美术师、制作人、开发者和设计师在一年一度游戏开发者大会(GDC)齐聚一堂。在他们交流创意、相互学习和启发的同时,由RTX加速应用、硬件和驱动程序组成的NVIDIA Studio生态系统也助
    的头像 发表于 08-02 11:22 2470次阅读

    NVIDIA Studio技术如何加速创意工作流

    编辑注:本文是 NVIDIA Studio 创意加速系列的一部分,该系列旨在介绍一些特邀艺术家、提供创意提示和技巧,并展示 NVIDIA Studi
    的头像 发表于 08-12 11:21 1630次阅读

    GTC 大会亮点 NVIDIA Studio AI 助力艺术加速

    GTC 大会亮点 NVIDIA Studio AI 助力艺术加速 NVIDIA Studio 技术
    的头像 发表于 03-22 18:24 2967次阅读

    GTC23 | NVIDIA性能加速网络专场限时回放已开启!

    欢迎收看 NVIDIA性能加速网络专场回放! NVIDIA性能加速网络专场涵盖六大主题,
    的头像 发表于 03-25 22:05 1277次阅读

    周四研讨会预告 | 注册报名 NVIDIA AI Inference Day - 大模型推理线上研讨会

    推理加速和部署的服务化实现管道、性能收益,以及金融行业加速计算解决方案,为您 LLM 和生成式 AI 开发的增效降本提供领先的技术路线参考
    的头像 发表于 10-26 09:05 649次阅读

    现已公开发布!欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

    NVIDIA 于 2023 年 10 月 19 日公开发布 TensorRT-LLM ,可在 NVIDIA GPU 上加速和优化最新的大语言模型(Large Language Mode
    的头像 发表于 10-27 20:05 1821次阅读
    现已公开发布!欢迎使用 <b class='flag-5'>NVIDIA</b> TensorRT-<b class='flag-5'>LLM</b> 优化大语言模型推理

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM
    的头像 发表于 04-28 10:36 1495次阅读

    LLM大模型推理加速的关键技术

    LLM(大型语言模型)大模型推理加速是当前人工智能领域的一个研究热点,旨在提高模型在处理复杂任务时的效率和响应速度。以下是对LLM大模型推理加速关键
    的头像 发表于 07-24 11:38 2791次阅读

    解锁NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术,包括自定义 Attention Kernel、Inflight
    的头像 发表于 12-17 17:47 1612次阅读

    Votee AI借助NVIDIA技术加速方言小语种LLM开发

    了精准的方言及小语种大语言模型 (LLM)。此举成功解决了数据稀缺、语言复杂及计算效率等挑战,为全球数以百万计、缺乏数字化资源的语言使用者提供了技术支持。
    的头像 发表于 08-20 14:21 651次阅读

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实
    的头像 发表于 10-21 11:04 770次阅读