0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在NVIDIA Jetson AGX Thor上通过Docker高效部署vLLM推理服务

丽台科技 来源:丽台科技 2025-11-13 14:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

继系统安装与环境配置后,本期我们将继续带大家深入NVIDIAJetson AGX Thor的开发教程之旅,了解如何在 Jetson AGX Thor 上,通过 Docker 高效部署 vLLM 推理服务。

具体内容包括:

vLLM 简介与优势

vLLM Docker 容器构建

使用 vLLM 在线下载模型

使用 vLLM 运行本地模型

使用 Chatbox 作为前端调用 vLLM 运行的模型

一、vLLM 简介与优势

1什么是 vLLM?

vLLM 是一个高效的大语言模型推理和服务引擎,专门优化了注意力机制和内存管理,能够提供极高的吞吐量。

2在 Jetson AGX Thor 上运行 vLLM 的优势:

PagedAttention 技术:显著减少内存碎片,提高 GPU 利用率

Continuous Batching 机制:能够连续动态处理不同长度的请求

开源生态:支持主流开源模型(Llama、Qwen、ChatGLM 等)

二、vLLM Docker 容器构建

在上一期NVIDIA Jetson AGX Thor Developer Kit 开发环境配置教程中,我们已经完成了 Docker 的安装与配置,现在,只需要使用 Docker 拉取 vLLM 镜像即可。

163bee3c-becd-11f0-8c8f-92fbcf53809c.jpg

当前 Docker 版本

1. 参照上期教程介绍的方法,注册并登录 NGC 之后,搜索 vLLM 进入容器页面,点击“Get Container”,复制镜像目录。

169bcfdc-becd-11f0-8c8f-92fbcf53809c.png

2. 在命令行运行docker pull nvcr.io/nvidia/vllm:25.10-py3下载镜像。

16fff49e-becd-11f0-8c8f-92fbcf53809c.jpg

3. 下载完成后,运行容器,创建启动命令。

sudodocker run -d -t
 --net=host
 --gpusall
 --ipc=host
 --name vllm
 -v /data:/data
 --restart=unless-stopped
 nvcr.io/nvidia/vllm:25.10-py3
1756c936-becd-11f0-8c8f-92fbcf53809c.png

注:关键参数说明

-d (detach):后台运行容器

-t (tty):分配一个伪终端,方便日志输出

--name vllm:为容器指定名称"vllm"

--net=host:使用主机网络模式,容器与主机共享网络命名空间

--gpus all:将所有可用的 GPU 设备暴露给容器

--ipc=host:使用主机的 IPC 命名空间,改善进程间通信性能

-v /data:/data:将主机的 /data 目录挂载到容器的 /data 目录,后面可用于持久化模型文件、配置文件等数据

--restart=unless-stopped:Docker 容器的重启策略参数,表示容器在非人工主动停止时(如崩溃、宿主机重启),会自动重启,但若被手动停止,则不会自动恢复

4. 容器创建成功后,使用docker exec -it vllm /bin/bash命令进入此容器。

17b396b6-becd-11f0-8c8f-92fbcf53809c.jpg

三、使用 vLLM 在线下载模型

1. 从 Hugging Face 上下载模型权重:

通常默认的模型下载目录为:.cache/huggingface/hub/,通过设置环境变量,我们将指定模型下载到:export HF_HOME=/data/huggingface目录,然后执行vllm serve "Qwen/Qwen2.5-Math-1.5B-Instruct",此命令会从 Hugging Face 上在线拉取下载模型并开始运行。

180b7b4c-becd-11f0-8c8f-92fbcf53809c.png

2. 等待模型文件下载完成(需科学上网)。

1871ec42-becd-11f0-8c8f-92fbcf53809c.png

注:为方便后续调用,建议通过本地终端确认模型已下载到预设目录(如下图所示)。

18d399f6-becd-11f0-8c8f-92fbcf53809c.png

在没有前端的情况下,可以通过 curl 命令向 vLLM 服务发送聊天请求。

curl http://localhost:8000/v1/chat/completions 
-H "Content-Type: application/json" 
-d '{
 "model":"Qwen/Qwen2.5-Math-1.5B-Instruct",
 "messages": [{"role":"user","content":"12*17"}],
 "max_tokens":500
}'
19303c9c-becd-11f0-8c8f-92fbcf53809c.png

注:关键参数说明

curl:命令行工具,用于传输数据

http://localhost:8000:本地服务器地址和端口

/v1/chat/completions:OpenAI 兼容的聊天补全 API 端点

-H:设置 HTTP 请求头

"Content-Type:application/json":指定请求体为 JSON 格式

-d:设置请求数据

"model":"Qwen/Qwen2.5-Math-1.5B-Instruct":指定要使用的模型,这个名称应该与 vLLM 服务启动时指定的模型名称一致

"messages:[{"role": "user", "content": "12*17"}]:定义对话历史和当前消息

消息对象字段:"role" 指消息角色;"user"指用户消息,"Content"指消息具体内容;"12*17"指用户提出的数学问题

"max_tokens":500:限制模型生成的最大 token 数量

四、使用 vLLM 运行本地模型

如前所述,模型已下载保存至本地指定目录,可以直接通过其路径启动服务。

以上方“Qwen/Qwen2.5-Math-1.5B-Instruct”为例,该模型权重路径为:

“/data/huggingface/hub/models--Qwen--Qwen2.5-Math-1.5B-Instruct/snapshots/aafeb0fc6f22cbf0eaeed126eff8be45b0360a35”。

1999a84e-becd-11f0-8c8f-92fbcf53809c.png

执行以下命令,即可正常运行本地模型。

vllmserve /data/huggingface/hub/models--Qwen--Qwen2.5-Math-1.5B-Instruct/snapshots/aafeb0fc6f22cbf0eaeed126eff8be45b0360a35

五、使用 Chatbox 作为前端调用 vLLM 运行的模型

1. 局域网内访问 Chatbox 官网(https://chatboxai.app),下载并安装Windows版本。

2. 点击“设置提供方” — “添加”,输入名称,再次点击“添加”。

19f5c912-becd-11f0-8c8f-92fbcf53809c.png1a5214ce-becd-11f0-8c8f-92fbcf53809c.jpg1ab1a2ea-becd-11f0-8c8f-92fbcf53809c.png

上下滑动 点击查看

3. API 主机可输入 Jetson AGX Thor 主机 IP 以及 vLLM 服务端口号。

(例:http://192.168.23.107:8000)

1b0a7c44-becd-11f0-8c8f-92fbcf53809c.jpg

4. 选择 vLLM 运行的模型,点击“+”。

1b622d7c-becd-11f0-8c8f-92fbcf53809c.jpg1bbdab66-becd-11f0-8c8f-92fbcf53809c.jpg

5. 点击“新对话”,右下角选择该模型即可开启对话。

1c156f36-becd-11f0-8c8f-92fbcf53809c.jpg

6. 运行示例

由于 Qwen2.5-Math 是一款数学专项大语言模型,我们在此示例提问一个数学问题,运行结果如下:

1c6c678c-becd-11f0-8c8f-92fbcf53809c.jpg

更多精彩教程,敬请期待!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5509

    浏览量

    109149
  • 模型
    +关注

    关注

    1

    文章

    3655

    浏览量

    51753
  • 开发环境
    +关注

    关注

    1

    文章

    253

    浏览量

    17553
  • Docker
    +关注

    关注

    0

    文章

    526

    浏览量

    14046

原文标题:轻松部署!在 NVIDIA Jetson AGX Thor 上使用 Docker 部署 vLLM 推理服务

文章出处:【微信号:Leadtek,微信公众号:丽台科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA Jetson AGX Thor Developer Kit开发环境配置指南

    NVIDIA Jetson AGX Thor 专为物理 AI 打造,与上一代产品 NVIDIA Jets
    的头像 发表于 11-08 09:55 6288次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> <b class='flag-5'>Thor</b> Developer Kit开发环境配置指南

    京东和美团已选用NVIDIA Jetson AGX Xavier 平台

    电商巨头选用NVIDIA Jetson AGX Xavier打造下一代配送机器人 京东、美团采用NVIDIA AI计算平台,以满足大量处理需求
    的头像 发表于 08-01 14:54 1374次阅读

    NVIDIA Jetson介绍

    首发极术社区如对Arm相关技术感兴趣,欢迎私信 aijishu20加入技术微信群。分享内容NVIDIA Jetson是嵌入式计算平台,具有低功耗、高性能和小体积等特点,可加速各行业的AI应用落地
    发表于 12-14 08:05

    怎么做才能通过Jetson Xavier AGX构建android图像呢?

    我正在使用 NvidiaJetson Xavier AGX 按照“android 用户指南”为 imx8 qm Mek 套件构建 android 图像(android 13)。当我运行命令
    发表于 06-07 08:58

    NVIDIA Jetson AGX Orin提升边缘AI标杆

    最新发布的 NVIDIA Jetson AGX Orin 提升边缘 AI 标杆,使我们在最新一轮行业推理基准测试中的领先优势更加明显。
    的头像 发表于 04-09 08:24 2290次阅读

    使用NVIDIA Jetson AGX Xavier部署新的自主机器

    Jetson AGX Xavier 目前在 VGG19 推理方面的效率比 Jetson TX2 高 7 倍多,使用 ResNet-50 的效率高 5 倍,考虑到未来的软件优化和增强,效
    的头像 发表于 04-18 15:17 7925次阅读

    NVIDIA 推出 Jetson AGX Orin 工业级模块助力边缘 AI

    Jetson 边缘 AI 和机器人平台 ,您可以在此类复杂的环境中部署 AI 和传感器融合算法。 NVIDIA 在 COMPUTEX 2023 发布了全新
    的头像 发表于 06-05 10:45 2021次阅读
    <b class='flag-5'>NVIDIA</b> 推出 <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> Orin 工业级模块助力边缘 AI

    利用 NVIDIA Jetson 实现生成式 AI

    交互速率运行的 Llama-2-70B 模型。 图 1. 领先的生成式 AI 模型在  Jetson AGX Orin 推理性能 如要在 Jet
    的头像 发表于 11-07 21:25 2097次阅读
    利用 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> 实现生成式 AI

    NVIDIA Jetson AGX Thor开发者套件概述

    NVIDIA Jetson AGX Thor 开发者套件为您提供出色的性能和可扩展性。它由 NVIDIA Blackwell GPU和128
    的头像 发表于 08-11 15:03 1624次阅读

    基于 NVIDIA Blackwell 的 Jetson Thor 现已发售,加速通用机器人时代的到来

    ·专为物理 AI 和机器人打造的机器人计算机 NVIDIA Jetson AGX Thor 开发者套件和量产级模组,现已发售。 ·超过 200 万开发者正在使用
    发表于 08-26 09:28 1213次阅读
    基于 <b class='flag-5'>NVIDIA</b> Blackwell 的 <b class='flag-5'>Jetson</b> <b class='flag-5'>Thor</b> 现已发售,加速通用机器人时代的到来

    NVIDIA三台计算机解决方案如何协同助力机器人技术

    NVIDIA DGX、基于 NVIDIA RTX PRO 服务器的 Omniverse 和 Cosmos,以及 Jetson AGX
    的头像 发表于 08-27 11:48 2039次阅读

    NVIDIA Jetson AGX Thor开发者套件重磅发布

    开发者与未来创造者们,准备好迎接边缘AI的史诗级革新了吗?NVIDIA以颠覆性技术再次突破极限,正式推出Jetson AGX Thor开发者套件!作为继传奇产品
    的头像 发表于 08-28 14:31 1260次阅读

    ADI借助NVIDIA Jetson Thor平台加速人形机器人研发进程

    当前,人形机器人正逐步迈向实际应用部署阶段,其落地节奏取决于物理智能与实时推理能力的发展。随着NVIDIA Jetson Thor平台的正式
    的头像 发表于 08-29 14:07 2684次阅读

    通过NVIDIA Jetson AGX Thor实现7倍生成式AI性能

    Jetson Thor 平台还支持多种主流量化格式,包括 NVIDIA Blackwell GPU 架构的新 NVFP4 格式,有助于进一步优化推理性能。该平台同时支持推测解码等新技术
    的头像 发表于 10-29 16:53 1104次阅读

    NVIDIA Jetson系列开发者套件助力打造面向未来的智能机器人

    NVIDIA Jetson AGX ThorAGX Orin 以及 Jetson Orin N
    的头像 发表于 12-13 10:20 1684次阅读