0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在openEuler上基于vLLM Ascend部署Qwen3

开放原子 来源:开放原子 2025-05-07 14:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,阿里巴巴正式发布新一代Qwen大语言模型系列(Qwen3与Qwen3-MoE),在模型规模与性能上实现多方面升级。openEuler社区团队与vLLM社区通力合作,在第一时间完成Qwen3模型验证。目前,开发者可以基于OpenAtom openEuler(简称“openEuler”)和vLLM在昇腾设备上完成 Qwen3 推理。

7e9ed7b2-24e2-11f0-9310-92fbcf53809c.png

新一代Qwen大语言模型主要包含2个版本:

Qwen3,包括Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B

Qwen3-MoE,包括Qwen3-MoE-15B-A2B、Qwen3-30B-A3B、Qwen3-235B-A22B

早在4月中旬,vLLM发布的v0.8.4版本中已经包括对Qwen3最新结构的支持。随即,vLLM社区的vLLM Ascend团队同步发布了v0.8.4rc1版本,并完成了跟进和适配。在该版本中,openEuler成为上游默认支持的操作系统之一,同步发布容器镜像。

Qwen3发布后,openEuler社区与vLLM社区通力合作,在第一时间完成Qwen3模型验证,这意味着开发者现在就可以一键拉起基于openEuler的vLLM-Ascend容器镜像在昇腾设备上实现Qwen3的推理。

快速体验Qwen3

体验之前,您需确认固件/驱动已正确安装,可运行如下命令确认:

npu-smi info

您可以使用如下命令,一键拉起基于openEuler的vLLM-Ascend容器镜像:

# Update DEVICE according to your device (/dev/davinci[0-7])
exportDEVICE=/dev/davinci0
# Update the openeuler-vllm-ascend image
exportIMAGE=quay.io/ascend/vllm-ascend:v0.8.4rc2-openeuler
docker run --rm
--name openeuler-vllm-ascend 
--device$DEVICE
--device /dev/davinci_manager 
--device /dev/devmm_svm 
--device /dev/hisi_hdc 
-v /usr/local/dcmi:/usr/local/dcmi 
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi 
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ 
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info 
-v /etc/ascend_install.info:/etc/ascend_install.info 
-v /root/.cache:/root/.cache 
-p 8000:8000 
-it$IMAGEbash

进入容器环境后,使用ModelScope平台进行下载加速:

exportVLLM_USE_MODELSCOPE=true

在线推理

您可以使用vLLM和vLLM Ascend一键部署在线推理服务:

vllmserve Qwen/Qwen3-8B

服务启动后,您可以通过curl请求来进行内容生成:

curl http://localhost:8000/v1/completions 
-H"Content-Type: application/json"
-d '{"model":"Qwen/Qwen3-8B","prompt":"The future of AI is","max_tokens":5, "temperature":0}'|python3-m json.tool

离线推理

您可以使用vLLM和vLLM Ascend进行离线推理。

以下是example.py的示例:

fromvllmimportLLM, SamplingParams
prompts = [
 "Hello, my name is",
 "The future of AI is",]
# Create a sampling params object.
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
# Create an LLM.
llm = LLM(model="Qwen/Qwen3-8B")
# Generate texts from the prompts.
outputs = llm.generate(prompts, sampling_params)
foroutputinoutputs:
  prompt = output.prompt
  generated_text = output.outputs[0].text
 print(f"Prompt:{prompt!r}, Generated text:{generated_text!r}")

运行以上脚本即可使用vLLM和vLLM Ascend进行推理:

#exportVLLM_USE_MODELSCOPE=trueto speed up downloadifhuggingface is not reachable.
python example.py

推理结果如下图所示:

7eb22d3a-24e2-11f0-9310-92fbcf53809c.png

问题反馈

若您在openEuler上部署与运行Qwen3时遇到任何问题,可在openEuler官方论坛【Qwen3 on openEuler】问题收集与讨论专帖下面进行反馈。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 操作系统
    +关注

    关注

    37

    文章

    7437

    浏览量

    129621
  • 模型
    +关注

    关注

    1

    文章

    3818

    浏览量

    52269
  • 昇腾
    +关注

    关注

    1

    文章

    187

    浏览量

    7553
  • openEuler
    +关注

    关注

    2

    文章

    340

    浏览量

    6764

原文标题:抢先体验!在openEuler上基于vLLM Ascend部署Qwen3

文章出处:【微信号:开放原子,微信公众号:开放原子】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Intel OpenVINO™ Day0 实现阿里通义 Qwen3 快速部署

    本文将以 Qwen3-8B 为例,介绍如何利用 OpenVINO 的 Python API 英特尔平台(GPU, NPU)Qwen3 系列模型。
    的头像 发表于 05-11 11:36 1884次阅读
    Intel OpenVINO™ Day0 实现阿里通义 <b class='flag-5'>Qwen3</b> 快速<b class='flag-5'>部署</b>

    NVIDIA使用Qwen3系列模型的最佳实践

    阿里巴巴近期发布了其开源的混合推理大语言模型 (LLM) 通义千问 Qwen3,此次 Qwen3 开源模型系列包含两款混合专家模型 (MoE),235B-A22B(总参数 2,350 亿,激活参数
    的头像 发表于 05-08 11:45 3218次阅读
    NVIDIA使用<b class='flag-5'>Qwen3</b>系列模型的最佳实践

    使用 Canonical MAAS 部署 openEuler 测试

    云、HPC 场景时,使用MAAS 是减少运维成本的最佳选择之一。本文的测试 中,展示了如何通过Packer 为 MAAS 构建 openEuler 映像并验证MAAS部署,可使用的临时解决方法以及如
    发表于 08-24 11:43

    壁仞科技完成阿里巴巴通义千问Qwen3全系列模型支持

    Qwen3部署成本大幅下降 Qwen3包括两款混合专家(MoE)模型Qwen3-235B-A22B和Qwen3-30B-A3B;同时还包括
    的头像 发表于 04-30 15:19 1712次阅读

    几B都有!BM1684X一键适配全系列Qwen3

    Qwen3发布,大小尺寸通吃Qwen3一发布,登顶开源大模型排行榜!235B、32B、8B、4B、1.7B云边端全尺寸模型,BF16和FP8两种精度,一次性发布,无论云端大卡还是边缘AI设备,都可
    的头像 发表于 04-30 18:37 1658次阅读
    几B都有!BM1684X一键适配全系列<b class='flag-5'>Qwen3</b>

    中科曙光DeepAI深算智能引擎全面支持Qwen3

    日前,Qwen3正式发布并全部开源8款混合推理模型。作为Qwen系列中的最新一代大型语言模型,Qwen3推理、指令遵循、工具调用、多语言能力等方面实现全面增强。
    的头像 发表于 05-06 15:17 1325次阅读

    摩尔线程GPU率先支持Qwen3全系列模型

    近日,阿里云正式发布Qwen3系列的8款开源混合推理模型。摩尔线程团队模型发布当天,率先完成了Qwen3全系列模型全功能GPU的高效支
    的头像 发表于 05-07 15:24 1133次阅读

    寒武纪率先支持Qwen3全系列模型

    近日,阿里Qwen团队一口气上新8大模型,Qwen3正式发布并全部开源。
    的头像 发表于 05-07 15:51 1151次阅读

    后摩智能NPU适配通义千问Qwen3系列模型

    近日,阿里云重磅推出Qwen3 系列开源混合推理模型。用时不到1天,后摩智能自研NPU迅速实现Qwen3 系列模型(Qwen3 0.6B-14B)端边侧的高效
    的头像 发表于 05-07 16:46 1546次阅读

    MediaTek天玑9400率先完成阿里Qwen3模型部署

    通义大模型团队天玑 9400 旗舰移动平台上率先完成 Qwen3(千问 3)的端侧部署。未来,搭载天玑 9400 移动平台的设备可充分发挥端侧 AI 性能潜力,运行千问
    的头像 发表于 05-08 10:11 1511次阅读

    NVIDIA RTX 5880 Ada与Qwen3系列模型实测报告

    近日,阿里巴巴通义千问团队正式推出新一代开源大语言模型——Qwen3 系列,该系列包含 6 款 Dense 稠密模型和 2 款 MoE 混合专家模型,参数规模覆盖 0.6B 至 235B,构建了覆盖
    的头像 发表于 05-09 15:05 4683次阅读
    NVIDIA RTX 5880 Ada与<b class='flag-5'>Qwen3</b>系列模型实测报告

    Arm CPU适配通义千问Qwen3系列模型

    与阿里巴巴开源的轻量级深度学习框架 MNN 已深度集成。得益于此,Qwen3-0.6B、Qwen3-1.7B 及 Qwen3-4B 三款模型能够搭载 Arm 架构 CPU 的移动设
    的头像 发表于 05-12 16:37 1593次阅读

    壁仞科技完成Qwen3旗舰模型适配

    近日,高效适配Qwen3系列模型推理后,壁仞科技宣布完成旗舰版Qwen3-235B-A22B模型的训练适配和优化。由此,壁仞科技已实现Qwen3系列模型
    的头像 发表于 05-16 16:23 1168次阅读

    广和通加速通义千问Qwen3端侧全面落地

    6月,广和通宣布:率先完成通义千问Qwen3系列混合推理模型高通QCS8550平台端侧的适配部署。广和通通过定制化混合精度量化方案与创新硬件加速算法,成功突破Qwen3新型架构
    的头像 发表于 06-25 15:35 1344次阅读

    DFRobot亮相贸泽电子elexcon 2025展台,展示与Qwen3大模型融合的AI应用

    8月26日,elexcon2025深圳国际电子展深圳会展中心隆重开幕。全球知名新品引入(NPI)代理商贸泽电子(Mouser Electronics) 展台(1号馆1Q30),DFRobot展示了其LattePanda Sigma单板计算机与
    的头像 发表于 08-30 10:51 1162次阅读