0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

几B都有!BM1684X一键适配全系列Qwen3

算能开发者社区 2025-04-30 18:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Qwen3发布,大小尺寸通吃

Qwen3一发布,登顶开源大模型排行榜!235B、32B、8B、4B、1.7B云边端全尺寸模型,BF16和FP8两种精度,一次性发布,无论云端大卡还是边缘AI设备,都可体验最新的大模型能力。

来看下Qwen3各个模型的benchmark得分:

2df9d8c0-25af-11f0-9434-92fbcf53809c.png

2e1a6928-25af-11f0-9434-92fbcf53809c.png

这些年看多了大模型的迭代,各家都在玩参数竞赛和架构魔术,但阿里这次Qwen3的设计有点意思——它搞了个"混合模式"的机制,让模型能自己决定什么时候该"慢慢想",什么时候该"快速答"。这玩意儿本质上是在延迟和精度之间做动态权衡,技术上不算新鲜(OpenAI的o3就玩过这套),但阿里的实现方式更像个老会计——给你个"思考预算"的开关,让用户自己把控成本。

2e316574-25af-11f0-9434-92fbcf53809c.png

BM1684X,Qwen3部署性价比之王

这种设计背后是典型的工程思维:既然大模型的推理成本居高不下,不如把选择权交给用户。就像当年CPU的动态调频技术,与其无脑跑满频,不如让系统根据负载灵活调节,但这种模式切换要在硬件层面做好流水线调度,否则切换时的上下文保存就能吃掉那点省下来的算力。

现在的大模型就像过度教育的孩子,解得了奥数题但算不清买菜账。Qwen3给"孩子"装了个手动挡,让用户自己决定什么时候该挂高档位冲刺,什么时候该低档省油,这种策略下每瓦特的性价比自然就上去了,而边缘和端侧的设备对成本更是敏感,那作为边缘大模型部署的性价比之王,BM1684X表现如何?

4B运行demo(SOC模式950Mhz 16.4tokens/s)

2e48630a-25af-11f0-9434-92fbcf53809c.gif

1.7B运行demo(SOC模式950Mhz 30.3 tokens/s)

2e6838ec-25af-11f0-9434-92fbcf53809c.gif

一行代码适配,解锁全系模型

BM1684X 单芯配置16GB内存,20B以下的都可以在一颗芯片跑,32B用2颗就可以(32B dense模型性能约5 tokens/s)。

更详细的适配流程参考:https://github.com/sophgo/LLM-TPU/tree/main/models/Qwen3,拉取最新的tpu-mlir代码后,只需要一行代码即可转出bmodel,不用再通过onnx中介。

2e88a9a6-25af-11f0-9434-92fbcf53809c.png

bmodel转好之后,可以用python或者cpp来跑:

2e9ca49c-25af-11f0-9434-92fbcf53809c.png

限制我们适配新模型速度的不是工具链,而是模型下载速度,欢迎关注算能产品,解锁更多大模型部署方案,手中有BM1684X的同学可以玩起来了!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 边缘AI
    +关注

    关注

    0

    文章

    201

    浏览量

    5844
  • 大模型
    +关注

    关注

    2

    文章

    3442

    浏览量

    4967
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Qwen3-VL 4B/8B全面适配BM1684X成边缘最佳部署平台!

    算能BM1684X上完成Qwen3-VL4B/8B模型的适配,推理速度13.7/7.2tokens/s,使其成为边缘部署多模态大模型的最佳选择。近日,阿里千问正式开源
    的头像 发表于 10-16 18:00 1713次阅读
    <b class='flag-5'>Qwen3</b>-VL 4<b class='flag-5'>B</b>/8<b class='flag-5'>B</b>全面<b class='flag-5'>适配</b>,<b class='flag-5'>BM1684X</b>成边缘最佳部署平台!

    DFRobot亮相贸泽电子elexcon 2025展台,展示与Qwen3大模型融合的AI应用

    8月26日,elexcon2025深圳国际电子展在深圳会展中心隆重开幕。在全球知名新品引入(NPI)代理商贸泽电子(Mouser Electronics) 展台(1号馆1Q30),DFRobot展示了其LattePanda Sigma单板计算机与Qwen3大语言模型的融合应用。
    的头像 发表于 08-30 10:51 820次阅读

    广和通加速通义千问Qwen3在端侧全面落地

    6月,广和通宣布:率先完成通义千问Qwen3系列混合推理模型在高通QCS8550平台端侧的适配部署。广和通通过定制化混合精度量化方案与创新硬件加速算法,成功突破Qwen3新型架构在边缘
    的头像 发表于 06-25 15:35 775次阅读

    壁仞科技完成Qwen3旗舰模型适配

    近日,在高效适配Qwen3系列模型推理后,壁仞科技宣布完成旗舰版Qwen3-235B-A22B模型的训练适配和优化。由此,壁仞科技已实现
    的头像 发表于 05-16 16:23 780次阅读

    Arm CPU适配通义千问Qwen3系列模型

    近日,阿里巴巴开源了新代通义千问模型 Qwen3,Arm 率先成为首批成功适配该模型的计算平台厂商。与此同时,Arm 面向人工智能 (AI) 框架开发者的开源计算内核 Arm KleidiAI
    的头像 发表于 05-12 16:37 1100次阅读

    Intel OpenVINO™ Day0 实现阿里通义 Qwen3 快速部署

    本文将以 Qwen3-8B 为例,介绍如何利用 OpenVINO 的 Python API 在英特尔平台(GPU, NPU)Qwen3 系列模型。
    的头像 发表于 05-11 11:36 1378次阅读
    Intel OpenVINO™ Day0 实现阿里通义 <b class='flag-5'>Qwen3</b> 快速部署

    NVIDIA RTX 5880 Ada与Qwen3系列模型实测报告

    近日,阿里巴巴通义千问团队正式推出新代开源大语言模型——Qwen3 系列,该系列包含 6 款 Dense 稠密模型和 2 款 MoE 混合专家模型,参数规模覆盖 0.6
    的头像 发表于 05-09 15:05 3789次阅读
    NVIDIA RTX 5880 Ada与<b class='flag-5'>Qwen3</b><b class='flag-5'>系列</b>模型实测报告

    NVIDIA使用Qwen3系列模型的最佳实践

    阿里巴巴近期发布了其开源的混合推理大语言模型 (LLM) 通义千问 Qwen3,此次 Qwen3 开源模型系列包含两款混合专家模型 (MoE),235B-A22B(总参数 2,350
    的头像 发表于 05-08 11:45 2588次阅读
    NVIDIA使用<b class='flag-5'>Qwen3</b><b class='flag-5'>系列</b>模型的最佳实践

    后摩智能NPU适配通义千问Qwen3系列模型

    近日,阿里云重磅推出Qwen3 系列开源混合推理模型。用时不到1天,后摩智能自研NPU迅速实现Qwen3 系列模型(Qwen3 0.6
    的头像 发表于 05-07 16:46 1127次阅读

    寒武纪率先支持Qwen3全系列模型

    近日,阿里Qwen团队口气上新8大模型,Qwen3正式发布并全部开源。
    的头像 发表于 05-07 15:51 869次阅读

    摩尔线程GPU率先支持Qwen3全系列模型

    近日,阿里云正式发布Qwen3系列的8款开源混合推理模型。摩尔线程团队在模型发布当天,率先完成了Qwen3全系列模型在全功能GPU上的高效支持。这
    的头像 发表于 05-07 15:24 838次阅读

    在openEuler上基于vLLM Ascend部署Qwen3

    近日,阿里巴巴正式发布新Qwen大语言模型系列Qwen3Qwen3-MoE),在模型规模与性能上实现多方面升级。openEuler社
    的头像 发表于 05-07 14:44 1458次阅读
    在openEuler上基于vLLM Ascend部署<b class='flag-5'>Qwen3</b>

    中科曙光DeepAI深算智能引擎全面支持Qwen3

    日前,Qwen3正式发布并全部开源8款混合推理模型。作为Qwen系列中的最新代大型语言模型,Qwen3在推理、指令遵循、工具调用、多语言能
    的头像 发表于 05-06 15:17 950次阅读

    壁仞科技完成阿里巴巴通义千问Qwen3全系列模型支持

    4月29日,阿里巴巴通义千问发布并开源8款新版Qwen3系列“混合推理模型”(简称“Qwen3”)。Qwen3发布后数小时内,壁仞科技完成全系列
    的头像 发表于 04-30 15:19 1356次阅读

    天数智芯加速DeepSeek全系列模型适配

    R1-Distill-Qwen系列模型,包括1.5B、7B、14B和32B等不同参数版本,以及
    的头像 发表于 02-10 15:30 1409次阅读