0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

爱芯元智边缘AI芯片AX8850完成Qwen3-VL多模态大模型适配

爱芯元智AXERA 来源:爱芯元智AXERA 2025-11-26 13:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

0 TL;DR

已适配 Qwen3-VL-2B/4B/8B 到 AX8850 开发板和 M.2 算力卡,可在本地完成图片内容理解和视频概要生成,可配合“树莓派5”使用;

预编译示例已开源(GitHub & HuggingFace),附带简易 Gradio 演示界面,方便示例快速测试;

尝试提供兼容 OpenAI API 的服务,降低已有云端大模型业务快速迁移到本地;

最快响应延时<0.5 秒;

M.2 板卡功耗<8 w,支持被动散热,工业应用场景更可靠稳定。

模型 图片编码 TTFT 生成速度
Qwen3-VL-2B 130 ms 320 ms 14.1tokens/s
Qwen3-VL-4B 130 ms 670 ms 7.2tokens/s
模型 视频编码(8帧) TTFT 生成速度
Qwen3-VL-2B 460 ms 840 ms 14.1tokens/s
Qwen3-VL-4B 460 ms 1880 ms 7.2tokens/s

背景

今年下半年,随着业务推广需求增加,我们的大模型适配工作也有了新方向:不再只追求前沿模型的快速适配,而是更聚焦为销售团队提供“能打”的实战“弹药”——也就是贴近客户刚需的、可快速落地的大模型解决方案。

因此,接下来的技术分享会更聚焦在基于我司边缘 AI 芯片(如AX8850)的实际应用落地,帮助客户实现从 Demo 到量产的跨越。

其中一个重点场景就是:视频事件分析

目前很多视频分析产品采用类似 CLIP 模型,已经能做到快速的单帧事件实时分析,但是对于时序性较高的场景支持并不太好。而通过多模态大语言模型,正好可以关联相邻帧的在时间轴上的语义特征信息,能够进一步对某些持续性的事件进行理解和输出。

最近 Qwen3-VL 开源了稠密小参数量的模型 Qwen3-VL-2B、Qwen3-VL-4B,从公开的 Benchmark 上看相比上一个版本 Qwen2.5-VL 系列有明显的“跑分”优势。我们已完成相关模型的适配,希望对关注端侧多模态大模型部署实现离线视频分析的开发者提供一种新的解题思路。

Qwen3-VL

Qwen3-VL 是阿里巴巴通义千问团队于 2025 年 9 月 24 日 发布的最新一代多模态视觉语言模型(Vision-Language Model, VLM),是 Qwen 系列中目前性能最强、能力最全面的开源视觉语言模型。其整体能力接近甚至在多项指标上超越 Gemini 2.5 Pro 和 GPT-5,并在 32 项核心能力测评中刷新开源模型纪录。

这一代模型实现了全方位的全面升级:更强的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、更出色的时空与视频动态理解能力,以及更强大的智能体交互能力。

Huggingface 链接

https://huggingface.co/Qwen/Qwen3-VL-2B-Instruct

Paper 链接:

https://huggingface.co/papers/2505.09388

在线 Demo:

https://huggingface.co/spaces/akhaliq/Qwen3-VL-2B-Instruct

主要特性:

视觉智能体(Visual Agent):可操作 PC/手机图形用户界面(GUI)——识别界面元素、理解功能、调用工具并完成任务;

视觉编程增强(Visual Coding Boost):可直接根据图像或视频生成 Draw.io 流程图、HTML/CSS/JS 代码;

高级空间感知(Advanced Spatial Perception):能判断物体位置、视角与遮挡关系;提供更强的 2D 定位能力,并支持 3D 定位,为复杂空间推理和具身智能(embodied AI)奠定基础;

长上下文与视频理解(Long Context & Video Understanding):原生支持 256K 上下文长度,可扩展至 1M;能够完整记忆并实现秒级索引,轻松处理整本书籍或数小时长的视频内容;

增强的多模态推理(Enhanced Multimodal Reasoning):在 STEM/数学等领域表现卓越——擅长因果分析,能给出逻辑严谨、基于证据的回答;

升级的视觉识别能力(Upgraded Visual Recognition):通过更广泛、更高品质的预训练,真正做到“万物皆可识”——涵盖名人、动漫角色、商品、地标、动植物等丰富类别;

扩展的 OCR 能力(Expanded OCR):支持语言从 19 种提升至 32 种;在弱光、模糊、倾斜等复杂条件下依然稳健;对罕见字、古文字及专业术语识别更准确;同时显著提升了对长文档结构的解析能力;

媲美纯文本大模型的文本理解能力(Text Understanding on par with pure LLMs):实现文本与视觉信息的无缝融合,达成无损、统一的理解体验。

4d150664-c5fd-11f0-8c8f-92fbcf53809c.jpg

模型架构更新

Interleaved-MRoPE:通过鲁棒的位置嵌入,在时间、宽度和高度维度上实现全频段分配,从而增强长时程视频推理能力;

DeepStack:融合多层级 ViT 特征,以捕捉细粒度细节并强化图像与文本的对齐效果;

文本–时间戳对齐:超越 T-RoPE,实现精确的、基于时间戳的事件定位,从而提升视频时序建模能力。

Benchmark

4d725706-c5fd-11f0-8c8f-92fbcf53809c.jpg

4ddf140e-c5fd-11f0-8c8f-92fbcf53809c.jpg

部署示例

为了更好的进行开发者社区技术推广,因此我们将借助国内外非常成熟的树莓派生态产品:树莓派 5+AXCL 算力卡的形态进行说明。基于 AX8850 的社区开发板同样也支持部署该实例,本文就不单独说明了。

默认本文的阅读者能自行解决访问 Huggingface 的办法。

硬件推荐

树莓派 5 + LLM8850-Card

4e3b1bd2-c5fd-11f0-8c8f-92fbcf53809c.png

树莓派 5 + Maix4-HAT

4e9485be-c5fd-11f0-8c8f-92fbcf53809c.png

软件步骤

默认已按照硬件产品的指导文档完成了硬件及必要的软件驱动安装(例如 AXCL 驱动包)。预编译好的模型和示例已经上传到 huggingface(或者 hf-mirror)。

https://huggingface.co/AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4

如何将原始的模型转换成 axmodel 并部署,请参考我们的 GitHub 仓库。

https://github.com/AXERA-TECH/ax-llm/tree/ax-qwen3-vl

(友情提示:除非对该模型有 finetuning 需求的同学,否则我建议一开始不要浪费时间来学习该模型的转换或者示例代码的编译,因为过程比较复杂┓( ´∀` )┏)

安装依赖

请务必完整阅读 Readme

//代码开始

cdAXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4
pipinstall -r requirements.txt

//代码结束

运行示例

这里我们选择基于 Gradio WebGUI 的方案

运行 tokenizer 服务

//代码开始

pythonqwen3_tokenizer.py --port12345--host0.0.0.0

//代码结束

运行兼容 openai api 的大模型推理服务

//代码开始

# for axcl, such as RaspberryPi5 + M.2 Card or x86 + M.2 Card
./run_axcl_api.sh
# for ax8850
./run_ax_api.sh

//代码结束

运行 gradio 脚本

//代码开始

pythongradio_demo.py

//代码结束

通过 web 浏览器访问

视频理解示例

4ef3c434-c5fd-11f0-8c8f-92fbcf53809c.png

总结

随着 Qwen3-VL-2B 多模态大模型完成开源发布,多模态大模型在端侧落地已成事实。在 NAS、NVR 的智能升级改造过程中,必将成为基础模型。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI芯片
    +关注

    关注

    17

    文章

    2166

    浏览量

    36869
  • OpenAI
    +关注

    关注

    9

    文章

    1252

    浏览量

    10287
  • 爱芯元智
    +关注

    关注

    1

    文章

    144

    浏览量

    5592
  • 大模型
    +关注

    关注

    2

    文章

    3796

    浏览量

    5275

原文标题:爱芯分享 | AX8850完成Qwen3-VL适配

文章出处:【微信号:爱芯元智AXERA,微信公众号:爱芯元智AXERA】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    边缘AI芯片AX8850完成CosyVoice2大模型适配

    今年下半年,随着业务推广需求增加,我们的大模型适配工作也有了新方向:不再只追求前沿模型的快速适配,而是更聚焦为销售团队提供“能打”的实战“弹药”——也就是贴近客户刚需的、可快速落地的大
    的头像 发表于 12-11 10:35 5579次阅读
    <b class='flag-5'>爱</b><b class='flag-5'>芯</b><b class='flag-5'>元</b>智<b class='flag-5'>边缘</b><b class='flag-5'>AI</b><b class='flag-5'>芯片</b><b class='flag-5'>AX8850</b><b class='flag-5'>完成</b>CosyVoice2大<b class='flag-5'>模型</b><b class='flag-5'>适配</b>

    NPU适配Qwen2.5-VL-3B视觉模态模型

    熟悉NPU的网友很清楚,从去年开始我们在端侧模态模型
    的头像 发表于 04-21 10:56 3726次阅读
    <b class='flag-5'>爱</b><b class='flag-5'>芯</b>通<b class='flag-5'>元</b>NPU<b class='flag-5'>适配</b><b class='flag-5'>Qwen2.5-VL-3</b>B视觉<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    AX8850:以边缘算力,让具身智能触手可及

    ”的创新IC新品推介。受主办方邀请,智半导体股份有限公司联合创始人、副总裁刘建伟带来了《AX8850:以边缘算力,让具身智能触手可及》
    的头像 发表于 05-13 18:16 8145次阅读
    <b class='flag-5'>爱</b><b class='flag-5'>芯</b><b class='flag-5'>元</b>智<b class='flag-5'>AX8850</b>:以<b class='flag-5'>边缘</b>算力,让具身智能触手可及

    基于米尔瑞微RK3576开发板的Qwen2-VL-3B模型NPU模态部署评测

    关键词:瑞微 RK3576、NPU(神经网络处理器)、端侧小语言模型(SLM)、模态 LLM、边缘
    发表于 08-29 18:08

    智发布边缘智能芯片AX8850

    ”为主题,智联合创始人、副总裁刘建伟受邀出席,不仅带来最新算力产品AX8850,也对当下边缘计算需求对具身智能发展的推动给出了深层思考
    的头像 发表于 05-16 10:59 1983次阅读

    壁仞科技完成Qwen3旗舰模型适配

    近日,在高效适配Qwen3系列模型推理后,壁仞科技宣布完成旗舰版Qwen3-235B-A22B模型
    的头像 发表于 05-16 16:23 1186次阅读

    智携手灵境声学推出“声”音频解决方案

    Umix AI”全景声行业大模型的专属音频芯片方案——“声”。该方案搭载灵境声学自研的“灵
    的头像 发表于 08-01 10:43 5166次阅读

    新品 | LLM-8850 Card, AX8850边缘设备AI加速卡

    LLM‑8850 Card是一款面向边缘设备的M.2M-KEY2242 AI加速卡,把42 mm的袖珍体积与AxeraAX8850 SoC的24 TOPS @ INT8算力结合起来,为
    的头像 发表于 09-26 18:18 1433次阅读
    新品 | LLM-<b class='flag-5'>8850</b> Card, <b class='flag-5'>AX8850</b><b class='flag-5'>边缘</b>设备<b class='flag-5'>AI</b>加速卡

    Qwen3-VL 4B/8B全面适配,BM1684X成边缘最佳部署平台!

    算能BM1684X上完成Qwen3-VL4B/8B模型适配,推理速度13.7/7.2tokens/s,使其成为边缘部署
    的头像 发表于 10-16 18:00 3195次阅读
    <b class='flag-5'>Qwen3-VL</b> 4B/8B全面<b class='flag-5'>适配</b>,BM1684X成<b class='flag-5'>边缘</b>最佳部署平台!

    太初碁:40+AI模型全覆盖,新版本即发即适配、上线即可用,实现国产“”速度

    日前,国产AI芯片企业太初(无锡)电子科技有限公司(又称“太初碁”)完成智谱GLM-5.0、阿里千问Qwen3.5-397B-A17B等大
    的头像 发表于 02-25 09:21 2089次阅读

    边缘SoC AX8850亮相MWC 2026

    近日,在西班牙巴塞罗那2026年世界移动通信大会(MWC)上,广和通展出的家庭智享融合CPE解决方案凭借其对家庭核心数据场景的深度理解,成为展台焦点。该方案搭载边缘SoC——
    的头像 发表于 03-12 16:21 368次阅读
    <b class='flag-5'>爱</b><b class='flag-5'>芯</b><b class='flag-5'>元</b>智<b class='flag-5'>边缘</b>SoC <b class='flag-5'>AX8850</b>亮相MWC 2026

    边缘SoC AX8850亮相Embedded World 2026

    近日,在德国纽伦堡举行的2026年嵌入式展览会(Embedded World)上,智(Axera)联合合作伙伴明栈科技(M5Stack)展出的AI PC产品
    的头像 发表于 03-18 15:31 407次阅读

    天数智完成阿里云通义千问Qwen3.5系列模态模型全量适配

    近日,天数智携手众智FlagOS 社区完成阿里云通义千问 Qwen3.5 系列模态模型全量
    的头像 发表于 03-26 09:25 2058次阅读

    海光DCU完成Qwen3.5模态MoE模型全量适配

    近日,海光DCU完成Qwen3.5-397B MoE旗舰模态模型Qwen3.5-35B-A3
    的头像 发表于 03-26 09:35 746次阅读

    搭载AX8850 AI SoC的AXClaw Box帝王虾盒上线

    智携手无问穹,正式推出InfiniClaw Box,该产品是AXClaw Box “帝王虾盒”系列的重要成员之一。InfiniClaw Box以
    的头像 发表于 04-21 11:08 497次阅读
    搭载<b class='flag-5'>爱</b><b class='flag-5'>芯</b><b class='flag-5'>元</b>智<b class='flag-5'>AX8850</b> <b class='flag-5'>AI</b> SoC的AXClaw Box帝王虾盒上线