0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于AX650N芯片部署MiniCPM-V 2.0高效端侧多模态大模型

爱芯元智AXERA 来源:爱芯元智AXERA 2024-07-15 09:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

MiniCPM-V 2.0: 具备领先OCR和理解能力的高效端侧多模态大模型

背景

今年4月份,面壁智能&清华大学自然语言处理实验室推出MiniCPM系列的最新多模态版本MiniCPM-V 2.0。该模型基于MiniCPM 2.4B和SigLip-400M构建,共拥有2.8B参数。MiniCPM-V 2.0具有领先的光学字符识别(OCR)和多模态理解能力。该模型在综合性OCR能力评测基准OCRBench上达到开源社区的最佳水平,甚至在场景文字理解方面实现接近Gemini Pro的性能。简单来说,就是能够实现更好地理解图片中内容,实现精准的“以图生文”的能力,所见即所得。

本文将通过走马观花的方式,初探MiniCPM-V 2.0的新特性。同时也将分享基于爱芯元智的AX650N芯片适配MiniCPM-V 2.0的最新进展,向业界对端侧多模态大模型部署的开发者提供一种新的思路,促进社区对端侧多模态大模型的探索。

MiniCPM-V介绍

2.1 MiniCPM-V 2.0特性

领先的OCR和多模态理解能力。MiniCPM-V 2.0显著提升了OCR和多模态理解能力,场景文字理解能力接近Gemini Pro,在多个主流评测基准上性能超过了更大参数规模(例如17-34B)的主流模型。

可信行为。MiniCPM-V 2.0是第一个通过多模态RLHF对齐的端侧多模态大模型。该模型在Object HalBench达到和GPT-4V相仿的性能。

任意长宽比高清图像高效编码。MiniCPM-V 2.0可以接受180万像素的任意长宽比图像输入(基于最新的LLaVA-UHD技术),这使得模型可以感知到小物体、密集文字等更加细粒度的视觉信息。

高效部署。MiniCPM-V 2.0可以高效部署在大多数消费级显卡、个人电脑以及移动手机等终端设备。

双语支持。MiniCPM-V 2.0提供领先的中英双语多模态能力支持。该能力通过VisCPM[ICLR'24]论文中提出的多模态能力的跨语言泛化技术实现。

2.2 多模态“小钢炮”

MiniCPM-V 2.0与参数规模更大的多模态大模型相比,也表现出优秀的成绩,不愧是业界“小钢炮”。

3c34e4f6-3dc6-11ef-a4c8-92fbcf53809c.png

芯片介绍

3.1 AX650N

爱芯元智第三代高能效比智能视觉芯片AX650N。集成了八核Cortex-A55 CPU,高能效比NPU,支持8K@30fps的ISP,以及H.264、H.265编解码的 VPU。接口方面,AX650N支持64bit LPDDR4x,多路MIPI输入,千兆EthernetUSB、以及HDMI 2.0b输出,并支持32路1080p@30fps解码内置高算力和超强编解码能力,满足行业对高性能边缘智能计算的需求。通过内置多种深度学习算法,实现视觉结构化、行为分析、状态检测等应用,高效率支持基于Transformer结构的视觉大模型和语言类大模型。提供丰富的开发文档,方便用户进行二次开发。

3c814daa-3dc6-11ef-a4c8-92fbcf53809c.jpg

上版部署

我们已实现“命令行”和“UI”两种示例,其中“命令行”版本已上传到网盘中,欢迎试用。

4.1 命令行版本

测试图片:

测试结果:

3d08edfa-3dc6-11ef-a4c8-92fbcf53809c.jpg

4.2 GUI版本

4.3 性能统计

项目 描述
输入图片大小 280 x 280
Image Encoder 0.8s
Input Prompt 96 tokens
Prefill Time 0.4s
Decoder 5 tokens/s

结束语

随着大语言模型小型化的快速发展,越来越多有趣的多模态AI应用将逐渐从云端服务迁移到边缘侧设备和端侧设备。我们会紧跟行业最新动态,适配更多的端侧大模型,欢迎大家持续关注。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自然语言处理

    关注

    1

    文章

    629

    浏览量

    14563
  • 爱芯元智
    +关注

    关注

    1

    文章

    119

    浏览量

    5379
  • 大模型
    +关注

    关注

    2

    文章

    3444

    浏览量

    4970

原文标题:爱芯分享 | 基于AX650N部署MiniCPM-V 2.0

文章出处:【微信号:爱芯元智AXERA,微信公众号:爱芯元智AXERA】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于AX650N/AX630C部署大语言模型Qwen2

    本文将分享如何将最新的大语言模型部署到超高性价比SoC上,向业界对
    的头像 发表于 07-06 17:43 5266次阅读
    基于<b class='flag-5'>AX650N</b>/<b class='flag-5'>AX</b>630C<b class='flag-5'>部署</b><b class='flag-5'>端</b><b class='flag-5'>侧</b>大语言<b class='flag-5'>模型</b>Qwen2

    基于AX650N/AX630C部署模态模型InternVL2-1B

    InternVL2是由上海人工智能实验室OpenGVLab发布的一款模态模型,中文名称为“书生·万象”。该模型在多学科问答(MMMU)等任务上表现出色,并且具备处理多种
    的头像 发表于 11-18 17:32 2487次阅读
    基于<b class='flag-5'>AX650N</b>/<b class='flag-5'>AX</b>630C<b class='flag-5'>部署</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>InternVL2-1B

    部署DeepSeek R1于AX650NAX630C平台

    背景 春节前,国产大模型 DeepSeek 横空出世,迅速成为AI领域的焦点。作为AI能效比优异的 AX650NAX630C
    的头像 发表于 02-09 09:32 1909次阅读
    <b class='flag-5'>部署</b>DeepSeek R1于<b class='flag-5'>AX650N</b>与<b class='flag-5'>AX</b>630C平台

    AI SoC # 爱芯元智AX650N详细介绍:原生支持Transformer架构模型 适用部署DeepSeek R1

    AX650N是爱芯元智(AXERA)推出的一款高性能边缘AI芯片,专注于智能视觉感知与计算,广泛应用于智慧城市、智能制造、机器人等领域。以下是其核心特性及应用场景的详细分析: *附件:AX6
    的头像 发表于 03-04 11:15 7225次阅读
    AI SoC # 爱芯元智<b class='flag-5'>AX650N</b>详细介绍:原生支持Transformer架构<b class='flag-5'>模型</b> 适用<b class='flag-5'>部署</b>DeepSeek R1

    爱芯通元NPU适配Qwen2.5-VL-3B视觉模态模型

    熟悉爱芯通元NPU的网友很清楚,从去年开始我们在模态模型适配上一直处于主动紧跟的节奏。先后适配了国内最早开源的
    的头像 发表于 04-21 10:56 2599次阅读
    爱芯通元NPU适配Qwen2.5-VL-3B视觉<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    爱芯元智发布第三代智能视觉芯片AX650N,为智慧生活赋能

    中国 上海 2023 年 3 月 6 日 ——人工智能视觉感知芯片研发及基础算力平台公司爱芯元智宣布推出第三代高算力、高能效比的SoC芯片——AX650N。这是继AX620、
    发表于 03-07 10:57 2272次阅读
    爱芯元智发布第三代智能视觉<b class='flag-5'>芯片</b><b class='flag-5'>AX650N</b>,为智慧生活赋能

    体验MiniCPM-V 2.6 模态能力

    模态组网
    jf_23871869
    发布于 :2025年01月20日 13:40:48

    【爱芯派 Pro 开发板试用体验】爱芯元智AX650N部署yolov8s 自定义模型

    爱芯元智AX650N部署yolov8s 自定义模型 本博客将向你展示零基础一步步的部署好自己的yolov8s模型(博主展示的是自己训练的手
    发表于 11-24 20:40

    爱芯元智第三代智能视觉芯片AX650N高能效比SoC芯片

    爱芯元智正式推出第三代高算力、高能效比的SoC芯片——AX650N。这是继AX620、AX630系列后,爱芯元智推出的又一款高性能智能视觉芯片
    的头像 发表于 03-10 17:13 5617次阅读

    基于AX650N部署EfficientViT

    场景通常对模型推理的实时性要求较高,但大部分轻量级的Vision Transformer网络仍无法在已有边缘/
    的头像 发表于 05-26 10:30 1963次阅读

    爱芯元智AX620E和AX650系列芯片正式通过PSA Certified安全认证

    万物互联的时代,安全性已成为物联网产品设计及部署的基本要求。近日,爱芯元智AX620E和AX650系列芯片(包含AX630C/
    的头像 发表于 04-23 15:45 2042次阅读
    爱芯元智<b class='flag-5'>AX</b>620E和<b class='flag-5'>AX650</b>系列<b class='flag-5'>芯片</b>正式通过PSA Certified安全认证

    PerfXCloud 重大更新 模态模型 MiniCPM-Llama3-V 2.5 闪亮上架

    近日,PerfXCloud完成重大更新,上架了面壁小钢炮 MiniCPM 系列的模态模型
    的头像 发表于 08-27 18:20 1027次阅读
    PerfXCloud 重大更新  <b class='flag-5'>端</b><b class='flag-5'>侧</b><b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>模型</b> <b class='flag-5'>MiniCPM-Llama3-V</b> 2.5 闪亮上架

    如何在边缘获得GPT4-V的能力:算力魔方+MiniCPM-V 2.6

    GPT4-V的能力:MiniCPM-V 2.6 。 MiniCPM-V 2.6是MiniCPM-V系列最新、性能最佳的模型,基于SigLip
    的头像 发表于 01-20 13:40 1114次阅读
    如何在边缘<b class='flag-5'>端</b>获得GPT4-<b class='flag-5'>V</b>的能力:算力魔方+<b class='flag-5'>MiniCPM-V</b> 2.6

    重磅发布 | 矽速 M4N Dock 支持 DeepSeek R1,模型部署新标杆!

    01性能炸裂速度领先RK358815%,性能直逼OrinNano!久等了!矽速M4NDock(爱芯派Pro,AX650N)已支持部署DeepSeekR1大模型,实测运行速度超越RK3588达15
    的头像 发表于 02-18 15:35 1581次阅读
    重磅发布 | 矽速 M4<b class='flag-5'>N</b> Dock 支持 DeepSeek R1,<b class='flag-5'>端</b><b class='flag-5'>侧</b>大<b class='flag-5'>模型</b><b class='flag-5'>部署</b>新标杆!

    Immich智能相册在树莓派5上的高效部署与优化

    将海外广受欢迎的开源智能相册项目Immich部署于树莓派5上,并通过搭载基于AX650N/AX8850的M.2算力卡,显著提升了系统算力。借助该方案,我们高效
    的头像 发表于 10-14 11:30 736次阅读
    Immich智能相册在树莓派5上的<b class='flag-5'>高效</b><b class='flag-5'>部署</b>与优化