0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于AX650N+CLIP的以文搜图展示

爱芯元智AXERA 来源:爱芯元智AXERA 2023-11-01 16:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

背景

元气满满的10月份就结束了,时间不长,却产出了上千张照片,找到自己想要的照片有点难度。希望有一种精确的以文搜图的方法,快速定位到某一类图片(例如:金色头发的小姐姐……)。

之前大家熟悉的计算机视觉模型(CV)基本上是采用监督学习的方式,基于某一类数据集进行有限类别的任务学习。这种严格的监督训练方式限制了模型的泛化性和实用性,需要额外的标注数据来完成训练时未曾见过的视觉“概念”。

能否有一种“识别万物”的图像识别大模型呢?今天就借此机会,通过实操来重温下由OpenAI在2021年初发布的Zero-Shot视觉分类模型CLIP,并移植到爱芯派Pro上实现简单的以图搜文示例。

CLIP

900da2c0-7882-11ee-939d-92fbcf53809c.jpg

Summary of our approach

2021年初由OpenAI发布的Zero-shot的视觉分类模型CLIP(Contrastive Language–Image Pre-training),该预训练的模型在没有微调的情况下在下游任务上取得了很好的迁移效果。作者在30多个数据集上做了测试,涵盖了OCR、视频中的动作检测、坐标定位等任务。作者特意强调了CLIP的效果:没有在ImageNet上做微调的CLIP,竟然能和已经在ImageNet上训练好的ResNet 50打成平手,简直不可思议。

● CLIP网站:

https://openai.com/research/clip

● CLIP论文:

https://arxiv.org/abs/2103.00020

深度学习在CV领域很成功,但是现在大家使用最多的强监督学习方案总体而言存在以下问题:

● CV数据集标注劳动密集,成本高昂

● 模型只能胜任一个任务,迁移到新任务上非常困难

● 模型泛化能力较差

2.1 预训练

OpenAI的这项工作CLIP可以解决上述问题,思路看起来很简单,看下图就知道了,简单来说CLIP是使用Text Encoder从文本中提取的语义特征和Image Encoder从图像中提取的语义特征进行匹配训练:

902600ae-7882-11ee-939d-92fbcf53809c.jpg

pre training

2.2 推理

接下来是Zero-Shot的推理过程。给定一张图片,如何利用预训练好的网络去做分类呢?这里作者很巧妙地设置了一道“多项选择”。具体来说,我给网络一堆分类标签,比如cat, dog, bird,利用文本编码器得到向量表示。然后分别计算这些标签与图片的余弦相似度;最终相似度最高的标签即是预测的分类结果。

90592e5c-7882-11ee-939d-92fbcf53809c.jpg

Zero-Shot prediction

从论文中公开的效果非常不错,CLIP的Zero-Shot迁移能力非常强。在ImageNet各种系列分类任务上,CLIP无需ImageNet标注数据训练,通过Zero-Shot分类效果就可以达到ResNet监督训练结果,并且泛化性和鲁棒性更好。

9064cef6-7882-11ee-939d-92fbcf53809c.jpg

CLIP on ImageNet

爱芯派Pro(AX650N)

搭载爱芯元智第三代高能效比智能视觉芯片AX650N。集成了八核Cortex-A55 CPU,10.8TOPs@INT8 NPU,支持8K@30fps的ISP,以及H.264、H.265编解码的VPU。接口方面,AX650N支持64bit LPDDR4x,多路MIPI输入,千兆EtherNetUSB、以及HDMI 2.0b输出,并支持32路1080p@30fps解码内置高算力和超强编解码能力,满足行业对高性能边缘智能计算的需求。通过内置多种深度学习算法,实现视觉结构化、行为分析、状态检测等应用,高效率支持Transformer模型和视觉大模型。提供丰富的开发文档,方便用户进行二次开发。

90764b18-7882-11ee-939d-92fbcf53809c.jpg

爱芯派Pro(AX650N inside)

上板示例

为了方便大家快速体验CLIP的效果,我们在Github上开源了对应的DEMO以及相关预编译好的NPU模型,方便大家快速体验。

● Github链接:

https://github.com/AXERA-TECH/CLIP-ONNX-AX650-CPP

提供的DEMO包内容说明

文件名

描述

main

DEMO执行程序

image_encoder.axmodel

图像编码模型(AX650N NPU)

image_encoder.onnx

图像编码模型(CPU)

images

测试图片集

text_encoder.onnx

文本编码模型

text.txt

文本输入序列

vocab.txt

文本词集

feature_matmul.onnx

特征比对模型

4.1 耗时统计

CLIP image encoder的模型,我们采用精度更好的基于ViT-B的Backbone

Backbone

输入尺寸

参数量

计算量

ViT-B/32

1,3,224,224

86M

4.4G MACs

单独运行的耗时分析如下:

root@maixbox:~/qtang/CLIP# /opt/bin/ax_run_model -m image_encoder.axmodel -w 3 -r 10
 Run AxModel:
    model: image_encoder.axmodel
    type: NPU3
    vnpu: Disable
  affinity: 0b001
   repeat: 10
   warmup: 3
    batch: 1
 pulsar2 ver: 1.8-patch1 6fa8d395
 engine ver: [Axera version]: libax_engine.so V1.27.0_P3_20230627143603 Jun 27 2023 14:58:22 JK 1.1.0
  tool ver: 1.0.0
  cmm size: 93238580 Bytes
 ------------------------------------------------------
 min =  4.158 ms  max =  4.220 ms  avg =  4.198 ms
 ------------------------------------------------------

从上面可以看出,使用AX650N上的NPU运行image encoder,最快可以达到238 images/秒的特征提取速度,也就是说只需短短的4.2秒就能完成前面提及到的1000张照片的特征提取。

4.2 测试一

使用5张图片,简单来展示下CLIP具体的效果

9091f778-7882-11ee-939d-92fbcf53809c.png

5张测试图片

测试结果

909d5528-7882-11ee-939d-92fbcf53809c.jpg

批量测试

从实际上板运行log可以看出,最后的特征匹配“matmul Inference”耗时<0.0008s,也就是不到1毫秒就能从1000张图片中搜索到与文本对应的置信度最高的图片。

4.3 测试二

下面是AX650N上CLIP DEMO的Pipeline分别使用CPU后端和NPU后端运行image encoder模型的耗时&CPU负载对比:

90bf02c2-7882-11ee-939d-92fbcf53809c.jpg

CPU版本

90c95024-7882-11ee-939d-92fbcf53809c.jpg

NPU版本

Pipeline各模块统计

CPU

NPU

耗时

440 ms

7 ms

CPU负载

(满载800%)

397%

90%

内存占用

1181 MiB

460 MiB

4.3 测试三

前面介绍的是Meta开源的英文语料的CLIP模型,当然也有社区大佬提供了中文语料微调模型:

输入图片集:

90f35c0c-7882-11ee-939d-92fbcf53809c.png

input images

输入文本:“金色头发的小姐姐”

输出结果:

9102caf2-7882-11ee-939d-92fbcf53809c.jpg

CLIP中文示例

交互示例

我们最近还更新了基于爱芯派Pro的交互式以文搜图示例,更加直观的展现其功能。

● Demo安装步骤可参考

https://github.com/AXERA-TECH/CLIP-ONNX-AX650-CPP/releases

结束语

随着Vision Transformer网络模型的快速发展,越来越多有趣的AI应用将逐渐从云端服务迁移到边缘侧设备和端侧设备。例如基于本文提及到的CLIP模型,在端侧可以实现以下场景应用:

事件抓拍相机,实时抓拍监控场景下各种突发事件

事件快速回溯,从海量的视频数据中快速找到某一特点人物和事件

智能NAS,家用私有网盘不再担心找不到照片

同时为了降低社区开发者Transformer模型在边缘侧移植的研究门槛,业界优秀的开源智能硬件公司矽速科技推出的基于AX650N的社区开发板爱芯派Pro(MAIX-IV)已经正式上架,欢迎关注。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像识别
    +关注

    关注

    9

    文章

    529

    浏览量

    39837
  • 计算机视觉
    +关注

    关注

    9

    文章

    1714

    浏览量

    47450
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046

原文标题:爱芯分享 | 基于AX650N+CLIP的以文搜图展示

文章出处:【微信号:爱芯元智AXERA,微信公众号:爱芯元智AXERA】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    TE Connectivity CROWN CLIP Sr. 420A电源连接器技术解析与应用指南

    高达2mm的错位。TE CROWN CLIP Sr. 420A电源连接器采用镀银铜合金,实现更好的导电性,可与3mm厚电镀母线插配,实现可分离式连接。该连接器非常适合用于可再生能源系统、工业电源以及数据中心/网络应用。
    的头像 发表于 11-07 11:24 251次阅读

    格灵深瞳多模态大模型Glint-ME让图文互更精准

    在电商、安防等场景下,图文互应用广泛。随着CLIP为代表的多模态表征方法相继提出,过去单一模态搜索(
    的头像 发表于 11-02 15:56 1233次阅读
    格灵深瞳多模态大模型Glint-ME让图文互<b class='flag-5'>搜</b>更精准

    1688 多模态搜索从 0 到 1:逆向接口解析与 CLIP 特征匹配实践

    本文分享基于CLIP模型与逆向工程实现1688图片同款的实战方案。通过抓包分析破解接口签名,结合CLIP多模态特征提取与Faiss向量检索,提升搜索准确率至91%,单次响应低于80ms,日均选品效率提升4倍,全程合规可复现。
    的头像 发表于 10-17 10:00 196次阅读

    天合光能至尊N型740W/650W系列高效组件大规模交付

    随着300MW至尊N650W系列组件陆续发往阿联酋迪拜,天合光能覆盖全场景至尊N型i-TOPCon Ultra组件已进入全球大规模交付阶段,TOPCon 2.0时代客户价值加速释放,标志着公司新一代TOPCon技术实现产品领先
    的头像 发表于 10-16 13:57 615次阅读

    Immich智能相册在树莓派5上的高效部署与优化

    将海外广受欢迎的开源智能相册项目Immich部署于树莓派5上,并通过搭载基于AX650N/AX8850的M.2算力卡,显著提升了系统算力。借助该方案,我们高效部署了多模态模型CLIP,有效缓解了仅依赖树莓派5本体运行时CPU资源
    的头像 发表于 10-14 11:30 733次阅读
    Immich智能相册在树莓派5上的高效部署与优化

    永源微APJ14N65D-650V N-Channel增强模式MOSFET

    描述: APJ14N65D是CoolFET II MOSFET系列 也就是利用电荷平衡技术 低导通电阻和低栅极电荷性能 APJ14N65F/P/T适用于需要更高的功率密度和突出的效果 一般特性
    发表于 07-15 16:22

    永源微APJ14N65FIPIT(AP65R650)650VN-Channel增强模式MOSFET

    描述: APJ14N65F/P/T是CoolFET II MOSFET系列 也就是利用电荷平衡技术,低导通电阻和低栅极电荷性能。 APJ14N65F/P/T适用于需要更高的功率密度和突出的效率 一般
    发表于 07-09 13:35

    VS6621S80&40 IEEE 802.11 a/b/g/n/AC/ax 1T1R+蓝牙5.4Combo模块手册

    可替代台湾正基 台湾瑞昱 和爱科微WiFi模块VS6621S80&40IEEE802.11a/b/g/n/ac/ax1T1R+Bluetooth5.4ComboModule
    发表于 05-12 17:34 1次下载

    AI SoC # 爱芯元智AX650N详细介绍:原生支持Transformer架构模型 适用部署DeepSeek R1

    AX650N是爱芯元智(AXERA)推出的一款高性能边缘侧AI芯片,专注于智能视觉感知与计算,广泛应用于智慧城市、智能制造、机器人等领域。以下是其核心特性及应用场景的详细分析: *附件:AX650N
    的头像 发表于 03-04 11:15 7195次阅读
    AI SoC # 爱芯元智<b class='flag-5'>AX650N</b>详细介绍:原生支持Transformer架构模型 适用部署DeepSeek R1

    无法在DLP650NIR上面显示8位灰度吗?

    DLP7000、DLP9500都有关于8位灰度数据的描述,但是DLP650NIR只有2进制数据的描述,这是不是意味着无法在DLP650NIR上面显示8位灰度
    发表于 02-28 06:12

    揭秘Cu Clip封装:如何助力半导体芯片飞跃

    在半导体行业中,封装技术对于功率芯片的性能发挥起着至关重要的作用。随着电子技术的飞速发展,特别是在大功率场合下,传统的封装技术已经难以满足日益增长的性能需求。因此,Cu Clip封装技术作为一种新兴
    的头像 发表于 02-19 11:32 4344次阅读
    揭秘Cu <b class='flag-5'>Clip</b>封装:如何助力半导体芯片飞跃

    重磅发布 | 矽速 M4N Dock 支持 DeepSeek R1,端侧大模型部署新标杆!

    01性能炸裂速度领先RK358815%,性能直逼OrinNano!久等了!矽速M4NDock(爱芯派Pro,AX650N)已支持部署DeepSeekR1大模型,实测运行速度超越RK3588达15
    的头像 发表于 02-18 15:35 1577次阅读
    重磅发布 | 矽速 M4<b class='flag-5'>N</b> Dock 支持 DeepSeek R1,端侧大模型部署新标杆!

    海康威视存储系列:跨模态检索,安防新境界

    海康威视推出的存储系列产品,引领了安防领域的信息检索新革命。该产品凭借多模态大模型技术,实现了自然语言与视频图像的跨模态信息检索,将安防录像回溯带入了全新的智能时代。 用户只需输入一句话或一个
    的头像 发表于 02-18 14:08 1063次阅读

    海康威视发布多模态大模型存储系列产品

    多模态大模型为安防行业带来重大技术革新,基于观澜大模型技术体系,海康威视将大参数量、大样本量的图文多模态大模型与嵌入式智能硬件深度融合,发布多模态大模型存储系列产品——NVR、
    的头像 发表于 02-18 10:33 1017次阅读

    部署DeepSeek R1于AX650NAX630C平台

    背景 春节前,国产大模型 DeepSeek 横空出世,迅速成为AI领域的焦点。作为端侧AI能效比优异的 AX650NAX630C 芯片平台早已在节前完成 DeepSeek R1 蒸馏版本 1.5B
    的头像 发表于 02-09 09:32 1899次阅读
    部署DeepSeek R1于<b class='flag-5'>AX650N</b>与<b class='flag-5'>AX</b>630C平台