0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

SAM(通用图像分割基础模型)丨基于BM1684X模型部署指南

视美泰 2026-01-12 16:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

前言

SAM是Meta提出的一个分割一切的提示型模型,其在1100万张图像上训练了超过10亿个掩码,实现了强大的零样本泛化,突破了分割界限。本例程对SAM官方开源仓库的模型和算法进行移植,使之能在基于BM1684X芯片的嵌入式设备上进行高效推理测试。


一、特性

  • • 支持BM1684X平台全系列部署方案(x86 PCIe、SoC、riscv PCIe)
  • • 图像压缩(embedding)部分支持FP16 1batch(BM1684X)模型编译和推理
  • • 图像推理(mask_decoder)部分支持FP32 1batch、FP16 1batch(BM1684X)模型编译和推理
  • • 支持基于OpenCV的Python推理
  • • 支持单点和box输入的模型推理,并输出最高置信度mask或置信度前三的mask
  • • 支持图片测试
  • • 支持无需点框输入的自动图掩码生成

特别说明:
本例程已成功应用于ShiMetaPi基于BM1684X打造的算力盒子,实现了图像压缩(embedding)和图像推理(mask_decoder)两个bmodel的高效协同运行。图像推理部分最后一层resize未编入bmodel模型,这种设计在ShiMetaPi算力盒子的实际部署中展现了良好的灵活性和性能平衡,为边缘端分割任务提供了稳定可靠的解决方案。


二、工程目录

工程文件笔者对demo改动较多,建议直接拷贝笔者文件到/data目录下。

SAM

├─datasets##weby以及python案例的图片保存

│ dog.jpg

│ groceries.jpg

│ truck.jpg

├─docs #

#帮助文档

│ │ boxShare_PC_Wifi.md

│ │ sam.md

││ └─image #

#文档中显示的图片

│ eth.png

│ ipv4.png

│ ping.png

│ regedit.png

│ result_0.jpg

│ result_auto.jpg

│ result_box_0.jpg

│ result_box_1.jpg

│ result_box_2.jpg

│ t2.png

│ t3.png

terminal.png

│ ui.png

│ uib.png

│ uip.png

│ wlan.png

├─models #

#模型文件

│ └─BM1684X #

#1684x的模型权重文件

│ ├─decode_bmodel

│ │ SAM-ViT-B_auto_multi_decoder_fp32_1b.bmodel

│ │ SAM-ViT-B_decoder_multi_mask_fp16_1b.bmodel

│ │ SAM-ViT-B_decoder_multi_mask_fp32_1b.bmodel

│ │ SAM-ViT-B_decoder_single_mask_fp16_1b.bmodel

│ │ SAM-ViT-B_decoder_single_mask_fp32_1b.bmodel

│ │

│ └─embedding_bmodel│

SAM-ViT-B_embedding_fp16_1b.bmodel

├─python #

#python脚本

│ amg.py

│ automatic_mask_generator.py

│ backend.py

│ predictor.py

│ sam_encoder.py

│ sam_model.py

│ sam_opencv.py

│ transforms.py

│└─web_ui web例程文件

│ index.html

│ ├─components

│ drawBox.png

│ firstPage.png

│ frontPage.png

│ singlePoint.png

├─css

│ styles.css

├─images

│ dog.jpg

│ groceries.jpg

│ truck.jpg

└─scripts

main.js


二、运行步骤

检查网络环境:因为后面的交互网页用到了固定IP,所以这里使用开发板通过网线共享电脑网络的方式进行,详细操作可以参考联网文档(注1)

1、环境准备

修改.bashrc文件,将sophon的python环境引入。

sudovim ~/.bashrc

在文件末尾加上下面字段:

exportPYTHONPATH=$PYTHONPATH:/opt/sophon/libsophon-current/lib:/opt/sophon/sophon-opencv-latest/opencv-python/

:wq保存退出后重新加载终端。

source~/.bashrc

可echo $PYTHONPATH,检查是否是对应字段。

此外,运行环境还需要以下python库:

pip3install torch

torchvision安装过慢,可指定清华源安装

pip3 install torchvision -i https://pypi.tuna.tsinghua.edu.cn/simple

pip3 install matplotlib

pip3 install flask flask-cors## 运行web交互案例所需,可选择性安装

安装完毕可pip show 包名进行检查。

2、python例程测试

2.1 参数说明

python例程主要运行sam_opencv.py文件,参数说明如下:

usage: sam_opencv.py [--input_image INPUT_PATH] [--input_point INPOINT_POINT]

[--embedding_bmodel EMBEDDING_BMODEL] [--bmodel BMODEL]

[--auto bool][--dev_id DEV_ID]

--input_image: 测试图片路径,需输入图片路径;

--input_point: 输入点的坐标,输入格式为x,y;或者输入框坐标,格式为x1,y1,x2,y2

--embedding_bmodel 用于图像压缩(embedding)的bmodel路径;

--decode_bmodel: 用于推理(mask_decode)的bmodel路径;

--dev_id: 用于推理的tpu设备id;

--auto: 是否启用自动分割,为bool,默认为0不开启,1为开启;'''以下为automatic masks generator的可调参数,可控制采样点的密度以及去除低质量或重复mask的阈值'''

--points_per_side: 沿图像一侧采样的点数。总点数为points_per_side2^2。默认值为32;

--points_per_batch: 设置模型同时检测的点数。数字越大可能速度越快,但会使用更多GPU内存。默认值为64;

--pred_iou_thresh: [0,1]中的过滤阈值,模型的预测mask质量。默认值为0.88;

--stability_score_thresh: [0,1] 中的过滤阈值(截止值变化时掩模的稳定性)用于对模型的mask预测进行二值化。默认值为0.95;

--stability_score_offset: 计算稳定性分数时,偏移截止值的量。默认值为1.0;

--box_nms_thresh: 用于过滤重复mask的非极大值抑制框IoU截止。默认值为0.7;

--crop_nms_thresh: 用于非极大值抑制的框IoU截止,以过滤不同对象之间的重复mask。默认值为0.7;

--crop_overlap_ratio: 设置物体重叠的程度。在第一个裁剪层中,裁剪将重叠图像长度的这一部分。物体较多的后几层会缩小这种重叠。默认值为512 / 1500;

--crop_n_points_downscale_factor: 在层n中采样的每侧的点数按比例缩小"crop_n_points_downscale_factorn"^n。默认值为1;

--min_mask_region_area: 如果>0,将应用后处理来移除面积小于"min_mask_region_area"的mask来中断开连接的区域和孔。需要opencv。默认为0;

--output_mode: mask输出方式。可以是binary_mask、uncompressed_rle或coco_rle ,coco_rle需要pycocotools。对于大分辨率,binary_mask可能会消耗大量内存。默认为'binary_mask';

2.2 测试图片

2.2.1 点输入测试

cd/data/SAMpython3 python/sam_opencv.py --input_image datasets/truck.jpg --input_point 700,375 --embedding_bmodel models/BM1684X/embedding_bmodel/SAM-ViT-B_embedding_fp16_1b.bmodel --decode_bmodel models/BM1684X/decode_bmodel/SAM-ViT-B_decoder_single_mask_fp16_1b.bmodel --dev_id 0

结果如下:

终端:

图片:图片位于SAM目录下的results/中

2.2.2 box输入

python3python/sam_opencv.py --input_image datasets/truck.jpg --input_point100,300,1700,800--embedding_bmodel models/BM1684X/embedding_bmodel/SAM-ViT-B_embedding_fp16_1b.bmodel --decode_bmodel models/BM1684X/decode_bmodel/SAM-ViT-B_decoder_multi_mask_fp16_1b.bmodel --dev_id0

效果以及位置与point中类似

2.2.3 自动分割

若是要使用无需点和框输入的全自动掩码生成则需要设置输入参数auto为1,并设置--bmodel为auto的bmodel,操作如下:

python3 python/sam_opencv.py--input_image datasets/dog.jpg--embedding_bmodel models/BM1684X/embedding_bmodel/SAM-ViT-B_embedding_fp16_1b.bmodel--decode_bmodel models/BM1684X/decode_bmodel/SAM-ViT-B_auto_multi_decoder_fp32_1b.bmodel--dev_id0--auto1--pred_iou_thresh0.86

运行结束后,会将结果图保存在results/下,同时会打印推理时间等信息。

3. web例程

用于交互的图片文件存放于SAM/web_ui/images目录下,程序会自动读取目录下所有*.jpg的所有图片,并在前端页面下拉框中显示图片名。

3.1 启动后端程序

后端程序位于SAM/python/中,脚本名字叫 backend.py。此web_ui的python例程不需要编译,可以直接运行。

3.1.1 参数说明

usage: backend.py [--embedding_bmodel EMBEDDING_BMODEL] [

--bmodel BMODEL] [--dev_id DEV_ID]--embedding_bmodel 用于图像压缩(embedding)的bmodel路径;

--bmodel: 用于推理(mask_decode)的bmodel路径;

--dev_id: 用于推理的tpu设备id;

3.1.2 运行示例

cd/data/SAMpython3 python/backend.py --embedding_bmodel models/BM1684X/embedding_bmodel/SAM-ViT-B_embedding_fp16_1b.bmodel --decode_bmodel models/BM1684X/decode_bmodel/SAM-ViT-B_decoder_single_mask_fp16_1b.bmodel --dev_id 0

出现下面内容,说明后端已经启动

3.2 启动前端服务

前端程序在/data/SAM/web_ui 里面,可以通过 python 启动。

保留后端session窗口,新开一个session窗口用于前端:

cd/data/SAM/web_ui/

python3 -m http.server 8080

打开PC端浏览器界面,在网址处输入192.168.49.32:8080,进入交互界面,点击选择要加载的图像...的下拉框,即可选择预存图像。选择Single Point进入点击模式,Draw BOX进入框选模式。

3.2.1 点击模式

点击模式待图片加载成功,点击感兴趣区域即可,等待1-2S,页面绘制掩码结果。

3.2.2 框选模式

点击模式待图片加载成功,点击鼠标拖动框选感兴趣区域即可,等待1-2S,页面绘制掩码结果。

PS:可在原来终端中检测后端和前端的运行状态,前端状态还可在浏览器开发者工具中检测。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SAM
    SAM
    +关注

    关注

    0

    文章

    118

    浏览量

    34454
  • AI算力
    +关注

    关注

    1

    文章

    168

    浏览量

    10033
  • 大模型
    +关注

    关注

    2

    文章

    3765

    浏览量

    5269
  • BM1684
    +关注

    关注

    0

    文章

    7

    浏览量

    243
  • AI大模型
    +关注

    关注

    0

    文章

    404

    浏览量

    1038
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    模型到产品:Qwen2.5-VL在BM1684X边缘计算部署全攻略

    前言:部署意义与应用场景1.1Qwen-2-5-VL与BM1684X的组合行业意义:•边缘AI革命:大模型从云端下沉到边缘设备是当前AI发展的关键趋势。根据ABIResearch数据,到2026年
    的头像 发表于 01-13 14:17 5003次阅读
    从<b class='flag-5'>模型</b>到产品:Qwen2.5-VL在<b class='flag-5'>BM1684X</b>边缘计算<b class='flag-5'>部署</b>全攻略

    【算能RADXA微服务器试用体验】Radxa Fogwise 1684X Mini 规格

    通过网络可以了解到,算能RADXA微服务器的具体规格: 处理器:BM1684X 算力:高达32Tops INT8峰值算力 内存:16GB LPDDR4X 内存 存储:64GB eMMC 编程框架
    发表于 02-28 11:21

    bm1684运行demo报错怎么解决?

    ../models/BM1684X/yolov5s_v6.1_3output_fp32_1b.bmodel[BMRT][bmcpu_setup:406] INFO:cpu_lib \'libcpuop.so
    发表于 05-20 07:24

    【算能RADXA微服务器试用体验】+ GPT语音与视觉交互:2,图像识别

    图像识别也属于是AI的一个非常基本的经典应用。在主打AI功能的BM1684X上自然也是得到了广泛的支持。 算能官方提供了一个叫做Radxa-Model-Zoo的仓库,这个仓库里包含了许多AI方面
    发表于 07-14 23:36

    bmneto转换模型时报错误split_conv_float: Assertion \"valid\" failed是什么原因?

    ;[[1,3,1080,1920],[1,3,1080,1920]]" --target BM1684X --outdir bmodel/fp32 --output_names "pha,fgr,err,hid" --cmp False 报错截图:
    发表于 09-18 09:15

    基于多级混合模型图像分割方法

    本文研究了典型的基于区域的图像分割方法主动形状模型(Active Shape Model, ASM)和基于边缘的图像分割snake 算法,分
    发表于 07-08 09:58 20次下载

    SAM分割模型是什么?

    SAM是一类处理图像分割任务的通用模型。与以往只能处理某种特定类型图片的图像
    的头像 发表于 05-20 09:30 3864次阅读

    近期分割模型发展情况

    SAM(Segment Anything Model)Meta 的 FAIR 实验室发布的一种最先进的图像分割模型,该模型将自然语言处理领域
    的头像 发表于 05-22 16:26 2188次阅读
    近期<b class='flag-5'>分割</b>大<b class='flag-5'>模型</b>发展情况

    32Tops算力!BM1684行业主机系列

    采用BM1684/BM1684X,INT8算力高达32TOPS;支持主流编程框架,工具链完备易用度高,算法迁移代价小;适用于视觉计算、边缘计算、通用算力服务、智慧交通、智慧课堂、无人超市、监控安防等
    的头像 发表于 03-15 11:22 8342次阅读
    32Tops算力!<b class='flag-5'>BM1684</b>行业主机系列

    基于算能第四代AI处理器BM1684X的边缘计算盒子

    英码IVP03X智能工作站搭载算能全新一代AI处理器BM1684X,八核ARM Cortex-A53,主频2.3GHz;INT8算力高达32Tops,FP16算力达16 TFLOPS,FP32算力 2 TFLOPS,边缘端少有的大算力。
    发表于 08-10 09:46 3095次阅读
    基于算能第四代AI处理器<b class='flag-5'>BM1684X</b>的边缘计算盒子

    本地化ChatGPT?Firefly推出基于BM1684X的大语言模型本地部署方案

    API的方式来应用,很难本地化部署。随着大模型适用领域的扩展,大模型登陆边缘设备的需求凸显,越来越多的行业需要把大语言模型应用在专业的领域上。在这个背景下,Firef
    的头像 发表于 09-09 08:02 2738次阅读
    本地化ChatGPT?Firefly推出基于<b class='flag-5'>BM1684X</b>的大语言<b class='flag-5'>模型</b>本地<b class='flag-5'>部署</b>方案

    探索ChatGLM2在算能BM1684X上INT8量化部署,加速大模型商业落地

    1.背景介绍在2023年7月时我们已通过静态设计方案完成了ChatGLM2-6B在单颗BM1684X上的部署工作,量化模式F16,模型大小12GB,平均速度约为3token/s,详见《算丰技术揭秘
    的头像 发表于 10-10 10:18 5883次阅读
    探索ChatGLM2在算能<b class='flag-5'>BM1684X</b>上INT8量化<b class='flag-5'>部署</b>,加速大<b class='flag-5'>模型</b>商业落地

    一种新的分割模型Stable-SAM

    SAM、HQ-SAM、Stable-SAM在提供次优提示时的性能比较,Stable-SAM明显优于其他算法。这里也推荐工坊推出的新课程《如何将深度学习
    的头像 发表于 12-29 14:35 1725次阅读
    一种新的<b class='flag-5'>分割</b><b class='flag-5'>模型</b>Stable-<b class='flag-5'>SAM</b>

    图像分割与语义分割中的CNN模型综述

    图像分割与语义分割是计算机视觉领域的重要任务,旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络(CNN)作为深度学习的一种核心模型
    的头像 发表于 07-09 11:51 3288次阅读

    Qwen3-VL 4B/8B全面适配,BM1684X成边缘最佳部署平台!

    算能BM1684X上完成Qwen3-VL4B/8B模型的适配,推理速度13.7/7.2tokens/s,使其成为边缘部署多模态大模型的最佳选择。近日,阿里千问正式开源Qwen3-VL系
    的头像 发表于 10-16 18:00 3104次阅读
    Qwen3-VL 4B/8B全面适配,<b class='flag-5'>BM1684X</b>成边缘最佳<b class='flag-5'>部署</b>平台!