0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

SparseViT:以非语义为中心、参数高效的稀疏化视觉Transformer

智能感知与物联网技术研究所 来源:智能感知与物联网技术研 2025-01-15 09:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

背景简介

随着图像编辑工具和图像生成技术的快速发展,图像处理变得非常方便。然而图像在经过处理后不可避免的会留下伪影(操作痕迹),这些伪影可分为语义和非语义特征。因此目前几乎所有的图像篡改检测模型(IML)都遵循“语义分割主干网络”与“精心制作的手工制作非语义特征提取”相结合的设计,这种方法严重限制了模型在未知场景的伪影提取能力。

b60b7928-d0b2-11ef-9310-92fbcf53809c.png

论文标题: Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer

作者单位:

四川大学(吕建成团队),澳门大学

论文链接:

https://arxiv.org/abs/2412.14598

代码链接:

https://github.com/scu-zjz/SparseViT

研究内容

利用非语义信息往往在局部和全局之间保持一致性,同时相较于语义信息在图像不同区域表现出更大的独立性,SparseViT 提出了以稀疏自注意力为核心的架构,取代传统 Vision Transformer(ViT)的全局自注意力机制,通过稀疏计算模式,使得模型自适应提取图像篡改检测中的非语义特征。

研究团队在统一的评估协议下复现并对比多个现有的最先进方法,系统验证了 SparseViT 的优越性。同时,框架采用模块化设计,用户可以灵活定制或扩展模型的核心模块,并通过可学习的多尺度监督机制增强模型对多种场景的泛化能力。

此外,SparseViT 极大地降低了计算量(最高减少 80% 的 FLOPs),实现了参数效率与性能的兼顾,展现了其在多基准数据集上的卓越表现。SparseViT 有望为图像篡改检测领域的理论与应用研究提供新视角,为后续研究奠定基础。

SparseViT 总体架构的设计概览图如下所示:

b633e8ae-d0b2-11ef-9310-92fbcf53809c.png

▲ 图1:SparseViT 总体架构

主要的组件包含:

1. 负责高效特征捕获的 Sparse Self-Attention

Sparse Self-Attention 是 SparseViT 框架的核心组件,专注于在减少计算复杂度的同时高效捕获篡改图像中的关键特征即非语义特征。传统的自注意力机制由于 patch 进行 token-to-token 的注意力计算,导致模型对语义信息过度拟合,使得非语义信息在受到篡改后表现出的局部不一致性被忽视。 为此,Sparse Self-Attention 提出了基于稀疏编码的自注意力机制,如图 2 所示,通过对输入特征图施加稀疏性约束,设输入的特征图 ,我们不是对 的整个特征上应用注意力,而是将特征分成形状为的张量块,表示将特征图分解为 个大小为的不重叠的张量块,分别在这些张量块上进行自注意力计算。

b6460c3c-d0b2-11ef-9310-92fbcf53809c.png

▲ 图2:稀疏自注意力

这一机制通过对特征图进行区域划分,使模型在训练中专注于非语义特征的提取,提升了对图像篡改伪影的捕捉能力。相比传统自注意力,Sparse Self-Attention 减少了约 80% 的 FLOPs,同时保留了高效的特征捕获能力,特别是在复杂场景中表现卓越。模块化的实现方式还允许用户根据需求对稀疏策略进行调整,从而满足不同任务的需求。

2. 负责多尺度特征融合的 Learnable Feature Fusion(LFF)

Learnable Feature Fusion(LFF)是 SparseViT 中的重要模块,旨在通过多尺度特征融合机制提高模型的泛化能力和对复杂场景的适应性。不同于传统的固定规则特征融合方法,LFF 模块通过引入可学习参数,动态调整不同尺度特征的重要性,从而增强了模型对图像篡改伪影的敏感度。

LFF 通过从稀疏自注意力模块输出的多尺度特征中学习特定的融合权重,优先强化与篡改相关的低频特征,同时保留语义信息较强的高频特征。模块设计充分考虑了 IML 任务的多样化需求,既能针对微弱的非语义伪影进行细粒度处理,又能适应大尺度的全局特征提取。

LFF 的引入显著提升了 SparseViT 在跨场景、多样化数据集上的性能,同时减少了无关特征对模型的干扰,为进一步优化 IML 模型性能提供了灵活的解决方案。

研究总结

简而言之,SparseViT 具有以下四个贡献:

1. 我们揭示了篡改图像的语义特征需要连续的局部交互来构建全局语义,而非语义特征由于其局部独立性,可以通过稀疏编码实现全局交互。

2. 基于语义和非语义特征的不同行为,我们提出使用稀疏自注意机制自适应地从图像中提取非语义特征。

3. 为了解决传统多尺度融合方法的不可学习性,我们引入了一种可学习的多尺度监督机制。

4. 我们提出的 SparseViT 在不依赖手工特征提取器的情况下保持了参数效率,并在四个公共数据集上实现了最先进的(SoTA)性能和出色的模型泛化能力。

SparseViT 通过利用语义特征和非语义特征之间的差异性,使模型能够自适应地提取在图像篡改定位中更为关键的非语义特征,为篡改区域的精准定位提供了全新的研究思路。

相关代码和操作文档、使用教程已完全开源在 GitHub 上(https://github.com/scu-zjz/SparseViT)。该代码有着完善的更新计划,仓库将被长期维护,欢迎全球研究者使用和提出改进意见。

SparseViT 的主要科研成员来自四川大学吕建成团队,合作方为澳门大学潘治文教授团队。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1097

    浏览量

    42496
  • IML
    IML
    +关注

    关注

    0

    文章

    14

    浏览量

    11753
  • Transformer
    +关注

    关注

    0

    文章

    156

    浏览量

    6975

原文标题:AAAI 2025 | SparseViT:以非语义为中心、参数高效的稀疏化视觉Transformer

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    激光雷达+视觉组合方案

    视觉与激光雷达与视觉融合感知方案互补性极强,是当前智能感知领域的主流优选方案。视觉传感器具备强大的语义识别能力,可精准捕捉场景的颜色、纹理、标识等二维信息,
    的头像 发表于 05-21 16:00 78次阅读
    激光雷达+<b class='flag-5'>视觉</b>组合方案

    零基础手写大模型资料2026

    Transformer核心结构的大模型,揭示大模型从理论到落地的技术本质。 一、数学基础:大模型的三大基石 1. 矩阵运算:神经网络的语言 大模型的所有计算都可归结为矩阵乘法与加法。输入层例,若处理
    发表于 05-01 17:44

    嵌入式视觉技术赋能工业自动领域变革

    机器视觉(Machine Vision)是实现接触式检测和高度柔性生产的关键技术,其主要功能可归纳识别、测量、检测以及定位与引导等四类。嵌入式视觉(Embedded Vision)
    的头像 发表于 03-06 09:28 1158次阅读
    嵌入式<b class='flag-5'>视觉</b>技术赋能工业自动<b class='flag-5'>化</b>领域变革

    Transformer 入门:从零理解 AI 大模型的核心原理

    /值,用搜索引擎来理解 多头注意力 多个专家从不同角度分析 MLP 对每个词进行深度加工 温度 控制输出的随机程度 GPT-2 参数量计算 GPT-2 (small) 例: ini 体验AI
    发表于 02-10 16:33

    MUN12AD05-SMFL:隔离DC/DC电源模块的国产替代新选择

    MUN12AD05-SMFL:隔离DC/DC电源模块的国产替代新选择在当前芯片国产替代加速的背景下,MUN12AD05-SMFL作为Cyntec(乾坤)推出的一款高效
    发表于 01-22 10:04

    机器视觉系统关键硬件之一-工业相机(Dalsa例)

    机器视觉系统的硬件之一工业相机的原理及主要参数
    的头像 发表于 01-15 17:31 455次阅读
    机器<b class='flag-5'>视觉</b>系统关键硬件之一-工业相机(<b class='flag-5'>以</b>Dalsa<b class='flag-5'>为</b>例)

    炎核开源开放平台上架推出OpenSparseBlas高性能稀疏计算库

    。该库极致性能为核心,支持多种数据类型,提供便捷的API调用,旨在为专业计算场景提供稳定、高效稀疏运算支撑。
    的头像 发表于 12-15 15:18 1090次阅读

    数据中心配电房智能设计:高效稳定

    配电房正从传统“被动维护”模式向“主动智能”模式转型,数据中心提供更安全、更高效的电力支撑。智能监控系统:全维度状态感知智能配电房的核心在于构建实时监测网络。
    的头像 发表于 12-12 09:18 403次阅读
    数据<b class='flag-5'>中心</b>配电房智能<b class='flag-5'>化</b>设计:<b class='flag-5'>高效</b>稳定

    思奥特智能机器视觉光源:笔,绘就工业检测新图景

    专业的研发团队与丰富的行业经验,打造出多款高性能机器视觉光源产品,工业检测领域注入了新的活力。 一、技术突破:媒,破解检测难题 思奥特智能机器
    的头像 发表于 11-21 09:16 567次阅读
    思奥特智能机器<b class='flag-5'>视觉</b>光源:<b class='flag-5'>以</b>光<b class='flag-5'>为</b>笔,绘就工业检测新图景

    自动驾驶中如何将稀疏地图与视觉SLAM相结合?

    [首发于智驾最前沿微信公众号]在自动驾驶场景中,稀疏地图通常是由一系列关键帧和若干三维稀疏特征点构成的地图,每个特征点包含三维坐标和描述外观的描述子;而视觉SLAM是运行在车辆上的实时算法,它一边
    的头像 发表于 10-28 09:07 865次阅读
    自动驾驶中如何将<b class='flag-5'>稀疏</b>地图与<b class='flag-5'>视觉</b>SLAM相结合?

    机器视觉检测PIN针

    的自动检测方案展现出了显著优势: 其接触式测量避免了损伤风险;高速图像处理能力完美匹配现代产线节奏; 算法驱动的判定机制则确保了检测结果的极高一致性与客观性,使其成为解决连接器Pin针高精度
    发表于 09-26 15:09

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    Transformer视觉Transformer模型。 ViTA是一种高效数据流AI加速器,用于在边缘设备上部署计算密集型视觉
    发表于 09-12 17:30

    iTOF技术,多样的3D视觉应用

    and 应用场景, 飞行时间 (TOF) 传感器三大三大三维传感技术中,在不同领域的功能和商业场景的实现越来越多。它们用于各种专业应用,最终用户提供高效、安全的环境并节省劳动力
    发表于 09-05 07:24

    睿海光电高效交付与广泛兼容助力AI数据中心800G光模块升级

    400G/800G光模块已实现规模量产,并基于AI工厂与AI云的核心需求进行深度优化: 速率突破:采用PAM4调制技术,单通道速率达100Gbps,整模块实现800Gbps传输能力,GPU集群的高效协同
    发表于 08-13 19:01

    小型数据中心晶振选型关键参数全解

    小型数据中心的定义与应用 小型数据中心通常是中小型企业、边缘计算、物联网(IoT)设备及其他特定业务需求提供计算、存储和网络服务的设施。与大型数据中心相比,小型数据
    发表于 06-11 13:37