0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

SparseViT:以非语义为中心、参数高效的稀疏化视觉Transformer

智能感知与物联网技术研究所 来源:智能感知与物联网技术研 2025-01-15 09:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

背景简介

随着图像编辑工具和图像生成技术的快速发展,图像处理变得非常方便。然而图像在经过处理后不可避免的会留下伪影(操作痕迹),这些伪影可分为语义和非语义特征。因此目前几乎所有的图像篡改检测模型(IML)都遵循“语义分割主干网络”与“精心制作的手工制作非语义特征提取”相结合的设计,这种方法严重限制了模型在未知场景的伪影提取能力。

b60b7928-d0b2-11ef-9310-92fbcf53809c.png

论文标题: Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer

作者单位:

四川大学(吕建成团队),澳门大学

论文链接:

https://arxiv.org/abs/2412.14598

代码链接:

https://github.com/scu-zjz/SparseViT

研究内容

利用非语义信息往往在局部和全局之间保持一致性,同时相较于语义信息在图像不同区域表现出更大的独立性,SparseViT 提出了以稀疏自注意力为核心的架构,取代传统 Vision Transformer(ViT)的全局自注意力机制,通过稀疏计算模式,使得模型自适应提取图像篡改检测中的非语义特征。

研究团队在统一的评估协议下复现并对比多个现有的最先进方法,系统验证了 SparseViT 的优越性。同时,框架采用模块化设计,用户可以灵活定制或扩展模型的核心模块,并通过可学习的多尺度监督机制增强模型对多种场景的泛化能力。

此外,SparseViT 极大地降低了计算量(最高减少 80% 的 FLOPs),实现了参数效率与性能的兼顾,展现了其在多基准数据集上的卓越表现。SparseViT 有望为图像篡改检测领域的理论与应用研究提供新视角,为后续研究奠定基础。

SparseViT 总体架构的设计概览图如下所示:

b633e8ae-d0b2-11ef-9310-92fbcf53809c.png

▲ 图1:SparseViT 总体架构

主要的组件包含:

1. 负责高效特征捕获的 Sparse Self-Attention

Sparse Self-Attention 是 SparseViT 框架的核心组件,专注于在减少计算复杂度的同时高效捕获篡改图像中的关键特征即非语义特征。传统的自注意力机制由于 patch 进行 token-to-token 的注意力计算,导致模型对语义信息过度拟合,使得非语义信息在受到篡改后表现出的局部不一致性被忽视。 为此,Sparse Self-Attention 提出了基于稀疏编码的自注意力机制,如图 2 所示,通过对输入特征图施加稀疏性约束,设输入的特征图 ,我们不是对 的整个特征上应用注意力,而是将特征分成形状为的张量块,表示将特征图分解为 个大小为的不重叠的张量块,分别在这些张量块上进行自注意力计算。

b6460c3c-d0b2-11ef-9310-92fbcf53809c.png

▲ 图2:稀疏自注意力

这一机制通过对特征图进行区域划分,使模型在训练中专注于非语义特征的提取,提升了对图像篡改伪影的捕捉能力。相比传统自注意力,Sparse Self-Attention 减少了约 80% 的 FLOPs,同时保留了高效的特征捕获能力,特别是在复杂场景中表现卓越。模块化的实现方式还允许用户根据需求对稀疏策略进行调整,从而满足不同任务的需求。

2. 负责多尺度特征融合的 Learnable Feature Fusion(LFF)

Learnable Feature Fusion(LFF)是 SparseViT 中的重要模块,旨在通过多尺度特征融合机制提高模型的泛化能力和对复杂场景的适应性。不同于传统的固定规则特征融合方法,LFF 模块通过引入可学习参数,动态调整不同尺度特征的重要性,从而增强了模型对图像篡改伪影的敏感度。

LFF 通过从稀疏自注意力模块输出的多尺度特征中学习特定的融合权重,优先强化与篡改相关的低频特征,同时保留语义信息较强的高频特征。模块设计充分考虑了 IML 任务的多样化需求,既能针对微弱的非语义伪影进行细粒度处理,又能适应大尺度的全局特征提取。

LFF 的引入显著提升了 SparseViT 在跨场景、多样化数据集上的性能,同时减少了无关特征对模型的干扰,为进一步优化 IML 模型性能提供了灵活的解决方案。

研究总结

简而言之,SparseViT 具有以下四个贡献:

1. 我们揭示了篡改图像的语义特征需要连续的局部交互来构建全局语义,而非语义特征由于其局部独立性,可以通过稀疏编码实现全局交互。

2. 基于语义和非语义特征的不同行为,我们提出使用稀疏自注意机制自适应地从图像中提取非语义特征。

3. 为了解决传统多尺度融合方法的不可学习性,我们引入了一种可学习的多尺度监督机制。

4. 我们提出的 SparseViT 在不依赖手工特征提取器的情况下保持了参数效率,并在四个公共数据集上实现了最先进的(SoTA)性能和出色的模型泛化能力。

SparseViT 通过利用语义特征和非语义特征之间的差异性,使模型能够自适应地提取在图像篡改定位中更为关键的非语义特征,为篡改区域的精准定位提供了全新的研究思路。

相关代码和操作文档、使用教程已完全开源在 GitHub 上(https://github.com/scu-zjz/SparseViT)。该代码有着完善的更新计划,仓库将被长期维护,欢迎全球研究者使用和提出改进意见。

SparseViT 的主要科研成员来自四川大学吕建成团队,合作方为澳门大学潘治文教授团队。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1096

    浏览量

    42178
  • IML
    IML
    +关注

    关注

    0

    文章

    14

    浏览量

    11710
  • Transformer
    +关注

    关注

    0

    文章

    154

    浏览量

    6825

原文标题:AAAI 2025 | SparseViT:以非语义为中心、参数高效的稀疏化视觉Transformer

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    炎核开源开放平台上架推出OpenSparseBlas高性能稀疏计算库

    。该库极致性能为核心,支持多种数据类型,提供便捷的API调用,旨在为专业计算场景提供稳定、高效稀疏运算支撑。
    的头像 发表于 12-15 15:18 204次阅读

    思奥特智能机器视觉光源:笔,绘就工业检测新图景

    专业的研发团队与丰富的行业经验,打造出多款高性能机器视觉光源产品,工业检测领域注入了新的活力。 一、技术突破:媒,破解检测难题 思奥特智能机器
    的头像 发表于 11-21 09:16 84次阅读
    思奥特智能机器<b class='flag-5'>视觉</b>光源:<b class='flag-5'>以</b>光<b class='flag-5'>为</b>笔,绘就工业检测新图景

    自动驾驶中如何将稀疏地图与视觉SLAM相结合?

    [首发于智驾最前沿微信公众号]在自动驾驶场景中,稀疏地图通常是由一系列关键帧和若干三维稀疏特征点构成的地图,每个特征点包含三维坐标和描述外观的描述子;而视觉SLAM是运行在车辆上的实时算法,它一边
    的头像 发表于 10-28 09:07 494次阅读
    自动驾驶中如何将<b class='flag-5'>稀疏</b>地图与<b class='flag-5'>视觉</b>SLAM相结合?

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    Transformer视觉Transformer模型。 ViTA是一种高效数据流AI加速器,用于在边缘设备上部署计算密集型视觉
    发表于 09-12 17:30

    iTOF技术,多样的3D视觉应用

    and 应用场景, 飞行时间 (TOF) 传感器三大三大三维传感技术中,在不同领域的功能和商业场景的实现越来越多。它们用于各种专业应用,最终用户提供高效、安全的环境并节省劳动力
    发表于 09-05 07:24

    睿海光电高效交付与广泛兼容助力AI数据中心800G光模块升级

    400G/800G光模块已实现规模量产,并基于AI工厂与AI云的核心需求进行深度优化: 速率突破:采用PAM4调制技术,单通道速率达100Gbps,整模块实现800Gbps传输能力,GPU集群的高效协同
    发表于 08-13 19:01

    小型数据中心晶振选型关键参数全解

    小型数据中心的定义与应用 小型数据中心通常是中小型企业、边缘计算、物联网(IoT)设备及其他特定业务需求提供计算、存储和网络服务的设施。与大型数据中心相比,小型数据
    发表于 06-11 13:37

    【「# ROS 2智能机器人开发实践」阅读体验】视觉实现的基础算法的应用

    的Cartographer以其高效的子地图管理和回环检测能力著称。书中通过实例演示了如何配置Cartographer的Lua参数文件,适应不同场景。 在真实机器人测试中,运动噪声(如轮子打滑)可能导致建图漂移,因此需要
    发表于 05-03 19:41

    融媒体IP新标杆:千视助力武威市融媒体中心打造全新遗直播体验

    遗文化的独特风采,更是融媒体IP转型的标杆案例,传统文化的音视频传播开辟了全新路径。1大规模遗直播的挑战随着遗直播活动的蓬勃发展,直播场地的扩大和信号数量
    的头像 发表于 03-11 19:58 638次阅读
    融媒体IP<b class='flag-5'>化</b>新标杆:千视助力武威市融媒体<b class='flag-5'>中心</b>打造全新<b class='flag-5'>非</b>遗直播体验

    OpenVINO™ Toolkit中如何保持模型稀疏性?

    OpenVINO™ Toolkit 中支持的优化方法,保持模型稀疏性。
    发表于 03-06 06:47

    华为发布AI中心的网络解决方案

    在MWC25巴塞罗那期间举办的产品与解决方案发布会上,华为董事、ICT BG CEO杨超斌发布了AI中心的网络解决方案(AI-Centric Network)。
    的头像 发表于 03-05 10:02 974次阅读

    如何使用MATLAB构建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任务,如机器翻译。Transformer 通过引入自注意力机制使得处理长距离依赖关系时变得高效。因此 Vaswani 等人的论文强调“注意力是所需的一切”。
    的头像 发表于 02-06 10:21 5790次阅读
    如何使用MATLAB构建<b class='flag-5'>Transformer</b>模型

    王欣然教授团队提出基于二维材料的高效稀疏神经网络硬件方案

    。   稀疏性 (Sparsity) 是人脑中的神经突触的本征属性。在大脑发育过程中,超过一半的突触会细粒度和结构的方式被剪枝 (Pruning),这是人脑具有高能效的关键因素。
    的头像 发表于 01-13 10:41 918次阅读
    王欣然教授团队提出基于二维材料的<b class='flag-5'>高效</b><b class='flag-5'>稀疏</b>神经网络硬件方案

    地平线ViG基于视觉Mamba的通用视觉主干网络

    Vision Mamba的成功预示着将视觉表征学习转换为线性复杂度视觉序列表征学习具有巨大的潜力。尽管Vision Mamba代表的线性视觉
    的头像 发表于 01-08 09:33 946次阅读
    地平线ViG基于<b class='flag-5'>视觉</b>Mamba的通用<b class='flag-5'>视觉</b>主干网络

    港大提出SparX:强化Vision Mamba和Transformer稀疏跳跃连接机制

    本文分享香港大学计算和数据科学学院俞益洲教授及其研究团队发表于 AAAI 2025 的论文——SparX,一种强化 Vision Mamba 和 Transformer稀疏跳跃连接机制,性能强大
    的头像 发表于 01-03 09:28 1835次阅读
    港大提出SparX:强化Vision Mamba和<b class='flag-5'>Transformer</b>的<b class='flag-5'>稀疏</b>跳跃连接机制