0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏

OpenCV学堂 来源:新智元 2023-04-11 09:30 次阅读

【导读】为了应对多模态假新闻,本文提出检测并定位多模态媒体篡改任务(DGM)。与现有的单模态DeepFake检测任务相比,DGM不仅判断输入图像-文本对的真假,也尝试定位篡改内容(例如图像篡改区域和文本篡改单词)。

由于如Stable Diffusion等视觉生成模型的快速发展,高保真度的人脸图片可以自动化地伪造,制造越来越严重的DeepFake问题。

随着如ChatGPT等大型语言模型的出现,大量假本文也可以容易地生成并恶意地传播虚假信息

为此,一系列单模态检测模型被设计出来,去应对以上AIGC技术在图片和文本模态的伪造。但是这些方法无法较好应对新型伪造场景下的多模态假新闻篡改。

具体而言,在多模态媒体篡改中,各类新闻报道的图片中重要人物的人脸(如图 1 中法国总统人脸)被替换,文字中关键短语或者单词被篡改(如图 1 中正面短语「is welcome to」被篡改为负面短语「is forced to resign」)。

这将改变或掩盖新闻关键人物的身份,以及修改或误导新闻文字的含义,制造出互联网上大规模传播的多模态假新闻。

a8d26e1c-d805-11ed-bfe3-dac502259ad0.png

图1. 本文提出检测并定位多模态媒体篡改任务(DGM4)。与现有的单模态DeepFake检测任务不同,DGM4不仅对输入图像-文本对预测真假二分类,也试图检测更细粒度的篡改类型和定位图像篡改区域和文本篡改单词。除了真假二分类之外,此任务对篡改检测提供了更全面的解释和更深入的理解。

a8f31978-d805-11ed-bfe3-dac502259ad0.png

表1: 所提出的DGM4与现有的图像和文本伪造检测相关任务的比较

检测并定位多模态媒体篡改任务

为了解此新挑战,来自哈工大(深圳)和南洋理工的研究人员提出了检测并定位多模态媒体篡改任务(DGM4)、构建并开源了DGM4数据集,同时提出了多模态层次化篡改推理模型。目前,该工作已被CVPR 2023收录。

a907a258-d805-11ed-bfe3-dac502259ad0.png

论文地址:https://arxiv.org/abs/2304.02556

GitHub:https://github.com/rshaojimmy/MultiModal-DeepFake

项目主页:https://rshaojimmy.github.io/Projects/MultiModal-DeepFake

如图1和表1所示,检测并定位多模态媒体篡改任务(Detecting and Grounding Multi-Modal Media Manipulation (DGM4))和现有的单模态篡改检测的区别在于:

1)不同于现有的DeepFake图像检测与伪造文本检测方法只能检测单模态伪造信息,DGM4要求同时检测在图像-文本对中的多模态篡改;

2)不同于现有DeepFake检测专注于二分类,DGM4进一步考虑了定位图像篡改区域和文本篡改单词。这要求检测模型对于图像-文本模态间的篡改进行更全面和深入的推理。

检测并定位多模态媒体篡改数据集

为了支持对DGM4研究,如图2所示,本工作贡献了全球首个检测并定位多模态媒体篡改(DGM4)数据集。

a91aad1c-d805-11ed-bfe3-dac502259ad0.png

图2. DGM4数据集

DGM4数据集调查了4种篡改类型,人脸替换篡改(FS)、人脸属性篡改(FA)、文本替换篡改(TS)、文本属性篡改(TA)。

图2展示了 DGM4整体统计信息,包括(a) 篡改类型的数量分布;(b) 大多数图像的篡改区域是小尺寸的,尤其是对于人脸属性篡改;(c) 文本属性篡改的篡改单词少于文本替换篡改;(d)文本情感分数的分布;(e)每种篡改类型的样本数。

此数据共生成23万张图像-文本对样本,包含了包括77426个原始图像-文本对和152574个篡改样本对。篡改样本对包含66722个人脸替换篡改,56411个人脸属性篡改,43546个文本替换篡改和18588个文本属性篡改。

多模态层次化篡改推理模型

本文认为多模态的篡改会造成模态间细微的语义不一致性。因此通过融合与推理模态间的语义特征,检测到篡改样本的跨模态语义不一致性,是本文应对DGM4的主要思路。

a93dddb4-d805-11ed-bfe3-dac502259ad0.png

图3. 提出的多模态层次化篡改推理模型HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER)

基于此想法,如图3所示,本文提出了多模态层次化篡改推理模型HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER)。

此模型建立在基于双塔结构的多模态语义融合与推理的模型架构上,并将多模态篡改的检测与定位细粒度层次化地通过浅层与深层篡改推理来实现。

具体而言,如图3所示,HAMMER模型具有以下两个特点:

1)在浅层篡改推理中,通过篡改感知的对比学习(Manipulation-Aware Contrastive Learning)来对齐图像编码器和文本编码器提取出的图像和文本单模态的语义特征。同时将单模态嵌入特征利用交叉注意力机制进行信息交互,并设计局部块注意力聚合机制(Local Patch Attentional Aggregation)来定位图像篡改区域;

2)在深层篡改推理中,利用多模态聚合器中的模态感知交叉注意力机制进一步融合多模态语义特征。在此基础上,进行特殊的多模态序列标记(multi-modal sequence tagging)和多模态多标签分类(multi-modal multi-label classification)来定位文本篡改单词并检测更细粒度的篡改类型。

实验结果

如下图,实验结果表明研究团队提出的HAMMER与多模态和单模态检测方法相比,都能更准确地检测并定位多模态媒体篡改。

a955d14e-d805-11ed-bfe3-dac502259ad0.png

a97996e2-d805-11ed-bfe3-dac502259ad0.png

a990996e-d805-11ed-bfe3-dac502259ad0.png

a9aaddd8-d805-11ed-bfe3-dac502259ad0.png

图4. 多模态篡改检测和定位结果可视化

aaa0368e-d805-11ed-bfe3-dac502259ad0.png

图5. 关于篡改文本的模型篡改检测注意力可视化

图4提供了一些多模态篡改检测和定位的可视化结果,说明了HAMMER可以准确地同时进行篡改检测与定位任务。图5提供了关于篡改单词的模型注意力可视化结果,进一步展示了HAMMER是通过关注与篡改文本语义不一致性的图像区域来进行多模态篡改检测和定位。

总结

本工作提出了一个新的研究课题:检测并定位多模态媒体篡改任务,来应对多模态假新闻。

本工作贡献了首个大规模的检测并定位多模态媒体篡改数据集,并提供了详细丰富的篡改检测与定位的标注。团队相信它可以很好地帮助未来多模态假新闻检测的研究。

本工作提出了一个强大的多模态层次化篡改推理模型作为此新课题很好的起始方案。

本工作的代码和数据集链接都已分享在本项目的GitHub上,欢迎大家Star这个GitHub Repo, 使用DGM4数据集和HAMMER来研究DGM4问题。DeepFake领域不只有图像单模态检测,还有更广阔的多模态篡改检测问题亟待大家解决!

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    54

    文章

    10906

    浏览量

    100755
  • 语言模型
    +关注

    关注

    0

    文章

    435

    浏览量

    10051
  • 图像检测
    +关注

    关注

    0

    文章

    28

    浏览量

    11819

原文标题:CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    手机设计基本知识哈工大版本(good),非常不错的!!!

    手机设计基本知识哈工大版本(good),非常不错的!!!
    发表于 08-10 22:39

    0040《模煳控制·神经控制和智能控制论》哈工大出版社1996.pdf

    ;fromuid=286650040《模煳控制·神经控制和智能控制论》哈工大出版社1996.pdf(16M)希望大家顶顶,提升提升人气。`
    发表于 12-19 17:13

    哈工大DSP学习资料

    哈工大DSP学习资料
    发表于 10-16 22:28

    永磁同步电机的振动与噪音-哈工大

    怒上永磁同步电机的振动与噪音-哈工大
    发表于 01-19 16:26

    哈工大《软件工程》全套课件完整版

    哈工大《软件工程》全套课件完整版
    发表于 11-07 11:40

    单片机课程(来自哈工大

    送单片机课程(哈工大)![hide] 链接:http://pan.baidu.com/s/1o81rMQY 密码:qvh4[/hide]
    发表于 11-07 19:01

    基于边缘计算的全球定位系统欺骗检测方法

    “目前GNSS欺骗检测方法有很多,但是大多数方法需要较强的信号处理能力和附加设备,例如接收器,这些附加设备可能不适用于车辆和智能手机。本文提出了一种新的基于边缘计算的方法来重建丢失的全球定位系统信号
    发表于 11-09 15:12

    哈工大DSP教程

    哈工大DSP教程
    发表于 07-28 10:36 130次下载
    <b class='flag-5'>哈工大</b>DSP教程

    哈工大CERP系统

    哈工大CERP系统  java+weblogic实现,比较有学习价值,严禁商业使用。
    发表于 03-16 15:53 18次下载

    手机设计基本知识_哈工大版本

    手机设计基本知识_哈工大版本(good)。
    发表于 02-25 13:58 0次下载

    哈工大模拟数字电路合集

    哈工大模拟数字电路实例合集
    发表于 03-31 08:00 0次下载

    哈工大四系FPGA上机实验编程部分

    哈工大四系FPGA上机实验编程部分
    发表于 10-20 15:52 16次下载

    是德科技为新加坡南洋理工大学提供先进设计和验证解决方案

    是德科技(NYSE:KEYS)宣布,新加坡南洋理工大学(NTU)选中了该公司以软件为中心的测试和测量解决方案,用于推进基于太赫兹频率的 6G 技术。
    的头像 发表于 06-07 14:44 1102次阅读

    哈工大机械制造基础课件

    哈工大机械制造基础课件
    发表于 08-08 14:55 0次下载

    哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型

    最近,大型多模态(即视觉和语言)模型(LMM)在图像描述、视觉理解、视觉推理等多种视觉任务上表现出了卓越的感知能力,使其成为更易于理解的异常检测的有竞争力的潜在选择。然而,现有的通用 LMM 中缺乏有关异常
    的头像 发表于 11-21 16:08 705次阅读
    <b class='flag-5'>哈工大提出</b>Myriad:利用视觉专家进行工业异常<b class='flag-5'>检测</b>的大型多<b class='flag-5'>模态</b><b class='flag-5'>模型</b>