0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPT-4V在异常检测上有多少强?华科大等最新测评来了!

CVer 来源:机器之心 2023-11-13 16:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

异常检测任务旨在识别明显偏离正常数据分布的异常值,在工业检验、医学诊断、视频监控和欺诈检测等多个领域都发挥了重要作用。传统的异常检测方法主要依赖于描述正常数据分布以进行正异常样本的区分。然而,对于实际的应用而言,异常检测也需要理解数据的高层语义,从而深入理解 “什么是异常”。

要实现更准确且智能的异常检测,我们需要关注以下关键步骤:

1. 理解多样数据类型和类别

不同领域的数据集包含各种数据类型和类别,如图像、视频、点云、时间序列等。每种数据类型可能需要不同的异常检测方法,每个物体类别可能对应不同的正常标准,因此深入理解数据的多样性至关重要。

2. 确定正常状态标准

一旦理解了数据的类型和类别,我们需要推断正常状态的标准。这需要高级数据语义信息的理解,以确保我们能够正确识别正常数据的特征和模式。

3. 评估数据的符合度

最后,我们需要评估提供的数据是否符合已建立的正常数据分布。任何偏离这些数据分布的情况都可以被归类为异常。

最近,大型多模态模型(LMM)迅猛发展,其中 OpenAI 最近推出的 GPT-4V (ision) 表现最为出色,具有强大的多模态感知能力,在场景理解,图片生成等多个任务中都取得了良好表现。我们认为,LMM 的出现为通用异常检测的研究提供了新的范式和新的机会。

为了评估 GPT-4V 在通用异常检测中的性能,来自华中科技大学、密歇根大学和多伦多大学的研究者联合进行了一项研究,在涉及 4 个数据模态,9 个异常检测任务的 15 个异常检测数据集上对 GPT-4V 进行了全面的测试。具体而言,测试的数据集包括图像、点云、视频、时序等模态,并涵盖了工业图像异常检测 / 定位,医疗图像异常检测 / 定位,点云异常检测,逻辑异常检测,行人异常检测,交通异常检测,时序异常检测等 9 个异常检测任务。

bfec7a86-81ef-11ee-939d-92fbcf53809c.png

论文地址:https://arxiv.org/pdf/2311.02782.pdf

项目地址:https://github.com/caoyunkang/GPT4V-for-Generic-Anomaly-Detection

c00701b2-81ef-11ee-939d-92fbcf53809c.png

观察与分析

本文在多种模态和领域的异常检测数据集上对 GPT4V 的性能进行了测试。我们认为,GPT4V 已经初步具备了多模态的通用异常检测能力。具体而言,GPT-4V 不仅能够有效理解多样数据类型和类别,而且可以建模正常数据的空间分布,并评估测试数据的分布情况。

除此以外,GPT-4V 在异常检测任务中还具有以下特点:

GPT-4V 能够在零 / 单样本下处理多模态、多领域的异常检测任务

多模态异常检测:GPT-4V 可有效处理多种模态数据的异常检测任务。例如,它在识别图像、点云、MRI、X-ray 等数据模态上均表现出了不俗的异常检测能力。多模态异常检测能力使 GPT-4V 能够突破传统单模态异常检测器的限制,完成现实世界的复杂异常检测任务。

多领域异常检测:GPT-4V 在工业、医疗、行人、交通和时间序列异常检测等多个领域表现优异。

零 / 单样本下的异常检测:GPT-4V 在零样本及单样本(即提供了一张正常的参考图片)任务中均表现不俗。在没有参考图像的情况下,GPT-4V 可以有效地使用语言提示信息来检测异常。当提供正常参考图像时,GPT-4V 能够更好的对齐文本格式的正常标准与正常的图像内容,其异常检测准确性进一步提高。

GPT-4V 可以理解异常检测任务所需的全局和细粒度语义

全局语义理解能力:GPT-4V 对全局语义的理解能力表现在它能够识别整体的异常模式或行为。例如,在交通异常检测中,它可以分辨正常的交通流和不规则事件之间的区别,并且提供了关于异常检出的详细解释。这种全局理解使其非常适合在开放世界中识别偏离正常分布的异常点。

细粒度语义理解能力:GPT-4V 对细粒度语义的理解能力在一些情况下表现出色,使得它不仅能够检测异常,还能够精确地在复杂数据中定位异常。例如,在工业图像异常检测中,它可以准确定位细节,如倾斜的蜡烛烛芯、瓶口周围的轻微划痕。这种细粒度理解增强了它在复杂数据中检测微小异常的能力,从而提高了其整体检测。

GPT-4V 具备自动推理异常检测的能力

GPT-4V 能够根据复杂的正常标准自动推理、拆分子任务。例如,在逻辑异常检测中,GPT-4V 能够理解所给的正常图像标准,并拆分为子任务,依次检验图像内容是否满足指定内容。这种内在的推理能力增强了其异常检测结果的可解释性,使其成为理解和解决通用异常检测的有效工具。

GPT-4V 可以通过增加提示进一步增强异常检测能力

评估结果显示,提供更多文本和图像信息对 GPT-4V 的异常检测性能有积极影响。通过增加类别信息、人类专业知识、参考图像,模型获得了更多的上下文信息,异常检测性能也得到显著提升。该特点允许用户通过提供相关的补充信息来微调和增强模型的性能。

GPT-4V 在实际应用中可能受到限制,但仍具有潜力

本报告发现 GPT-4V 在实际应用中仍面临一些挑战。例如,GPT-4V 可能在处理工业应用中的复杂场景时面临困难,导致其出现错误检测。医疗领域的伦理约束也使其在判断肿瘤等异常情况时趋于保守。但我们相信它在各种异常检测任务中仍然具有潜力。为了有效解决这些挑战,可能需要进一步增强、专门的精细调整或补充技术。总结而言,GPT-4V 在通用异常检测中具有明显潜力,有望开启异常检测任务的高层次感知时代。

应用场景展示

工业图像异常检测

工业图像异常检测旨在维护产品质量,是制造过程的重要环节。近年来,许多方法在此领域蓬勃发展,其中一些方法着眼于开发适用于任意产品类别的统一模型。本研究探讨了 GPT-4V 在工业图像异常检测中的应用,包括对不同类型的信息进行测试,以及展示其性能和局限性。

我们从工业图像中选择了几个示例,如瓶子和蜡烛的图像。即使只提供简单的语言提示,GPT-4V 能够有效地识别这些图像中的异常,展示了其能力和多样性。此外,GPT-4V 不仅能够检测期望的异常,还能够识别微观结构异常。在复杂情况下,如电路板中的异常检测,GPT-4V 能够识别图像中的细节,但也存在一定的局限性。总的来说,GPT-4V 在图像上下文理解和类别特定异常理解方面表现出色。

c031e198-81ef-11ee-939d-92fbcf53809c.png

c05db1f6-81ef-11ee-939d-92fbcf53809c.png

工业图像异常定位

与工业图像异常检测不同,工业图像异常定位旨在精确识别异常的位置。为了实现这一目标,我们采用了与 SoM(Set-of-mark)类似的方法,使用图像 - 掩模对来提示 GPT-4V。我们研究了 GPT-4V 在不同场景下的表现,展示了其在细粒度异常定位方面的能力和局限性。

我们展示了 GPT-4V 在工业图像异常定位中的性能,包括定位弯曲的电线、坚果上的空洞以及识别电路板异常。GPT-4V 在一些情况下能够准确识别异常位置,例如能够有效定位坚果中的空洞,并且由于结合了视觉提示技术,GPT-4V 将异常定位问题转化为了对掩膜的分类问题,有效降低了问题复杂度,且提升了定位精度。因此,结合视觉提示技术和 GPT-4V 可有效解决工业图像异常定位问题。

c0905b38-81ef-11ee-939d-92fbcf53809c.png

点云异常检测

点云异常检测在工业领域具有重要作用。CPMF 提出了一种新方法,将点云转化为深度图像,以利用图像基础模型来提高点云异常检测的性能。我们借助 CPMF,将点云转为深度图像,从而使得 GPT-4V 可处理点云异常检测任务。

我们展示了 GPT-4V 在点云异常检测中的性能,包括识别袋圈中的小突起、检测绳子上的异常以及查找工件中的异常。GPT-4V 能够有效地识别这些异常,但在某些情况下也存在局限性,特别是在渲染质量较低的情况下。总的来说,GPT-4V 在点云异常检测中表现出了潜力。

c0c3a0d8-81ef-11ee-939d-92fbcf53809c.png

c0f0c914-81ef-11ee-939d-92fbcf53809c.png

逻辑异常检测

逻辑异常检测任务由 MVTec LOCO 数据集提出。该任务通常出现在装配过程中,需要识别各个组件是否正确组合。现有的逻辑异常检测方法通常依赖于视觉全局 - 局部对应关系,但本质上并没有真正理解图像内容。我们研究了 GPT-4V 在逻辑异常检测中的应用,探讨了其对图像内容的理解能力。

我们展示了 GPT-4V 在逻辑异常检测中的性能,包括识别复杂的逻辑规则、检测逻辑异常并提供详细的解释。尽管 GPT-4V 在大多数情况下能够准确识别逻辑异常,但在某些复杂情况下存在一定的局限性,尤其是对于细节问题。不过,结合多轮对话和特定语言提示有望显著改善 GPT-4V 在这些情况下的性能。

c11ebae0-81ef-11ee-939d-92fbcf53809c.png

医学图像异常检测

医学图像异常检测是医学影像领域的关键任务,旨在识别不符合预期数据分布的异常值。我们研究了 GPT-4V 在医学图像异常检测中的应用,包括不同疾病和成像模式的医学图像。我们测试了 GPT-4V 的泛化能力,揭示了其在医学图像异常检测中的性能和局限性。

我们展示了 GPT-4V 在医学图像异常检测中的性能,包括识别不同疾病和成像模式的异常图像。即使只提供简单的语言提示,GPT-4V 能够有效地识别异常,并提供详细的解释。此外,引入更多信息,如疾病信息和专业知识,可以进一步提高 GPT-4V 的性能。然而,GPT-4V 在某些情况下可能会产生错误的异常检测,因此仍需要医生的最终判断。

c14f9ca0-81ef-11ee-939d-92fbcf53809c.png

c1792f98-81ef-11ee-939d-92fbcf53809c.png

医学图像异常定位

在检测到医学异常后,需要进一步精确定位医学图像中存在的异常,例如病灶等。对医学图像异常的准确的定位可有效帮助临床医生理解病理的程度和性质。然而,在现实世界的医学图像异常定位任务中使用 GPT-4V 直接预测异常掩膜十分困难。受到 SoM 的启发,我们希望测试 GPT-4V 模型在视觉提示下的异常定位能力。

结合 SoM,我们标定了医疗图像中可能存在的异常位置。在图像中的视觉提示指导下,GPT-4V 倾向于学习和描述标记周围的区域。对于容易识别和定位的案例,GPT-4V 可以清楚地区分异常区域和背景。但在一个人工合成异常的案例中,由于感兴趣区域与背景具有相似的纹理和形状,GPT4V 的判断出现了偏差。这表明该模型在对抗攻击和复杂背景下仍需要增强其检测和定位能力。

c19e6cea-81ef-11ee-939d-92fbcf53809c.png

交通检测

交通检测是城市交通管理和自动驾驶领域的关键任务,它旨在监测交通情况,检测交通违规行为和危险情况。我们研究了 GPT-4V 在交通检测中的应用,包括车辆识别、交通标志识别和交通违规检测。我们测试了 GPT-4V 在不同场景下的性能,展示了其潜力和局限性。

我们展示了 GPT-4V 在交通检测中的性能,包括识别不同类型的车辆、检测各种交通标志和识别交通违规行为。GPT-4V 能够有效地处理这些任务,尤其是在规范场景下。然而,在复杂交通环境中,性能可能会下降,因为它需要理解并解释复杂的情境。

c1c04f68-81ef-11ee-939d-92fbcf53809c.png

行人检测

行人检测是自动驾驶、安全监控和智能城市等领域的关键任务,它旨在识别图像或视频中的行人。我们研究了 GPT-4V 在行人检测中的应用,测试了其对行人的识别能力和性能。

我们展示了 GPT-4V 在行人检测中的性能,包括检测行人在不同背景下的能力。GPT-4V 通常能够识别行人,但在复杂背景下可能会出现错误。与专门的行人检测模型相比,性能可能相对较差,但它的优势在于它能够提供更多的语言解释。

c1f6324a-81ef-11ee-939d-92fbcf53809c.png

时序检测

时序检测是一种涉及到时间序列数据的异常检测任务,例如传感器数据、金融时间序列等。我们研究了 GPT-4V 在时序检测中的应用,测试了其在分析和检测时间序列异常方面的能力。

我们展示了 GPT-4V 在时序检测中的性能,包括检测传感器数据中的异常、金融交易数据中的异常等。GPT-4V 在分析时间序列数据方面表现出色,能够识别不同类型的异常情况。然而,需要注意的是,时序检测通常需要更多的领域专业知识,而 GPT-4V 在这些情况下可能需要结合专家的建议。

c224a99a-81ef-11ee-939d-92fbcf53809c.png

结论

GPT-4V 在工业图像异常检测、工业图像异常定位、点云异常检测、逻辑异常检测、医学图像异常检测、交通检测、行人检测和时序检测等领域都展示出了出色的潜力。它能够理解多模态数据,对图像内容进行有效理解,并在很多情况下都能准确检测并解释异常。然而,在复杂场景中,GPT-4V 的异常检测能力仍然存在一定的局限性。综合来看,GPT-4V 为通用异常检测提供了全新的研究范式,但其实际应用仍需要进一步的研究和改进。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1231

    浏览量

    26047
  • GPT
    GPT
    +关注

    关注

    0

    文章

    368

    浏览量

    16720
  • OpenAI
    +关注

    关注

    9

    文章

    1238

    浏览量

    9816

原文标题:GPT-4V在异常检测上有多少强?华科大等最新测评来了!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    时间同步测试仪检测电能质量装置时钟同步异常时有哪些优势?

    时间同步测试仪检测电能质量装置时钟同步异常时,核心优势在于 专业性、精度高、功能全面且场景适配性好 ,能覆盖 “多协议兼容、偏差精准测量、异常
    的头像 发表于 10-22 14:29 122次阅读

    【作品合集】群芯闪耀Milk-V Duo S 开发板测评

    群芯闪耀Milk-V Duo S开发板测评作品合集 产品介绍: Milk-V Duo S 是 Duo 的升级型号,配备升级版 SG2000 主控制器、更大的 512MB 内存和更丰富的输入/输出功能
    发表于 09-16 11:03

    如何利用AI算法进行装置数据的异常检测

    利用 AI 算法进行装置数据异常检测,需结合工业装置的数据特性(如实时性、多源性、时序性、噪声干扰)和业务需求(如故障预警、安全合规、工艺优化),通过 “数据预处理 - 算法选型 - 模型部署
    的头像 发表于 09-05 15:27 1136次阅读
    如何利用AI算法进行装置数据的<b class='flag-5'>异常</b><b class='flag-5'>检测</b>?

    【RA4M2-SENSOR】3、使用GPT定时器-PWM输出

    GPT介绍 通用 PWM 定时器(GPT,General PWM Timer)是 RA MCU 的其中一种 32/16 位的定时器外设。 GPT 当中,可分为
    发表于 09-01 15:20

    IGBT 样品异常检测案例解析

    通过利用Thermal EMMI(热红外显微镜)去检测IGBT 样品异常
    的头像 发表于 08-15 09:17 1595次阅读
    IGBT 样品<b class='flag-5'>异常</b><b class='flag-5'>检测</b>案例解析

    机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统

    本文转自:DeepHubIMBA无监督异常检测作为机器学习领域的重要分支,专门用于缺乏标记数据的环境中识别异常事件。本文深入探讨异常
    的头像 发表于 06-24 11:40 1203次阅读
    机器学习<b class='flag-5'>异常</b><b class='flag-5'>检测</b>实战:用Isolation Forest快速构建无标签<b class='flag-5'>异常</b><b class='flag-5'>检测</b>系统

    秋DFM】V4.6正式上线:工程师的PCB设计“好搭子”来了

    /焊接生产细节,让设计优化有的放矢。 操作体验方面,秋DFM兼顾专业深度与操作便捷;新手工程师可通过直观界面快速完成基础检测,资深工程师则可根据经验实现精细分析和优化。其特有的生
    发表于 05-22 16:07

    科大讯飞Air 2电纸书和掌阅Ocean4 Plus区别

    ComfortLight Pro光源技术,支持30级亮度和色温调节,夜间阅读时眼睛也不会感到不适。 科大讯飞 Air 2 更多使用感受和评价https://u.jd.com/GGAOnEY 性能方面
    发表于 03-03 14:01

    工业网关哪家?各大厂家简单测评

    工业互联网蓬勃发展的当下,工业网关作为连接工业设备与网络的关键桥梁,其重要性不言而喻。市场上工业网关厂家众多,产品琳琅满目,究竟哪家呢?今天就带大家对各大厂家的工业网关进行一次简单测评。 一
    的头像 发表于 02-24 10:49 1050次阅读
    工业网关哪家<b class='flag-5'>强</b>?各大厂家简单<b class='flag-5'>测评</b>

    OpenAI宣布GPT 4o升智计划

    近日,全球领先的人工智能公司OpenAI迎来了一项重要宣布。OpenAI的首席执行官Sam Altman正式揭晓了GPT 4o的升智计划,这一消息立即引起了业界的广泛关注。 据Sam Altman
    的头像 发表于 02-17 14:24 871次阅读

    OpenAI即将发布GPT-4.5与GPT-5

    近日,OpenAI的首席执行官Sam Altman社交平台上透露了公司即将推出的重大计划。据他透露,OpenAI计划在不久的将来连续发布两款重要的AI算法——GPT-4.5和GPT-5。 据悉
    的头像 发表于 02-13 13:43 1031次阅读

    如何在边缘端获得GPT4-V的能力:算力魔方+MiniCPM-V 2.6

    本 OpenCompass 榜单上(综合 8 个主流多模态评测基准)平均得分 65.2,以8B量级的大小单图理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Cl
    的头像 发表于 01-20 13:40 1115次阅读
    如何在边缘端获得<b class='flag-5'>GPT4-V</b>的能力:算力魔方+MiniCPM-<b class='flag-5'>V</b> 2.6

    串口通讯异常处理方法 串口设备连接方式

    。 软件检测软件层面,可以通过检查接收到的数据帧是否符合预期的格式和协议来检测异常。 2. 错误处理策略 一旦
    的头像 发表于 12-27 09:53 5522次阅读

    【RA-Eco-RA4E2-64PIN-V1.0开发板试用】+02+舵机控制+串口通讯

    1、引言 本篇测评报告主要完成串口通讯以及舵机PWM控制的实现。 上篇 【RA-Eco-RA4E2-64PIN-V1.0开发板试用】+初次见面+MDK生成代码+点灯地址如下
    发表于 12-18 11:06

    【RA-Eco-RA4E2-64PIN-V1.0开发板试用】+初次见面+MDK生成代码+点灯

    开发板的软硬件情况,完成软硬件开发环境的搭建,完成点灯试验。后续会依次完成舵机PWM控制、CAN通讯测评测评申请链接:RA-Eco-RA4E2-64PIN-V1.0开发板评测试
    发表于 12-15 21:55