0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型

CVer 来源:CVer 2023-11-21 16:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一句话总结

通过应用视觉专家进行工业异常检测,以实现明确的异常检测和高质量的异常描述,还可进行多轮对话,性能表现出色!优于AnomalyGPT等网络,代码即将开源!

Myriad

81612fa6-8842-11ee-939d-92fbcf53809c.png

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

单位:哈工大(左旺孟团队), 琶洲实验室

论文:https://arxiv.org/abs/2310.19070

代码:https://github.com/tzjtatata/Myriad

现有的工业异常检测(IAD)方法可以预测异常检测和定位的异常分数。然而,它们很难对异常区域进行多轮对话和详细描述,例如工业异常的颜色、形状和类别。

最近,大型多模态(即视觉和语言)模型(LMM)在图像描述、视觉理解、视觉推理等多种视觉任务上表现出了卓越的感知能力,使其成为更易于理解的异常检测的有竞争力的潜在选择。然而,现有的通用 LMM 中缺乏有关异常检测的知识,而训练特定的 LMM 进行异常检测需要大量的注释数据和大量的计算资源。

本文提出了一种新颖的大型多模态模型,通过应用视觉专家进行工业异常检测(称为Myriad),从而实现明确的异常检测和高质量的异常描述。

8174db1e-8842-11ee-939d-92fbcf53809c.png

具体来说,采用 MiniGPT-4 作为基础 LMM,并设计一个专家感知模块,将视觉专家的先验知识嵌入到大型语言模型(LLM)可以理解的标记中。

817bd270-8842-11ee-939d-92fbcf53809c.png

为了弥补视觉专家的错误和困惑,引入了域适配器来弥合通用图像和工业图像之间的视觉表示差距。此外,提出了一个视觉专家讲师,它使 Q-Former 能够根据视觉专家先验生成 IAD 领域视觉语言标记。

实验结果

在MVTec-AD 和 VisA 基准上的大量实验表明,本文提出的方法不仅在 1-class 和少样本设置下比最先进的方法表现更好,而且还提供了明确的异常预测以及 IAD 中的详细描述领域。

818720f8-8842-11ee-939d-92fbcf53809c.png

8193e388-8842-11ee-939d-92fbcf53809c.png

81d184e0-8842-11ee-939d-92fbcf53809c.png

81ed7236-8842-11ee-939d-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3873

    浏览量

    52338
  • 视觉
    +关注

    关注

    1

    文章

    184

    浏览量

    24898
  • 大模型
    +关注

    关注

    2

    文章

    3863

    浏览量

    5296

原文标题:工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    模态模型 前沿算法与实战应用 第一季》精品课程简介

    模态选择 :根据任务需求自动选择最优模态组合。例如在低光照场景下,模型会优先依赖激光雷达而非摄像头进行感知。 具身智能 :结合机器人实体,实现视觉
    发表于 05-01 17:46

    人工智能模态视觉模型开发实战 - 2026必会

    量和存储空间,提高推理速度。 此外,还会介绍如何将视觉模型与现有的系统进行集成,实现与其他模块的协同工作。例如,在医疗影像分析系统中,将视觉模型
    发表于 04-15 16:06

    商汤科技日日新V6.5荣获2025年模态模型全国第一

    近日,权威大模型评测基准 SuperCLUE 发布《中文模态视觉语言模型测评基准12月报告》,商汤日日新V6.5(SenseNova V6
    的头像 发表于 01-06 14:44 1040次阅读
    商汤科技日日新V6.5荣获2025年<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>全国第一

    模态感知大模型驱动的密闭空间自主勘探系统的应用与未来发展

        模态感知大模型驱动的密闭空间自主勘探系统    北京华盛恒辉模态感知大模型驱动的密闭
    的头像 发表于 12-29 11:27 546次阅读

    商汤科技正式发布并开源全新模态模型架构NEO

    商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新模态模型架构 —— NEO,为日日新SenseNova
    的头像 发表于 12-08 11:19 1241次阅读
    商汤科技正式发布并开源全新<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>模型</b>架构NEO

    格灵深瞳模态模型Glint-ME让图文互搜更精准

    在电商、安防等场景下,图文互搜应用广泛。随着以CLIP为代表的模态表征方法相继提出,过去单一模态搜索(文搜文、图搜图)被突破,模型可以同时
    的头像 发表于 11-02 15:56 1937次阅读
    格灵深瞳<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>Glint-ME让图文互搜更精准

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态
    的头像 发表于 10-29 17:15 440次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入<b class='flag-5'>模型</b>

    工业视觉网关:RK3576赋能多路检测与边缘AI

    工业4.0与智能制造的推动下,产线对检测效率、良率与可追溯提出了更高要求。传统IPC方案在通道数、功耗、体积与集成成本之间难以平衡,尤其在 AOI(自动光学检测)、装配工序监控、不良
    发表于 10-16 17:56

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    2)渗透式AI的优势 5、大型模态模型 模态模型
    发表于 09-18 15:31

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    细化需求,系统需实时调整响应策略 1.2 轮对话系统鸟瞰:三颗“核心”协同驱动RK3576 模态交互对话方案基于 RKLLM 的核心运作,依赖于图像视觉编码器、大语言
    发表于 09-05 17:25

    如何利用AI算法进行装置数据的异常检测

    利用 AI 算法进行装置数据异常检测,需结合工业装置的数据特性(如实时性、源性、强时序性、噪声
    的头像 发表于 09-05 15:27 2436次阅读
    如何<b class='flag-5'>利用</b>AI算法<b class='flag-5'>进行</b>装置数据的<b class='flag-5'>异常</b><b class='flag-5'>检测</b>?

    浅析模态标注对大模型应用落地的重要性与标注实例

    ”的关键工序——模态标注重要性日益凸显。 一、什么是模态标注? 模态标注是指对文本、图像、
    的头像 发表于 09-05 13:49 2990次阅读

    基于米尔瑞芯微RK3576开发板的Qwen2-VL-3B模型NPU模态部署评测

    是对 Qwen2-VL-3B 模态模型进行部署,其中视觉 + 投影组件通过 rknn-toolkit2 导出为 RKNN
    发表于 08-29 18:08

    研华科技携手创新奇智推出模态模型AI一体机

    这是一款基于研华高性能边缘计算平台MIC-733,深度集成创新奇智视觉模型模态模型的边缘智能终端,通过创新的“
    的头像 发表于 07-17 17:14 1154次阅读
    研华科技携手创新奇智推出<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>AI一体机

    NVIDIA助力图灵新讯美推出企业级模态视觉模型融合解决方案

    中国推出企业级模态视觉模型融合解决方案,推动先进 AI 模型在交通治理、工业质检、金融风控等
    的头像 发表于 06-26 09:17 1626次阅读