0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型

CVer 来源:CVer 2023-11-21 16:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一句话总结

通过应用视觉专家进行工业异常检测,以实现明确的异常检测和高质量的异常描述,还可进行多轮对话,性能表现出色!优于AnomalyGPT等网络,代码即将开源!

Myriad

81612fa6-8842-11ee-939d-92fbcf53809c.png

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

单位:哈工大(左旺孟团队), 琶洲实验室

论文:https://arxiv.org/abs/2310.19070

代码:https://github.com/tzjtatata/Myriad

现有的工业异常检测(IAD)方法可以预测异常检测和定位的异常分数。然而,它们很难对异常区域进行多轮对话和详细描述,例如工业异常的颜色、形状和类别。

最近,大型多模态(即视觉和语言)模型(LMM)在图像描述、视觉理解、视觉推理等多种视觉任务上表现出了卓越的感知能力,使其成为更易于理解的异常检测的有竞争力的潜在选择。然而,现有的通用 LMM 中缺乏有关异常检测的知识,而训练特定的 LMM 进行异常检测需要大量的注释数据和大量的计算资源。

本文提出了一种新颖的大型多模态模型,通过应用视觉专家进行工业异常检测(称为Myriad),从而实现明确的异常检测和高质量的异常描述。

8174db1e-8842-11ee-939d-92fbcf53809c.png

具体来说,采用 MiniGPT-4 作为基础 LMM,并设计一个专家感知模块,将视觉专家的先验知识嵌入到大型语言模型(LLM)可以理解的标记中。

817bd270-8842-11ee-939d-92fbcf53809c.png

为了弥补视觉专家的错误和困惑,引入了域适配器来弥合通用图像和工业图像之间的视觉表示差距。此外,提出了一个视觉专家讲师,它使 Q-Former 能够根据视觉专家先验生成 IAD 领域视觉语言标记。

实验结果

在MVTec-AD 和 VisA 基准上的大量实验表明,本文提出的方法不仅在 1-class 和少样本设置下比最先进的方法表现更好,而且还提供了明确的异常预测以及 IAD 中的详细描述领域。

818720f8-8842-11ee-939d-92fbcf53809c.png

8193e388-8842-11ee-939d-92fbcf53809c.png

81d184e0-8842-11ee-939d-92fbcf53809c.png

81ed7236-8842-11ee-939d-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51713
  • 视觉
    +关注

    关注

    1

    文章

    171

    浏览量

    24714
  • 大模型
    +关注

    关注

    2

    文章

    3442

    浏览量

    4968

原文标题:工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    商汤科技正式发布并开源全新模态模型架构NEO

    商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新模态模型架构 —— NEO,为日日新SenseNova
    的头像 发表于 12-08 11:19 290次阅读
    商汤科技正式发布并开源全新<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>模型</b>架构NEO

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态
    的头像 发表于 10-29 17:15 117次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入<b class='flag-5'>模型</b>

    工业视觉网关:RK3576赋能多路检测与边缘AI

    工业4.0与智能制造的推动下,产线对检测效率、良率与可追溯提出了更高要求。传统IPC方案在通道数、功耗、体积与集成成本之间难以平衡,尤其在 AOI(自动光学检测)、装配工序监控、不良
    发表于 10-16 17:56

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    细化需求,系统需实时调整响应策略 1.2 轮对话系统鸟瞰:三颗“核心”协同驱动RK3576 模态交互对话方案基于 RKLLM 的核心运作,依赖于图像视觉编码器、大语言
    发表于 09-05 17:25

    如何利用AI算法进行装置数据的异常检测

    利用 AI 算法进行装置数据异常检测,需结合工业装置的数据特性(如实时性、源性、强时序性、噪声
    的头像 发表于 09-05 15:27 1121次阅读
    如何<b class='flag-5'>利用</b>AI算法<b class='flag-5'>进行</b>装置数据的<b class='flag-5'>异常</b><b class='flag-5'>检测</b>?

    基于米尔瑞芯微RK3576开发板的Qwen2-VL-3B模型NPU模态部署评测

    是对 Qwen2-VL-3B 模态模型进行部署,其中视觉 + 投影组件通过 rknn-toolkit2 导出为 RKNN
    发表于 08-29 18:08

    研华科技携手创新奇智推出模态模型AI一体机

    这是一款基于研华高性能边缘计算平台MIC-733,深度集成创新奇智视觉模型模态模型的边缘智能终端,通过创新的“
    的头像 发表于 07-17 17:14 786次阅读
    研华科技携手创新奇智推出<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>AI一体机

    NVIDIA助力图灵新讯美推出企业级模态视觉模型融合解决方案

    中国推出企业级模态视觉模型融合解决方案,推动先进 AI 模型在交通治理、工业质检、金融风控等
    的头像 发表于 06-26 09:17 996次阅读

    爱芯通元NPU适配Qwen2.5-VL-3B视觉模态模型

    InternVL2.5-1B/8B/MPO,Huggingface推出的全球最小模态模型SmloVLM-256M。为工业界提供了离线部署
    的头像 发表于 04-21 10:56 2598次阅读
    爱芯通元NPU适配Qwen2.5-VL-3B<b class='flag-5'>视觉</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    移远通信智能模组全面接入模态AI大模型,重塑智能交互新体验

    智能模组产品已全面接入火山引擎豆包VLM(视觉语言)模态AI大模型。这一突破性进展表明,搭载移远任意智能模组的终端设备,均可无缝融合
    的头像 发表于 03-20 19:03 666次阅读
    移远通信智能模组全面接入<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI大<b class='flag-5'>模型</b>,重塑智能交互新体验

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的模态人工智能
    的头像 发表于 03-17 15:32 7597次阅读
    ​VLM(<b class='flag-5'>视觉</b>语言<b class='flag-5'>模型</b>)​详细解析

    使用OpenVINO™ 2021.4在CPU和MYRIAD进行自定义对象检测,为什么结果差异巨大?

    使用自定义训练的模型执行推理,以便在 2021.4 OpenVINO™中进行人员检测。 与 MYRIAD 相比,CPU 的输出结果取得了巨大的差异
    发表于 03-06 07:45

    海康威视发布模态模型文搜存储系列产品

    模态模型为安防行业带来重大技术革新,基于观澜大模型技术体系,海康威视将大参数量、大样本量的图文模态
    的头像 发表于 02-18 10:33 1019次阅读

    一文详解视觉语言模型

    视觉语言模型(VLM)是一种模态、生成式 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3260次阅读
    一文详解<b class='flag-5'>视觉</b>语言<b class='flag-5'>模型</b>

    商汤日日新模态模型权威评测第一

    刚刚,商汤科技日日新SenseNova模态模型,在权威综合评测权威平台OpenCompass的模态评测中取得榜单第一。
    的头像 发表于 12-20 10:39 1501次阅读