0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型

CVer 来源:CVer 2023-11-21 16:08 次阅读

一句话总结

通过应用视觉专家进行工业异常检测,以实现明确的异常检测和高质量的异常描述,还可进行多轮对话,性能表现出色!优于AnomalyGPT等网络,代码即将开源!

Myriad

81612fa6-8842-11ee-939d-92fbcf53809c.png

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

单位:哈工大(左旺孟团队), 琶洲实验室

论文:https://arxiv.org/abs/2310.19070

代码:https://github.com/tzjtatata/Myriad

现有的工业异常检测(IAD)方法可以预测异常检测和定位的异常分数。然而,它们很难对异常区域进行多轮对话和详细描述,例如工业异常的颜色、形状和类别。

最近,大型多模态(即视觉和语言)模型(LMM)在图像描述、视觉理解、视觉推理等多种视觉任务上表现出了卓越的感知能力,使其成为更易于理解的异常检测的有竞争力的潜在选择。然而,现有的通用 LMM 中缺乏有关异常检测的知识,而训练特定的 LMM 进行异常检测需要大量的注释数据和大量的计算资源。

本文提出了一种新颖的大型多模态模型,通过应用视觉专家进行工业异常检测(称为Myriad),从而实现明确的异常检测和高质量的异常描述。

8174db1e-8842-11ee-939d-92fbcf53809c.png

具体来说,采用 MiniGPT-4 作为基础 LMM,并设计一个专家感知模块,将视觉专家的先验知识嵌入到大型语言模型(LLM)可以理解的标记中。

817bd270-8842-11ee-939d-92fbcf53809c.png

为了弥补视觉专家的错误和困惑,引入了域适配器来弥合通用图像和工业图像之间的视觉表示差距。此外,提出了一个视觉专家讲师,它使 Q-Former 能够根据视觉专家先验生成 IAD 领域视觉语言标记。

实验结果

在MVTec-AD 和 VisA 基准上的大量实验表明,本文提出的方法不仅在 1-class 和少样本设置下比最先进的方法表现更好,而且还提供了明确的异常预测以及 IAD 中的详细描述领域。

818720f8-8842-11ee-939d-92fbcf53809c.png

8193e388-8842-11ee-939d-92fbcf53809c.png

81d184e0-8842-11ee-939d-92fbcf53809c.png

81ed7236-8842-11ee-939d-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47686
  • 视觉
    +关注

    关注

    1

    文章

    140

    浏览量

    23678
  • 大模型
    +关注

    关注

    2

    文章

    1516

    浏览量

    1103

原文标题:工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    机器人基于开源的多模态语言视觉模型

    ByteDance Research 基于开源的多模态语言视觉模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。
    发表于 01-19 11:43 124次阅读
    机器人基于开源的多<b class='flag-5'>模态</b>语言<b class='flag-5'>视觉</b>大<b class='flag-5'>模型</b>

    基于DiAD扩散模型的多类异常检测工作

    现有的基于计算机视觉工业异常检测技术包括基于特征的、基于重构的和基于合成的技术。最近,扩散模型因其强大的生成能力而闻名,因此本文作者希望通
    的头像 发表于 01-08 14:55 415次阅读
    基于DiAD扩散<b class='flag-5'>模型</b>的多类<b class='flag-5'>异常</b><b class='flag-5'>检测</b>工作

    北大&amp;华为提出:多模态基础大模型的高效微调

    深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和多模态领域展示出杰出的生成和推理能力。然而大模型巨大的参数量有两个明显
    的头像 发表于 11-08 16:20 315次阅读
    北大&amp;华为<b class='flag-5'>提出</b>:多<b class='flag-5'>模态</b>基础大<b class='flag-5'>模型</b>的高效微调

    数智共创,华为WeLink 赋能哈工大卓越发展

    数智共创,WeLink 赋能哈工大卓越发展 哈尔滨工业大学经过百余年的发展,形成了“一校三区”的办学格局,在全国高校中最具特色,也增加了校务活动的复杂性。信息化服务模式也面临着跨地域空间,信息规划
    的头像 发表于 11-05 14:49 322次阅读
    数智共创,华为WeLink 赋能<b class='flag-5'>哈工大</b>卓越发展

    基于NanoEdgeAI的异常检测方案

    NanoEdge AI Studio自动创建基于三轴加速度传感器信号的AI模型,并快速部署到ST SensorTile.box开发板上,进行异常检测
    发表于 09-07 06:27

    中科大&amp;字节提出UniDoc:统一的面向文字场景的多模态模型

    如上图所示,UniDoc基于预训练的视觉模型及大语言模型,将文字的检测、识别、spotting(图中未画出)、多模态理解等四个任务,通过多
    的头像 发表于 08-31 15:29 1078次阅读
    中科大&amp;字节<b class='flag-5'>提出</b>UniDoc:统一的面向文字场景的多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    对话三位IEEE专家:如何理解SAM视觉模型

    IEEE高级会员、天津理工大学教授、AR/VR技术专家罗训对记者表示,SAM是视觉领域的通用大模型,很多报道中把它比喻成视觉领域的ChatG
    的头像 发表于 08-23 16:32 574次阅读

    深开鸿王成录出席深圳哈工大计算机学部校友会主办的“开源软件与信创科技”论坛

    为了推动中国开源软件、信创科技发展,培养操作系统软件人才,8月13日,深圳哈工大计算学部校友会2023年会暨“开源软件与信创科技”论坛在深圳隆重举办,来自高校和企业的专家、学者汇聚一堂,围绕
    的头像 发表于 08-17 09:31 350次阅读
    深开鸿王成录出席深圳<b class='flag-5'>哈工大</b>计算机学部校友会主办的“开源软件与信创科技”论坛

    深开鸿王成录出席深圳哈工大主办的“开源软件与信创科技”论坛

    为了推动中国开源软件、信创科技发展,培养操作系统软件人才,8月13日,深圳哈工大计算学部校友会2023年会暨”开源软件与信创科技“论坛在深圳隆重举办,来自高校和企业的专家、学者汇聚一堂,围绕
    的头像 发表于 08-15 18:45 439次阅读

    无法使用MYRIAD在OpenVINO trade中运行YOLOv7自定义模型怎么解决?

    无法确定如何将 YOLOv7 模型的重量(.pt 文件)转换为OpenVINO™中间表示 (IR) 并推断有 MYRIAD 的 IR。 分辨率 转换使用此 GitHub* 存储库
    发表于 08-15 08:29

    深开鸿王成录出席深圳哈工大计算机学部校友会主办的“开源软件与信创科技”论坛

    为了推动中国开源软件、信创科技发展,培养操作系统软件人才,8月13日,深圳哈工大计算学部校友会2023年会暨“开源软件与信创科技”论坛在深圳隆重举办,来自高校和企业的专家、学者汇聚一堂,围绕
    的头像 发表于 08-14 20:35 644次阅读

    更强更通用:智源「悟道3.0」Emu多模态模型开源,在多模态序列中「补全一切」

    当前学界和工业界都对多模态模型研究热情高涨。去年,谷歌的 Deepmind 发布了多模态视觉语言模型
    的头像 发表于 07-16 20:45 402次阅读
    更强更通用:智源「悟道3.0」Emu多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>开源,在多<b class='flag-5'>模态</b>序列中「补全一切」

    AI视觉检测工业领域的应用

    、判断和检测生产线上的各种产品,保证产品的质量和一致性。与传统的视觉检测方法相比,工业AI视觉检测
    发表于 06-15 16:21

    如何利用LLM做多模态任务?

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放多模态输入接口
    的头像 发表于 05-22 15:57 517次阅读
    如何<b class='flag-5'>利用</b>LLM做多<b class='flag-5'>模态</b>任务?

    如何利用LLM做多模态任务?

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放多模态输入接口并且不会透露任何
    的头像 发表于 05-11 17:09 678次阅读
    如何<b class='flag-5'>利用</b>LLM做多<b class='flag-5'>模态</b>任务?