0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种可跨不同领域的异常检测通用模型UniOD介绍

智能感知与物联网技术研究所 来源:PaperWeekly 2026-03-18 09:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来源:PaperWeekly

TL;DR:本研究提出了一种可跨不同领域、适用于特征维度各异且特征空间异构的数据集的异常检测通用模型。

论文标题:

UniOD: A Universal Model for Outlier Detection across Diverse Domains

论文作者:

付达智,樊继聪

收录会议:

ICLR 2026

论文链接:

https://arxiv.org/abs/2507.06624

Highlights:

提出一种新颖的异常点检测方法 UniOD:可利用历史数据集中的知识,在面对全新、未见过的数据集时无需训练即可直接识别异常点。

相较于其他深度学习异常检测方法,UniOD 仅需单一模型覆盖多数据集场景;同时由于跳过重新训练,检测阶段计算开销更低。

我们为 UniOD 的有效性提供了理论保证,并通过数值实验验证与理论结论相吻合。

在来自 ADbench 的 57 个来自多个不同领域的数据集上对比 17 种基线方法,UniOD 在多数场景下取得更优性能。

引言

异常点(Outliers)是指在数据集中显著偏离其他正常数据分布的观测样本,通常表明其可能来源于不同的生成机制。

在日益数据驱动的时代背景下,识别异常模式或偏离正常行为的现象——即异常检测——已成为多个领域中的关键问题。

这类异常数据往往指示着关键事件的发生,例如金融欺诈、安全入侵、系统故障,或潜在的新知识发现,因此对其进行准确而及时的检测对于快速干预与科学决策具有至关重要的意义。

离群点检测或异常检测旨在发现完全无标签数据集中的异常数据,在各个领域中有广泛的应用。

wKgZPGm5-3yAClX2AAYL7XTCLaY166.jpg

如图 1 所示,以往的异常检测方法往往需要针对不同的数据集训练不同的模型。这意味着当面对一个新的数据集——尤其是来自不同领域的数据集时——我们通常需要从零开始训练异常检测模型,由此带来以下局限性:

高成本的模型选择与超参数调优: 尤其对于基于深度学习的异常检测方法,需要确定网络深度、网络宽度、学习率以及方法特定的超参数。

如图 2 所示,不同数据集对应的最优超参数组合差异显著,从而带来较大的调参与模型选择难度。

wKgZO2m5-3yAcksZAAKWUM4kxds558.jpg

评估前计算开销大、等待时间长:训练或拟合过程往往耗时,尤其是在模型规模和数据规模较大时更为明显,导致部署前需要付出较高的计算成本并产生较长的等待周期。

未能有效利用历史数据集中的知识:历史数据集通常蕴含关于正常样本与异常样本模式的有用且可迁移知识,但传统异常检测方法难以将这些知识有效复用与迁移。

方法

为了解决上述问题,我们提出了一个通用异常检测模型 - UniOD,该方法的核心思想是:该方法能够利用来自不同领域的、带标签的历史数据集(在大数据时代通常易于获取)训练一个通用模型,从而在面对任意未见过领域的数据集时,无需进行任何重新训练即可检测其中的异常点。

该方法的框架如下图 3 所示。

wKgZO2m5-3yAECsKAAMp2taLgEQ950.jpg

2.1 Data Unification-构建通用的数据

考虑到数据集尤其是表格数据集往往在维度、特征语义以及样本规模等方面存在较大差异,如何统一特征空间是训练通用模型的关键步骤。

我们首先进行预处理,以统一其特征空间——标准化特征维度数量,并对每个特征的语义含义进行对齐与规范化。

我们的做法分为两步:

将数据集表示为样本级的相似度矩阵(即图结构)。

对于数据集中的任意两点,我们使用多个不同带宽的高斯核函数计算其相似度。

基于相似度矩阵构建统一特征。

我们对相似度矩阵使用奇异值分解得到每一个数据的特征。这样得到的特征都是对相似度矩阵结构的描述,因此不同数据集之间是可比的。

2.2 基于图神经网络的模型设计

现在我们得到了数据的统一特征,需要解决的问题是:如何设计模型进行训练?

一个直接的想法是用 MLP 在历史数据集上训练一个分类器,然而该方法不能充分利用相似度矩阵中所包含的有价值信息。

为了充分利用样本间的相似度信息,我们把每一个数据集当作图结构的数据,这样样本级的异常检测任务可以被转化为图节点级的异常检测任务,同时可以使用 GIN(图同构网络)和 transformer 并行的结构作为我们的分类器。

2.3 理论分析

wKgZPGm5-3yANnBEAANXXKA4plc476.jpg

我们提出了如定理 4.1 所示的关于期望泛化误差和平均训练误差理论分析,该定理具有以下重要意义:

当训练数据集数量更多(即 更大)时,理论上界会更紧,从而使得泛化误差更小。

增大 GIN 与 transformer 的数量可以降低训练误差,从而提高测试准确率

当 GIN 和 transformer 的层数过大时,UniOD 的泛化能力会减弱。

实验

3.1 主要实验结果

本文在常用的异常检测基准 ADBench 的 30 个数据集上进行了测试,在历史数据集的划分上,我们随机将这 30 个数据集划分为两组,其中一组作为历史数据集,一组作为评估数据集,并做了交叉验证。

评测指标采用了 AUROC 和 AUPRC,对所有基线方法均基于历史数据集进行了超参数搜索。

wKgZPGm5-3yAaHyaAAm-1MXG7xA847.jpg

Table2 和 Table3 所示的实验结果表明:UniOD 比起其他基线方法在大多数数据集以及平均性能上有较大优势。

wKgZO2m5-3yAFN7mAAtv_0e3W_0173.jpg

同时,我们也在 ADBench 的另外 27 个数据集上进行了测试,这 27 个数据集中包含图像数据集与文本数据集(使用 ViT 和 BERT 提取特征),

Table19 中的实验结果表明 UniOD 可以泛化到其他模态的数据集上,尽管只使用表格数据集训练。

wKgZPGm5-3yAYAwDAAgU2N5-1dU936.jpg

3.2 领域鲁棒性分析

我们评估 UniOD 在物理、航天与图像领域数据集上的表现时,同时在训练阶段系统性移除所有来自相同领域/方向的历史数据集。

在 Table15 中,排除这些领域特定的训练数据并未导致对应测试领域的性能出现显著下降。

wKgZPGm5-3yACacPAADTirlK7qs978.jpg

md

我们将这种鲁棒性归因于两点关键因素:

即便同属一个领域的数据集,其特征空间与数据特性也可能存在显著差异;

UniOD 并不直接依赖原始特征,而是利用相似度矩阵来构建跨数据集、维度一致的特征。因此,不同领域的数据集在其相似度矩阵中仍可能呈现相近的结构模式,从而支持有效的跨领域泛化。

3.3 消融实验

我们评估了在使用 1、3、5、10、15 个历史训练数据集的情况下 UniOD 的性能变化,如图 4(a) 所示。可以明显观察到,随着历史数据集数量的增加,模型的泛化性能相应提升。

wKgZO2m5-3yAec-vAAMzqNw7ZmQ393.jpg

我们进一步分析了带宽数量 对 UniOD 性能的影响。更大的 能够带来更少的信息损失,从而提升模型的泛化能力,如图 4(b) 所示。上述实验结果与定理的理论分析一致。

结论

本文提出了一种新颖且高效的异常点检测方法 UniOD。其核心思想是利用历史数据集训练一个通用深度模型,从而在无需重新训练的情况下,对来自不同领域的全新未见数据集进行异常检测。

通过将每个数据集转换为图结构数据并生成维度统一的节点特征,UniOD 使得单一模型即可处理异构数据集成为可能。

我们从理论分析与实证实验两方面系统性地验证了 UniOD 的有效性与高效性。

尽管 UniOD 主要面向传导式(transductive)异常检测场景设计,但其同样可以扩展到归纳式(inductive)异常检测:即通过将训练集与每个测试样本转换为图结构数据,并计算其对应的异常分数,从而实现对新样本的异常判别。

从研究的角度出发,本文提出了异常检测的新研究方向——通用异常检测模型或异常检测基础模型。从工程与应用的角度出发,UniOD 不需要依赖于专业能力的调参或训练步骤,可以即插即用,降低了模型的使用门槛。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3873

    浏览量

    52337
  • 数据集
    +关注

    关注

    4

    文章

    1242

    浏览量

    26298

原文标题:ICLR 2026 | 无需训练跨界泛化,UniOD用单一模型打通全领域异常检测

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用商用电流检测变压器设计一种抗饱和的电路

    应用抗变压器饱和需求的电路。我们使用的模型为功率因数校正 (PFC) 拓扑。分析中将使用一种商用电流检测变压器,用于确定需要的参数,了解如何利用这种信息设计一种
    发表于 07-18 07:36

    介绍一种按键检测电路

    介绍一种按键检测电路
    发表于 01-18 07:41

    入侵检测系统中一种通用数据存储模型

    提出了个适用于入侵检测系统的通用数据模型,并分析了该模型的存储结构及其在入侵检测
    发表于 06-29 08:20 13次下载

    基于危险模式的异常检测模型

    阐述了危险模式的概况及运行机制,提出了一种基于危险模式的异常检测模型以及相关的算法。该模型通过分析实时系统调用序列中的危险信号,进而判断是否
    发表于 07-30 15:04 9次下载

    基于Q-学习算法的异常检测模型

        针对网络入侵的不确定性导致异常检测系统误报率较高的不足,提出一种基于Q-学习算法的异常检测
    发表于 09-02 11:58 7次下载

    基于马尔模型的临床序列异常检测

    针对单病临床序列大都具有类似的时序频繁模式,提出一种基于马尔模型的临床序列检测模型。采用编
    发表于 02-22 15:57 10次下载

    基于隐马尔模型的视频异常检测模型

    视频技术的广泛应用带来海量的视频数据,仅依靠人力对监控视频中的异常进行检测是不太可能的。异常行为的自动化检测在公共安全等领域的地位极其重要。
    发表于 11-20 09:37 8次下载
    基于隐马尔<b class='flag-5'>可</b>夫<b class='flag-5'>模型</b>的视频<b class='flag-5'>异常</b><b class='flag-5'>检测</b><b class='flag-5'>模型</b>

    一种新的分布式入侵检测模型

    针对现有分布式入侵检测系统交互流量大、单点失效及检测效率偏低的问题,基于人工免疫理论建立了一种新的分布式入侵检测模型,并提出了
    发表于 02-05 14:34 0次下载

    模型的网络异常流量检测

    网络流量的复杂性、难以预测性以及人们主观评测的差异性等不确定因素,使得网络流量的异常检测成为网络安全防护领域研究的难点问题。通过对流量安全特征的分析提取和范围限定,引入云模型理论,提出
    发表于 03-06 16:44 1次下载
    云<b class='flag-5'>模型</b>的网络<b class='flag-5'>异常</b>流量<b class='flag-5'>检测</b>

    基于Greenshield模型异常节点检测机制

    面向车辆自组网的安全通信问题,提出一种基于Greenshield模型异常节点检测机制。结合车辆自组网的特点,构造Greenshield模型
    发表于 03-29 09:54 0次下载

    基于时间卷积网络的通用日志序列异常检测框架

    基于循环神经网络的日志序列异常检测模型对短序列有较好的检测能力,但对长序列的检测准确性较差。为此,提出
    发表于 03-30 10:29 8次下载
    基于时间卷积网络的<b class='flag-5'>通用</b>日志序列<b class='flag-5'>异常</b><b class='flag-5'>检测</b>框架

    一种全新的高光谱数据异常检测方法

    高光谱遥感技术为探索地物提供了丰富的信息,为异常检测提供了更优质的数据源。但是在先验信息未知的情况下,进行异常检测仍是项非常具有挑战性的工
    发表于 04-07 14:38 11次下载
    <b class='flag-5'>一种</b>全新的高光谱数据<b class='flag-5'>异常</b><b class='flag-5'>检测</b>方法

    一种多维时间序列汽车驾驶异常检测模型

    针对传统异常检测模型难以准确分析汽车驾驶异常行为的情况,建立一种基于自动编码器与孤立森林算法的多维时间序列汽车驾驶
    发表于 05-26 16:32 3次下载

    一种新的无监督时间序列异常检测方法

    时间序列数据是生活中常见的一种数据,在时间顺序上具有定规律,且大量存在于金融贸易、工业生产、环境保护、网络安全等众多领域。时间序列异常检测
    的头像 发表于 08-10 11:29 4020次阅读

    介绍一种基于分层聚类方法的木马通信行为检测模型

    一种基于分层聚类方法的木马通信行为检测模型
    的头像 发表于 07-30 11:51 1795次阅读
    <b class='flag-5'>介绍</b><b class='flag-5'>一种</b>基于分层聚类方法的木马通信行为<b class='flag-5'>检测</b><b class='flag-5'>模型</b>