基于视觉Transformer的监督视频异常检测架构进行肠息肉检测的研究-电子发烧友网

本文提出一种有效的基于视觉Transformer的弱监督视频异常检测架构来实现精准检测结直肠息肉。这也是首篇利用弱监督视频标签来进行肠息肉检测的研究，文章基于之前数据集整理合并提出了一个全新的大型结直肠视频数据集用于息肉检测的研究。性能表现SOTA！代码和数据即将开源！

结直肠镜是一种有效的检测手段来早起筛查结直肠癌。然后，在肠镜过程中医生往往会遗漏细小的不引人注意的肠息肉，给病人的健康留下严重的隐患。所以利用AI系统来辅助医生精准检测是十分重要的。

比较常用的方法是利用全监督的方法来逐帧标注。这种方法需要专业医生很多的精力和时间，所以之前的论文通常利用无监督异常检测来解决。无监督异常检测只需要利用正常数据来进行训练，然后通过对比正常和异常的特征区别达到检测肠息肉的功能。这些工作因为没有利用异常数据训练往往很容易忽略掉很多微笑的或者只有部分可见的肠息肉。所以本文首次提出利用弱监督视频异常检测的方法来解决这个问题，即只使用视频级的标注而不需要逐帧标注。这样做大大减少了标注的繁琐过程和时间并且能够有效的检测细微不引人注意的息肉。

之前的弱监督视频异常检测方法通常利用multiple instance learning，即正常视频中所有帧视为正常帧，异常视频内至少有一或多帧为异常。基于MIL的方法经常很难准确检测出异常视频中哪一帧存在异常，尤其是当异常帧和正常帧很像的时候。

在这篇文章，我们首次探索了利用弱监督异常检测如何在结肠镜视频中检测异常帧通过一个新颖的基于视觉transformer的架构。为了evaluate我们方法的准确性，我们整理了已知的几种结肠镜数据集整合成了一个大型的视频结肠镜数据集来测试弱监督和全监督视频帧异常检测。这个新数据集为后面的研究提供一个全新的benchmark去测试和发展。