0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

检测并消除瑕疵,DeSRA让真实场景超分中的GAN更加完美

智能感知与物联网技术研究所 来源:未知 2023-08-06 22:00 次阅读
使用生成对抗网络(GAN)进行图像超分辨率(SR)已经在恢复逼真细节方面取得了巨大成功。然而,众所周知,基于 GAN 的 SR 模型会产生令人难以接受的伪影,特别是在实际场景中。以往的研究通常在训练阶段通过额外的损失惩罚来抑制瑕疵,但这些方法只适用于训练过程中生成的同分布下的瑕疵类型。
而当这些方法应用于真实世界场景中时,我们观察到这些方法在推理过程中仍然会产生明显的瑕疵。针对此,来自腾讯 ARC Lab,XPixel 团队和澳门大学的研究者们提出了 DeSRA 的新方法并发表论文。它能够对在推理阶段中产生的超分瑕疵进行检测并消除。该论文被 ICML 2023 所接收。 40d1b7b0-3461-11ee-9e74-dac502259ad0.png  
  • 论文链接:https://arxiv.org/abs/2307.02457
  • 代码链接:https://github.com/TencentARC/DeSRA
“GAN 训练时出现的瑕疵” 与 “GAN 推理时出现的瑕疵” 基于 GAN 的方法在生成带有纹理的逼真复原结果方面取得了巨大成功。BSRGAN [1] 和 Real-ESRGAN [2] 将基于 GAN 的模型扩展到了真实场景应用,展示了它们恢复真实世界图像纹理的能力。然而, GAN-SR 方法经常会生成令人视觉上难以接受的伪影,严重影响用户体验。这个问题在真实世界场景中更加严重,因为低分辨率图像的退化是未知且复杂的。 wKgZomTYhi6ADQ8lAAew2v7nUa8419.png

第一列:低清输入;第二列:现有超分方法引起瑕疵;第三列:DeSRA 检测出瑕疵区域;第四列:DeSRA 去除瑕疵

为了缓解瑕疵的生成,LDL [3] 通过分析纹理类型,计算每个像素是瑕疵的概率,并在训练过程中通过增加损失进而对瑕疵进行抑制。虽然它确实改善了 GAN-SR 的结果,但我们仍然可以观察到 LDL 在推理真实世界测试数据时会存在明显瑕疵,如上图所示。因此,仅仅通过改善模型的训练很难解决这些瑕疵问题,因为这些瑕疵在 GAN-SR 模型的训练过程中可能并不出现。 这里我们区分一下 GAN 训练出现的瑕疵和测试出现的瑕疵:
  • GAN 训练出现的瑕疵(GAN-training artifacts):出现在训练阶段,主要是由于训练时网络优化的不稳定和在同分布数据上的 SR 的 ill-pose 导致。在有干净的高清图像存在的情况下,可以在训练过程中对这些瑕疵加以约束,进而缓解瑕疵的生成,如 LDL [3]。
  • GAN 推理出现的瑕疵(GAN-inference artifacts):出现在推理阶段,这些伪影通常是在真实世界未见过的数据中出现的。这些瑕疵通常不在训练数据的分布中,并不会在训练阶段出现。因此,通过改善训练过程的方法(例如 LDL [3])无法解决这些瑕疵问题。
处理 GAN 推理时产生的瑕疵是一项新的、具有挑战性的任务。首先真实场景的低分辨率图片没有对应的高清图片。此外,由于这些伪影在训练集中可能很少甚至从未出现过,因此很难模拟这些瑕疵。换句话说,这些瑕疵对于模型来说是未知的,而且超出了其训练数据的分布范围。解决这个问题是将 GAN-SR 模型应用于实际场景的关键,具有重要的实用价值。 检测 GAN 推理时出现的瑕疵 wKgaomTYhkiAM7kxAAOMxYtiSfg837.png  在本文中,研究团队专注于处理 GAN 推理时产生的瑕疵。这些瑕疵对实际的应用有很大的负面影响,因此解决它们具有很大的实际价值。由于这些瑕疵的复杂性和多样性,一次性解决所有瑕疵是具有挑战性的。 本文主要处理有着以下两个特征的瑕疵:
  • 这些瑕疵不会出现在预训练的 MSE-SR 模型中。
  • 这些瑕疵很明显且面积较大,能够很容易被人眼捕捉到。上图展示了一些包含这些瑕疵的样例。
对于前一特征,研究团队希望确保瑕疵是由 GAN 引起的,而相应的 MSE-SR 结果对于测试数据是良好的参考结果,从而区分瑕疵。其原理在于,GAN 瑕疵的呈现通常是有着过多不需要的高频 “细节”。换句话说,研究团队引入 GAN 训练来生成精细的细节,但他们不希望 GAN 生成的内容与 MSE-SR 的结果相差太大。注意,即使对于没有见过的真实场景的测试数据,MSE-SR 结果也很容易获得,因为我们通常是基于 MSE-SR 模型进行微调以获得 GAN-SR 模型。对于后一特征,之所以优化考虑那些明显且占据较大区域的瑕疵,是因为这种类型的瑕疵对人的感知有很大影响。 具体的,研究团队首先设计了一个定量指标,通过计算局部方差来衡量 MSE-based 和 GAN-based 模型生成结果之间的纹理差异。该指标总共包含着以下几个部分。
  • 局部纹理复杂性:局部区域 P 内像素强度的标准差 σ(i, j) 来表示局部纹理
417d6f88-3461-11ee-9e74-dac502259ad0.png  
  • 绝对纹理差异 d:两个局部区域的标准差(x 表示 GAN-SR 区域,y 表示 MSE-SR 区域)
418ec7b0-3461-11ee-9e74-dac502259ad0.png  
  • 相对纹理差异 d’:
4194ab8a-3461-11ee-9e74-dac502259ad0.png
  • 归一化到 [0, 1]:
41a7be82-3461-11ee-9e74-dac502259ad0.png  
  • 引入一个常数 C:处理分母相对较小的情况
41b42168-3461-11ee-9e74-dac502259ad0.png  在获得纹理差异图 D 后,可以利用它来确定需要处理的区域。然而,仅仅使用纹理复杂度的差异作为判断依据是不够的,因为不同语义区域的感知容忍度是不同的。例如,复杂纹理区域中的细节,如植被、头发等,很难被感知为瑕疵,而平滑或规则纹理区域中的像素差异较大,例如海洋、天空和建筑物,对人类感知敏感,容易被看作瑕疵。因此,研究团队我根据语义信息对伪影图 D 进行了进一步的调整,得到41c3b20e-3461-11ee-9e74-dac502259ad0.png,下图的第六列。 wKgaomTYhmGAcuSJAATt_ByCPT4869.png 最后,研究团队通过形态学操作来获得最终的瑕疵检测结果,即下图的第七列。具体来说,他们首先使用一个 5×5 全为 1 的矩阵进行腐蚀操作。然后,使用该矩阵进行膨胀操作以连接不连续的区域。接下来,使用一个 3×3 全为 1 的矩阵来填充地图中的空洞。最后,过滤掉离散的小区域作为检测噪声。 去除 GAN 推理时出现的瑕疵 对复原结果中瑕疵的检测本身具有很大的实际价值。基于该结果,研究团队希望进一步改进 GAN-SR 模型。考虑到对于实际应用而言,有着明显的瑕疵往往是用户无法容忍的,而没有瑕疵的弱恢复结果(细节少一点)比带有瑕疵的强恢复结果更可接受。因此,他们利用 MSE-SR 结果作为模型输出的参考。如下图所示,研究团队使用 MSE-SR 结果替换在 GAN-SR 结果中检测到瑕疵的区域。合并的图像用作伪高清图片(伪 GT)。 42ad3d16-3461-11ee-9e74-dac502259ad0.png  其中42c3fea2-3461-11ee-9e74-dac502259ad0.png表示生成的伪 GT,42ce924a-3461-11ee-9e74-dac502259ad0.png42d39a92-3461-11ee-9e74-dac502259ad0.png分别是 MSE-SR 和 GAN-SR 结果,(・) 表示逐元素相乘,M 是检测到的伪影地图。然后,研究团队使用少量数据从真实数据中生成数据对(x,42c3fea2-3461-11ee-9e74-dac502259ad0.png)来微调模型,其中 x 表示 LR 数据。只需要进行少量迭代的微调(在本次实验中大约 1K 次迭代就足够了),更新后的模型将产生视觉感知良好且没有明显瑕疵的结果。此外,它不会影响没有瑕疵的区域中的细节。这种方法的工作机制是通过微调过程将合成数据的分布与实际数据的分布之间的差距缩小,从而减轻 GAN-inference 中的瑕疵问题。 42f2ca0c-3461-11ee-9e74-dac502259ad0.png  实验评估与分析 研究团队使用 Real-ESRGAN [2],LDL [3] 以及 SwinIR [4] 来验证他们的方法的有效性。考虑到现有的几个真实世界的超分辨率数据集都假设了特定相机的退化情况,导致会与实际情况相差甚远。因此,他们构建了一个人工标注的瑕疵数据集。考虑到图像内容和退化的多样性,他们使用 ImageNet 1K 的验证集作为真实世界的低分辨率数据。然后,选择每种方法中有 200 张有 GAN-inference 瑕疵的图像来构建瑕疵数据集,并使用 labelme 手动标记瑕疵区域。这是首个用于 GAN-inference 瑕疵检测的数据集。对于微调过程,他们对 200 张图片进行划分,其中 50 张用于模型的微调,另外 150 张作为验证集。 评估指标

由于缺乏真实世界低分辨率数据的高清参考图片,经典指标如 PSNR、SSIM 无法采用。因此,研究团队考虑三个指标来评估检测结果,包括 1) 检测到的瑕疵区域与实际的(人工标注的)瑕疵区域之间的交并比(IoU),2) 检测结果的精确度和 3) 检测结果的召回率。当用 A 和 B 表示特定区域 z 的检测到的瑕疵区域和实际的瑕疵区域时,IoU 定义为:

430fc29c-3461-11ee-9e74-dac502259ad0.png

计算每个图像的 IoU,并使用验证集上的平均 IoU 来评估检测算法。较高的 IoU 意味着更好的检测准确性。然后,我们将检测到的瑕疵区域集合定义为 S,正确样本集合 T 定义为: 431552de-3461-11ee-9e74-dac502259ad0.png

精确度 =4325ccea-3461-11ee-9e74-dac502259ad0.png表示正确检测的区域数(4332f384-3461-11ee-9e74-dac502259ad0.png)占总检测到的区域数(433e78a8-3461-11ee-9e74-dac502259ad0.png)的比例。

研究团队将实际的瑕疵区域定义为 G,并通过以下方式计算检测到的 GT 瑕疵区域集合 R: 4343793e-3461-11ee-9e74-dac502259ad0.png  召回率 =4350934e-3461-11ee-9e74-dac502259ad0.png表示正确检测到的 GT 瑕疵区域数(435daec6-3461-11ee-9e74-dac502259ad0.png)占总 GT 瑕疵区域数(4367aed0-3461-11ee-9e74-dac502259ad0.png)的比例。其中,p 是一个阈值,研究团队根据经验将其设置为 0.5。

瑕疵检测结果 如下表所示,针对 LDL 模型中的瑕疵检测结果中,本文方法获得了最好的 IoU 和 Precision,远远超过其他方案。需要注意的是,LDL 在 threshold=0.001 时获得了最高的召回率。这是因为该方案将大部分区域视为瑕疵,因此这种检测结果几乎没有意义。Real-ESRGAN 和 SwinIR 的结果可以参考原文。 436df5d8-3461-11ee-9e74-dac502259ad0.png  研究团队同时对比了使用 DeSRA 微调策略之前和之后的瑕疵检测结果,结果如下表所示,当应用他们的 DeSRA 之后,Real-ESRGAN 的 IoU 从 51.1 降至 12.9,LDL 的 IoU 从 44.5 降至 13.9,说明瑕疵区域的检测面积大大减少。去除率分别为 75.43% 和 74.97%,表明在微调之后,测试数据中四分之三的瑕疵可以完全消除。此外,他们的方法没有引入额外瑕疵,添加率为 0。 本文在下图中提供了使用与未使用该文方法改进 GAN-SR 模型的结果的视觉比较。与原始的模型结果相比,改进的 GAN-SR 模型生成的结果在视觉质量上更好,没有明显的 GAN-SR 瑕疵。所有这些实验结果证明了本文方法能有效的缓解模型在处理真实的低清图片时会出现的瑕疵。 43990bd8-3461-11ee-9e74-dac502259ad0.png      User Study 43f44a16-3461-11ee-9e74-dac502259ad0.png  为了进一步验证本文 DeSRA 微调策略的有效性,研究团队进行了两项用户研究。第一项是比较原始 GAN-SR 模型和微调后的 GAN-SR 模型生成的结果。对于这个实验,比较的重心是图片中是否存在明显的伪影。研究团队产生了共 20 组图像,每组包含 GAN-SR 模型和微调后的 GAN-SR 模型的输出结果。这些图像被随机打乱。共有 15 人参与了用户研究,并为每组选择他们认为伪影较少的图像。最终的统计结果如图 9 所示。82.23% 的参与者认为微调后的 GAN-SR 模型生成的结果较少存在伪影。可以看出,本文方法在很大程度上消除了原始模型产生的瑕疵。 第二项是对微调的 GAN-SR 模型和原始的 MSE-SR 模型结果的比较。这个实验是为了比较模型生成的结果是否有更多的细节。研究团队总共产生了 20 组图像,每组图像包含了 MSE-SR 模型和微调的 GAN-SR 模型的输出结果。这些图像被随机打乱。总共有 15 个人参加用户研究,并为每组选择他们认为有更多细节的图像。最终的统计结果如图 9 所示。93% 的参与者认为微调的 GAN-SR 模型生成的结果有着更多的细节。可以看出,微调的 GAN-SR 模型仍然比 MSE-SR 模型能够生成更多的细节。 结论 在这项工作中,研究团队分析了 GAN 在推理阶段引入的瑕疵,并提出了方法来检测和消除这些瑕疵。具体而言,他们首先计算了 MSE-SR 和 GAN-SR 的相对局部方差,并进一步结合语义信息来定位有瑕疵的区域。在检测到存在瑕疵的区域后,他们使用基于 MSE 的结果作为伪高清图片来微调模型。通过仅使用少量数据,微调的模型可以成功消除原始模型在推理过程中的瑕疵。实验结果显示了他们的方法在检测和去除瑕疵方面的优越性,并且显著提高了 GAN-SR 模型在实际应用中的能力。 在线持续学习 本文方法可以与持续学习相结合,从而提供一个新的范式来解决在线推理阶段中出现的瑕疵问题。例如,对于处理真实世界数据的在线超分辨率系统,可以使用研究团队的检测流程来检测复原的结果是否具有 GAN-inference 瑕疵。然后,他们可以使用检测到的带有瑕疵的图像快速对超分辨率模型进行微调,使其能够处理类似的瑕疵,直到系统遇到新的 GAN-inference 瑕疵。持续学习已经在高层视觉任务上得到广泛研究,但尚未应用于超分辨率。研究团队希望在未来研究这个问题,因为它可以极大地推进 GAN-SR 方法在实际场景中的应用。


原文标题:检测并消除瑕疵,DeSRA让真实场景超分中的GAN更加完美

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2869

    文章

    41622

    浏览量

    358372

原文标题:检测并消除瑕疵,DeSRA让真实场景超分中的GAN更加完美

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    蔡司工业ct内部瑕疵缺陷检测

    蔡司工业ct内部瑕疵缺陷检测机是一种基于计算机断层扫描(CT)技术的检测方法,其核心原理是利用X射线的穿透能力来检测物体内部的瑕疵和缺陷。在
    的头像 发表于 04-17 16:21 83次阅读
    蔡司工业ct内部<b class='flag-5'>瑕疵</b>缺陷<b class='flag-5'>检测</b>机

    求助,请问ADC检测是否要用小电容消除噪声?

    ADC检测是否要用一个小电容消除噪声?
    发表于 01-17 06:57

    想要玩转氮化镓?纳芯微全场景GaN驱动IC解决方案来啦!

    作为当下热门的第三代半导体技术,GaN在数据中心、光伏、储能、电动汽车等市场都有着广阔的应用场景。和传统的Si器件相比,GaN具有 更高的开关频率 与 更小的开关损耗 ,但对驱动IC与驱动电路设计
    的头像 发表于 12-20 13:35 314次阅读
    想要玩转氮化镓?纳芯微全<b class='flag-5'>场景</b><b class='flag-5'>GaN</b>驱动IC解决方案来啦!

    基于机器视觉的PIN针外观瑕疵检测技术研究

    采用机器视觉技术对PIN针外观瑕疵进行检测。首先,通过高分辨率相机对PIN针进行图像采集,并对图像进行预处理,包括去噪、增强和角度校正等。然后,通过特征提取算法提取PIN针的关键特征,如长度、直径、弯曲度等。最后,基于机器学习算法构建
    的头像 发表于 10-07 14:05 618次阅读
    基于机器视觉的PIN针外观<b class='flag-5'>瑕疵</b><b class='flag-5'>检测</b>技术研究

    机器视觉外观瑕疵检测原理详解

    图像传感器利用摄像元件 CCD 的每个像素的浓度(明暗) 数据,根据浓度的变化来检测瑕疵或边缘部。考虑到处理全部像素数据所需时间过长,同时一些不必要的噪点数据会影响检查的结果,因此在本公司生产的 CV 系列中,采用由数个像素构成的小“分割”的平均浓度,通过与周围的平均浓度
    的头像 发表于 09-27 10:54 596次阅读
    机器视觉外观<b class='flag-5'>瑕疵</b><b class='flag-5'>检测</b>原理详解

    阿丘助力攻克动力电池复杂瑕疵检测难题

    阿丘科技-首选AI专家动力电池复杂瑕疵检测由于动力电池工艺流程复杂、安全性以及质量一致性要求高,产能和质量控制成为这一行业的重要关注点。基于AI的解决方案,正是帮助动力电池行业提升品质和良率的重要
    的头像 发表于 09-14 08:26 592次阅读
    阿丘助力攻克动力电池复杂<b class='flag-5'>瑕疵</b><b class='flag-5'>检测</b>难题

    ST GaN产品创新型快速充电器解决方案

    在消费类应用领域,由于快速充电器的快速增长,GaN 技术在 2020-2021 跨越了鸿沟,目前其他交直流应用场景也采用了GaN• 带有嵌入式驱动程序 / 控制器(MasterGaN
    发表于 09-07 07:20

    复旦开源LVOS:面向真实场景的长时视频目标分割数据集

    现有的视频目标分割(VOS)数据集主要关注于短时视频,平均时长在3-5秒左右,并且视频中的物体大部分时间都是可见的。然而在实际应用过程中,用户所需要分割的视频往往时长更长,并且目标物体常常会消失。现有的VOS数据集和真实场景存在一定的差异,
    的头像 发表于 09-04 16:33 476次阅读
    复旦开源LVOS:面向<b class='flag-5'>真实</b><b class='flag-5'>场景</b>的长时视频目标分割数据集

    启英泰伦通话降噪方案,采用深度学习降噪算法,通话更清晰

    消除方案和基于深度学习的降噪方案推出了通话降噪方案,利用该方案可以实时消除回声及环境噪声,通过算法优化提升语音信号的清晰度和逼真度,使得通话更加清晰、准确,提高语音交流的效率和舒适性
    发表于 08-22 17:36

    感测型静电消除器包含哪些组件

    。 感测型静电消除器通常包括以下几个主要组件: 1. 感测器:感测器用于检测周围环境中的静电电荷。它可以是接触式的或非接触式的,具体选择取决于应用场景和需求。感测器能够测量电荷的大小和极性,并将这些信息传递给控制器。
    的头像 发表于 08-17 09:36 278次阅读

    LED虚拟拍摄:真实与虚拟的完美融合

    LED虚拟拍摄是一种新型的拍摄技术,利用LED屏营造出虚拟背景,使得拍摄效果更加逼真。本文将介绍LED虚拟拍摄的原理、优点、应用场景以及未来发展趋势。 一、LED虚拟拍摄的原理 LED虚拟拍摄
    的头像 发表于 08-04 17:38 593次阅读

    基于GAN的零缺陷样本产品表面缺陷检测

    缺陷检测是工业生产过程中的关键环节,其检测结果的好坏直接影响着产品的质量。而在现实场景中,但产品瑕疵率非常低,甚至是没有,缺陷样本的不充足使得需要深度学习缺陷
    的头像 发表于 06-26 09:49 619次阅读
    基于<b class='flag-5'>GAN</b>的零缺陷样本产品表面缺陷<b class='flag-5'>检测</b>

    GaN在单片功率集成电路的工业应用分析

    GaN在单片功率集成电路的工业应用日趋成熟
    发表于 06-25 10:19

    PX5的ARM TrustZone支持嵌入式系统变得更加安全!

    产品安全性。PX5 RTOS对ARM TrustZone的支持嵌入式开发者能够从物理层降低网络安全风险。 PX5的CEO William Lamie表示:“基于MCU的产品如今已是生活不可缺少的一部
    发表于 05-18 13:44

    YOLOv5瓷砖表面瑕疵质检

    在产线上架设专业拍摄设备,实地采集生产过程真实数据,解决企业真实的痛点需求。数据覆盖到了瓷砖产线所有常见瑕疵,包括粉团、角裂、滴釉、断墨、滴墨、B孔、落脏、边裂、缺角、砖渣、白边等。
    的头像 发表于 05-15 11:35 421次阅读
    YOLOv5瓷砖表面<b class='flag-5'>瑕疵</b>质检