0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

单张图像超分辨率和立体图像超分辨率的相关工作

3D视觉工坊 来源:3D视觉工坊 2023-06-27 11:07 次阅读

多阶段策略在图像修复任务中被广泛应用,虽然基于Transformer的方法在单图像超分辨率任务中表现出高效率,但在立体超分辨率任务中尚未展现出CNN-based方法的显著优势。这可以归因于两个关键因素:首先,当前单图像超分辨率Transformer在该过程中无法利用互补的立体信息;其次,Transformer的性能通常依赖于足够的数据,在常见的立体图像超分辨率算法中缺乏这些数据。为了解决这些问题,作者提出了一种混合Transformer和CNN注意力网络(HTCAN),它利用基于Transformer的网络进行单图像增强和基于CNN的网络进行立体信息融合。此外,作者采用了多块训练策略和更大的窗口尺寸,以激活更多的输入像素进行超分辨率。作者还重新审视了其他高级技术,如数据增强、数据集成和模型集成,以减少过拟合和数据偏差。最后,作者的方法在NTIRE 2023立体图像超分辨率挑战的Track 1中获得了23.90dB的分数,并成为优胜者。

1 前言

立体图像超分辨的最终性能取决于每个视图的特征提取能力和立体信息交换能力。相比于卷积神经网络,变换器拥有更大的感受野和自我关注机制,可以更好地模拟长期依赖。但是,其内存和计算成本通常要高得多。因此,作者提出了一种混合架构,利用了变换器的强大长期依赖建模能力和卷积神经网络的信息交换的有效性。在作者的方法中,作者首先使用变换器来保留重要特征,然后使用CNN方法进行信息交换。实验结果表明,该混合架构具有较好的性能。

本文有以下三个贡献:

一种混合立体图像超分辨网络。作者提出了一个统一的立体图像超分辨算法,它集成了变换器和CNN架构,其中变换器用于提取单视图图像的特征,而CNN模块用于交换来自两个视图的信息并生成最终的超分辨图像。

全面的数据增强。作者对多补丁训练策略和其他技术进行了全面研究,并将它们应用于立体图像超分辨。

新的最先进性能。作者提出的方法实现了新的最先进性能,并在立体图像超分辨挑战赛的第一轨中获得了第一名。

2 相关背景

本文这一节介绍了单张图像超分辨率和立体图像超分辨率的相关工作。针对单张图像超分辨率,研究人员一开始使用外部图像或样本数据库来生成超分辨图像,手工制作的特征依赖于先验知识/假设,并存在很多局限性。后来引入了基于CNN的方法,CNN网络通过学习局部结构模式降低了计算成本。最近,基于Transformer的方法也受到越来越多的关注,因为它删除了先前卷积模块使用的局部性先知,并允许更大的接收场。对于立体图像超分辨率,在以前的工作中,大多是从单张图像超分辨率骨干出发的,并提出了通信分支来允许左右视图之间的信息交换。然而,左右视图之间的视差通常沿着基线而大于传统卷积核的接收场。近年来,采用了与单张超分辨率类似的方法,引入了基于CNN和Transformer的方法,以修复立体图像的超分辨率。

3 方法

本节中,作者详细介绍所提出的混合Transformer和CNN Attention网络(HTCAN)。所提出的HTCAN是一个多阶段的恢复网络。具体而言,给定低分辨率的立体图像Llr和Rlr,作者首先使用基于Transformer的单图像超分辨率网络将其超分辨到Ls1和Rs1。在第二阶段,作者采用基于CNN的网络来增强Ls1和Rs1的立体效果,并得到增强的图像Lsr和Rsr。在第三阶段,作者使用与第2阶段相同的基于CNN的网络进行进一步的立体增强和模型集成。

8d416682-1476-11ee-962d-dac502259ad0.png

3.1 阶段1: 基于Transformer的单图像超分辨率网络结构

作者提出了一个基于Transformer和CNN Attention网络的立体图像增强网络,可以提高图像分辨率和立体效果。首先采用HAT-L作为单图像超分辨率的骨干,使用多块训练策略和级联残差混合注意力组(RHAG)进行自注意和信息聚合,最终生成高分辨率图像。同时,通过转动和翻转输入图像来实现自集成,使用SiLU激活函数替换GeLU激活函数进一步增强性能。

4.2 阶段2:基于卷积神经网络的立体增强网络架构

作者介绍了基于卷积神经网络的立体增强的第二阶段流程。该流程使用了由NAFSSR-L作为骨干网络,在提取浅层特征后,通过K2个NAF块和SCAM模块对左右图像进行跨视图信息聚合,最终输出立体增强后的图像。为了提高性能,通过自组合策略对模型进行了改进。

4.3 阶段3: 基于卷积神经网络的立体影像融合

作者介绍了一个基于卷积神经网络的立体影像融合的三阶段流程。在第三阶段中,使用第二阶段自组合的输出作为输入,提高了模型的整体性能。虽然第三阶段模型表现与第二阶段类似,但是作为一个集成模型,可以对第二阶段模型进行进一步的改进。

5 实验

5.1 实验细节

本文的实验部分训练了一个 HTCAN 网络,并对该网络进行了三个阶段的训练。在第一阶段的训练中,使用了 Charbonnier 损失和 MSE 损失,同时还使用了各种数据增强技术。在第二阶段中,我们采用 NAFSSR-L 的原始代码在 Flickr1024 图像上进行了训练,并在第二阶段训练中使用 UnshuffleNAFSSR 模型的预训练模型。最后,在第三阶段的训练中,采用与第二阶段相同的设置,将网络进行了微调。我们的方法在 Flickr1024 测试集上进行了评估,并通过与其他单幅图像和立体图像超分辨率方法的比较来证明其有效性。

5.2 实验结果

本文的实验结果显示,与其他状态-艺术单幅图像超分辨率方法和立体图像超分辨率方法相比,作者的方法在多数测试数据集上表现更好。此外,作者的方法在视觉效果上也表现出众,能够显著地恢复图像的细节和纹理。

8d65d6b6-1476-11ee-962d-dac502259ad0.png8dc57512-1476-11ee-962d-dac502259ad0.png

5.3 实验分析

本文介绍了一种基于多块训练、数据增强和自我集成的立体图像超分辨率方法,并引入了基于CNN的立体增强模块来进一步提高性能。实验表明这种方法可以有效地恢复图像纹理和细节。其中,采用较大的接受域和窗口大小,以及自我集成策略可以进一步提高性能。本文提出的多阶段方法将基于Transformer的SISR方法和基于CNN的立体增强方法相结合,进一步恢复了细节。

8df6426e-1476-11ee-962d-dac502259ad0.png8e973b92-1476-11ee-962d-dac502259ad0.png

7 总结

本文介绍了混合Transformers和CNN注意力网络(HTCAN),采用两阶段方法使用基于Transformers的SISR模块和基于CNN的立体增强模块来超分辨低分辨率立体图像。作者提出的多补丁训练策略和大窗口大小增加了SISR阶段激活的输入像素数量,使结果相较于原始的HAT-L架构有0.05dB的收益。此外,作者的方法采用先进的技术,包括数据增强,数据集成和模型集成,以在测试集上实现23.90dB的PSNR并赢得立体图像超分辨率挑战赛第一名。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6511

    浏览量

    87600
  • 变换器
    +关注

    关注

    17

    文章

    2027

    浏览量

    108381
  • Transformer
    +关注

    关注

    0

    文章

    130

    浏览量

    5898

原文标题:CVPR2023 I 混合Transformers和CNN的注意力网络用于立体图像超分辨率

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    EVAL_PASCO2_SENSOR为什么无法从较低的分辨率高速获得更高的分辨率

    我有一个图像 EVAL_PASCO2_SENSOR,支持高达 3840x2160 分辨率的超高速和高速。 我能以快的速度拍摄所有静止画面。 但是,当我尝试获得更高分辨率(3840x2
    发表于 02-22 07:58

    #硬声创作季 机器视觉技术与应用:图像分辨率与空间关系

    图像分辨率机器视觉
    Mr_haohao
    发布于 :2022年10月26日 14:55:58

    什么是cif分辨率

    的性能(清晰度、存储量、带宽)和价格。能够在不增加成本和数据容量的情况下,提高录像的回放图像画质,这样的分辨率是我们所需要的。  目前监控行业中主要使用Qcif(176*144)、CIF(352*288
    发表于 05-28 16:31

    分辨率图像重建方法研究

    分辨率图像重建方法研究分辨率图像重建就是由低分辨率
    发表于 03-14 17:08

    分辨率合成孔径雷达图像的直线特征多尺度提取方法

    针对传统的合成孔径雷达(SAR)多尺度边缘提取方法中直线提取连续性和完整性不好的特点,提出了一个由粗到精的多分辨率SAR图像直线特征多级提取框架,利用多尺度策略在降低SAR图像噪声影响的同时增强相邻
    发表于 05-06 09:04

    新手关于图像分辨率的问题~

    各位大神好,我是一个新手,求教各位!用matlab新三步法实现图像分辨率,已经有定义为 motionEstNTSS的新三步法代码。然后在命令窗口输入imgP=imread('D:\5.jpg
    发表于 05-19 16:14

    分辨率图像评价问题(MSE求解)

    (MSE)ps1=(256^2)/MSE;PSNR=10*(log10(ps1))这是我写的程序,求分辨率图像的效果,按道理采用最邻近插值出来的MSE应该大于双线性插值的MSE,可是为什么我求出来刚好相反呢?求大神帮忙,万分感
    发表于 07-15 11:08

    PDF Transformer+“调整图像分辨率”警告消息解决办法

    一些小伙伴在使用ABBYY PDF Transformer+扫描识别文档时,会发出“调整图像分辨率”警告消息。扫描分辨率设置的过高或过低,都会对文本识别的质量产生不好的影响,那么,该怎么解决呢?别急
    发表于 10-13 14:17

    请问如何dm8168动态修改分辨率??

    上也能成功解码显示图像。。按照文档所说,sc 组件的输出分辨率是可以动态修改的~ 但在解码显示图像后,我尝试过修改输出分辨率,结果程序就崩溃了··· 我想问一下,能否动态修改
    发表于 06-21 09:02

    增强高分辨率图像捕获的选择

    。相反,您需要从一个为您提供所需的分辨率图像传感器开始,然后优化摄像机的其它性能。这是我们的2900万像素KAI-29050被广泛用于各种监控、航空成像和机器视觉应用的一个原因。该器件具有足够的分辨率
    发表于 10-25 09:04

    KAI-43140 CCD图像传感器提供高分辨率图像均匀性

    若您想提高一个图像传感器的分辨率,您可选两个方法,做大或做小。做“大”可能是最明显及最易理解– 就是增加像素以提高分辨率,但这会增加图像传感器的尺寸。您想提升
    发表于 10-29 08:56

    DRM_MODE分辨率这块有什么限制吗

    vga接口输出的硬件这块已经做好了并且连接显示器也能看见图像输出我的意思是按照附录修改输出分辨率能控制图像输出的分辨率不需要在设备树里做什么操作
    发表于 12-31 06:52

    峰峰值分辨率与有效分辨率的区别

    低带宽、高分辨率ADC的分辨率为16位或24位。但是,器件的有效位数受噪声限制,而噪声则取决于输出字速率和所用的增益设置。有些公司规定使用有效分辨率来表示该参数,ADI则规定使用峰峰值分辨率
    发表于 12-15 07:56

    基于POCS算法的图像分辨率重建

    分辨率技术是指通过融合多幅模糊、变形、频谱混叠的低分辨率图像来重建一幅高分辨率图像.本文提出一种基于POCS算法的视频
    发表于 11-08 17:03 40次下载