0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

视频P图新SOTA:推理速度快近15倍

OpenCV学堂 来源:量子位 作者:量子位 2022-05-24 09:45 次阅读

众所周知:视频是可以P的。

这不,在CVPR 2022收录的论文中,就出现了这么一个P图神器,它可以分分钟给你上演各种人像消失大法,不留任何痕迹。

去水印、填补缺失更是不在话下,并且各种分辨率的视频都能hold住。

正如你所见,这个模型如此丝滑的表现让它在两个基准数据集上都实现了SOTA性能。

812b2f9a-daac-11ec-ba43-dac502259ad0.png

△与SOTA方法的对比

同时它的推理时间和计算复杂表现也很抢眼:

前者比此前的方法快了近15倍,可以在Titan XP GPU上以每帧0.12秒的速度处理432 × 240的视频;后者则是在所有比较的SOTA方法中实现了最低的FLOPs分数。

如此神器,什么来头?

改善光流法

目前很多视频修复算法利用的都是光流法(Optical flow)。

也就是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性,找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息

这个方法的缺点很明显:计算量大、耗时长,也就是效率低。

为此,研究人员设计了三个可训练模块,分别为流完成(flow completion)、特征传播(feature propagation)和内容幻想(content hallucination),提出了一个流引导(flow-guided)的端到端视频修复框架:

E2FGVI。

这三个模块与之前基于光流的方法的三个阶段相对应,不过可以进行联合优化,从而实现更高效的修复过程。

8179012a-daac-11ec-ba43-dac502259ad0.png

具体来说,对于流完成模块,该方法直接在mask viedo中一步完成操作,而不是像此前方法采用多个复杂的步骤。

对于特征传播模块,与此前的像素级传播相比,该方法中的流引导传播过程在特征空间中借助可变形卷积进行。

通过更多可学习的采样偏移和特征级操作,传播模块释放了此前不能准确进行流估计的压力。

对于内容幻想模块,研究人员则提出了一种时间焦点Transformer来有效地建模空间和时间维度上的长程依赖关系。

同时该模块还考虑了局部和非局部时间邻域,从而获得更具时间相关性的修复结果。

81a552fc-daac-11ec-ba43-dac502259ad0.png

作者:希望成为新基线

定量实验:

研究人员在数据集YouTube VOS和DAVIS上进行了定量实验,将他们的方法与之前的视频修复方法进行了比较。

如下表所示,E2FGVI在全部四个量化指标上都远远超过了这些SOTA算法,能够生成变形更少(PSNR和SSIM)、视觉上更合理(VFID)和时空一致性更佳(Ewarp)的修复视频,验证了该方法的优越性。

81ddb930-daac-11ec-ba43-dac502259ad0.png

此外,E2FGVI也具有最低的FLOPs值(计算复杂度),尽管训练是在432 × 240分辨率的视频上进行,它的HQ版本做到了支持任意分辨率。

82209444-daac-11ec-ba43-dac502259ad0.png

定性实验:

研究人员首先选择了三种最有代表性的方法,包括CAP、FGVC(基于光流法)和Fuseformer(入选ICCV 2021),进行对象移除(下图前三行)和缺失补全(下图后两行)的效果比较。

可以发现,前三种方法很难在遮挡区域恢复出合理的细节、擦除人物也会造成模糊,但E2FGVI可以生成相对真实的纹理和结构信息。

824b6d22-daac-11ec-ba43-dac502259ad0.png

此外,它们还选用了5种方法进行了用户研究,结果大部分人都对E2FGVI修复后的效果更满意。

综上,研究人员也表示,希望他们提出的方法可以成为视频修复领域新的强大基线。

作者介绍

82ac4304-daac-11ec-ba43-dac502259ad0.png

E2FGVI由南开大学和海思合作完成。

一作Li Zhen为南开大学博士生,共同一作Lu ChengZe也来自南开。

通讯作者为南开大学计算机学院教授程明明,主要研究方向是计算机视觉和图形学。

目前,E2FGVI的代码已经开源,作者也提供了Colab实现,未来还将在Hugging Face给出demo。

论文地址: https://arxiv.org/abs/2204.02663

GitHub主页: https://github.com/MCG-NKU/E2FGVI

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    8

    文章

    1591

    浏览量

    45592
  • 数据集
    +关注

    关注

    4

    文章

    1176

    浏览量

    24340

原文标题:CVPR 2022 | 视频P图新SOTA:推理速度快近15倍,任意分辨率均可上演人像消失大法

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    STM32f103系列8位并口与硬件SPI驱动1.8TFT的屏幕,哪个速度快

    有没前辈做过相关的项目,STM32f103系列 8位并口与硬件SPI 驱动1.8TFT的屏幕,哪个速度快。或者有8位并口的操作资料可以提供参考一下吗{:1:},不懂STM32如何发送8位并口数据,我现在的数据接口是PC2-PC9
    发表于 04-17 07:31

    指纹挂锁方案——采用ACH512或ACM32FP4指纹芯片和88*112传感器,指纹识别速度快,BOM成本低

    方案概述指纹挂锁方案采用ACH512或ACM32FP4指纹芯片和88*112传感器,指纹识别速度快,BOM成本低,非常适合挂锁、内门锁、箱包锁、箱柜锁等场景。方案特点• 主控+算法单芯片
    发表于 03-12 11:46

    ADSP-CM403BSWZ-CF和ADSP BF518相比到底谁速度快?

    ,IFFT. 2. 如果仅考虑32BIT的定点DSP运算,比如FIR,DFFT,IFFT等,ADSP-CM403BSWZ-CF(240Mhz)和ADSP BF518(400Mhz)相比到底谁速度快?
    发表于 01-15 06:04

    如何设置LTspice来让仿真的速度快一些?

    我在用LTspice做电源仿真的时候,我发现仿真的速度很慢,该如何设置LTspice来让仿真的速度快一些,thanks
    发表于 01-05 07:03

    使用c语言给单片机编写的程序在运行的时候if语句运行的还是switch语句执行的速度快

    请问使用c语言给单片机编写的程序在运行的时候if语句运行的,还是switch语句执行的速度快?在优化之前的人写的程序,有人看到程序中使用了大量的if条件判断语句,就说这个程序运行的效率低,写的不好!说switch语句好,执行效率高。请问是这样吗?但是我觉得对于单片机来说
    发表于 11-08 06:55

    高频PCB板材:高可靠性、信号传输速度快

    高频PCB板材:高可靠性、信号传输速度快
    的头像 发表于 11-02 10:26 365次阅读

    用FMSC读取flash的速度快还是用QSPI的速度更快?

    用FMSC读取flash的速度快还是用QSPI的速度更快
    发表于 10-12 07:11

    STC15F204EA系列单片机器件手册

    ,但速度快6-12。内部集成高精度R/C时钟,±1%温飘,常温下温飘5‰,5MHz~35MHz宽范围可设置,可彻底省掉外部昂贵的晶振。8路高速10位A/D转换(30万次/秒),针对电机控制,强干扰场合。
    发表于 09-28 07:10

    oled0.96寸屏spi和i2c驱动那个刷屏速度快

    oled0.96寸屏spi和i2c驱动那个刷屏速度快
    发表于 09-25 08:21

    你知道是电流速度快还是电子速度快

    电源电流电压电子技术
    学习电子知识
    发布于 :2023年09月05日 21:36:26

    人工智能SOTA什么意思

    人工智能SOTA什么意思 人工智能SOTA是机器学习领域中的一个术语,指的是目前能够实现的最佳结果,SOTA是State of the art的缩写,意为“最新技术”的最佳状态。在人工智能领域
    的头像 发表于 08-22 16:45 9999次阅读

    请问在新CPU上推断INT8模型的速度是否比旧CPU

    与采用旧 CPU 的推理相比,在新 CPU 上推断的 INT8 模型的推理速度更快。
    发表于 08-15 08:28

    C++演示中的推理速度比Python演示中的推理速度更快是为什么?

    在同一主机机上采用相同型号的 Ran Object Detection C++ 演示 和 对象检测 Python 演示 。 C++ 演示中的推理速度比 Python 演示中的推理速度
    发表于 08-15 06:52

    通过A2B更新软件—A2B如何给汽车应用中的SOTA带来变革

    无线软件升级(SOTA)正迅速成为汽车OEM须开发和部署的重要能力。更新模块、支持客户、和通过附加特性带来利润的能力,使得掌握SOTA成为一个有吸引力的主张。本文讨论SOTA为何出现在汽车环境中,如何部署
    的头像 发表于 06-15 16:02 1163次阅读
    通过A2B更新软件—A2B如何给汽车应用中的<b class='flag-5'>SOTA</b>带来变革

    GPT-4拿下最难数学推理数据集新SOTA!新型Prompting让大模型推理能力狂升!

    结果表明,GP-T-4+PHP 在多个数据集上取得了 SOTA 结果,包括 SVAMP (91.9%), AQuA (79.9%), GSM8K (95.5%) 以及 MATH (53.9
    的头像 发表于 05-15 15:35 430次阅读
    GPT-4拿下最难数学<b class='flag-5'>推理</b>数据集新<b class='flag-5'>SOTA</b>!新型Prompting让大模型<b class='flag-5'>推理</b>能力狂升!