0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

视频P图新SOTA:推理速度快近15倍

OpenCV学堂 来源:量子位 作者:量子位 2022-05-24 09:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

众所周知:视频是可以P的。

这不,在CVPR 2022收录的论文中,就出现了这么一个P图神器,它可以分分钟给你上演各种人像消失大法,不留任何痕迹。

去水印、填补缺失更是不在话下,并且各种分辨率的视频都能hold住。

正如你所见,这个模型如此丝滑的表现让它在两个基准数据集上都实现了SOTA性能。

812b2f9a-daac-11ec-ba43-dac502259ad0.png

△与SOTA方法的对比

同时它的推理时间和计算复杂表现也很抢眼:

前者比此前的方法快了近15倍,可以在Titan XP GPU上以每帧0.12秒的速度处理432 × 240的视频;后者则是在所有比较的SOTA方法中实现了最低的FLOPs分数。

如此神器,什么来头?

改善光流法

目前很多视频修复算法利用的都是光流法(Optical flow)。

也就是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性,找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息。

这个方法的缺点很明显:计算量大、耗时长,也就是效率低。

为此,研究人员设计了三个可训练模块,分别为流完成(flow completion)、特征传播(feature propagation)和内容幻想(content hallucination),提出了一个流引导(flow-guided)的端到端视频修复框架:

E2FGVI。

这三个模块与之前基于光流的方法的三个阶段相对应,不过可以进行联合优化,从而实现更高效的修复过程。

8179012a-daac-11ec-ba43-dac502259ad0.png

具体来说,对于流完成模块,该方法直接在mask viedo中一步完成操作,而不是像此前方法采用多个复杂的步骤。

对于特征传播模块,与此前的像素级传播相比,该方法中的流引导传播过程在特征空间中借助可变形卷积进行。

通过更多可学习的采样偏移和特征级操作,传播模块释放了此前不能准确进行流估计的压力。

对于内容幻想模块,研究人员则提出了一种时间焦点Transformer来有效地建模空间和时间维度上的长程依赖关系。

同时该模块还考虑了局部和非局部时间邻域,从而获得更具时间相关性的修复结果。

81a552fc-daac-11ec-ba43-dac502259ad0.png

作者:希望成为新基线

定量实验:

研究人员在数据集YouTube VOS和DAVIS上进行了定量实验,将他们的方法与之前的视频修复方法进行了比较。

如下表所示,E2FGVI在全部四个量化指标上都远远超过了这些SOTA算法,能够生成变形更少(PSNR和SSIM)、视觉上更合理(VFID)和时空一致性更佳(Ewarp)的修复视频,验证了该方法的优越性。

81ddb930-daac-11ec-ba43-dac502259ad0.png

此外,E2FGVI也具有最低的FLOPs值(计算复杂度),尽管训练是在432 × 240分辨率的视频上进行,它的HQ版本做到了支持任意分辨率。

82209444-daac-11ec-ba43-dac502259ad0.png

定性实验:

研究人员首先选择了三种最有代表性的方法,包括CAP、FGVC(基于光流法)和Fuseformer(入选ICCV 2021),进行对象移除(下图前三行)和缺失补全(下图后两行)的效果比较。

可以发现,前三种方法很难在遮挡区域恢复出合理的细节、擦除人物也会造成模糊,但E2FGVI可以生成相对真实的纹理和结构信息。

824b6d22-daac-11ec-ba43-dac502259ad0.png

此外,它们还选用了5种方法进行了用户研究,结果大部分人都对E2FGVI修复后的效果更满意。

综上,研究人员也表示,希望他们提出的方法可以成为视频修复领域新的强大基线。

作者介绍

82ac4304-daac-11ec-ba43-dac502259ad0.png

E2FGVI由南开大学和海思合作完成。

一作Li Zhen为南开大学博士生,共同一作Lu ChengZe也来自南开。

通讯作者为南开大学计算机学院教授程明明,主要研究方向是计算机视觉和图形学。

目前,E2FGVI的代码已经开源,作者也提供了Colab实现,未来还将在Hugging Face给出demo。

论文地址: https://arxiv.org/abs/2204.02663

GitHub主页: https://github.com/MCG-NKU/E2FGVI

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    9

    文章

    1714

    浏览量

    47454
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046

原文标题:CVPR 2022 | 视频P图新SOTA:推理速度快近15倍,任意分辨率均可上演人像消失大法

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    DeepSeek最新论文:训练速度提升9推理速度快11

    是上一代Grok2的15左右。在Benchmarks中,Grok3毫无悬念成功地领先Deepseek R1、o3 mini等对手。   不过用如此大规模的算力集群,花费上一代15
    的头像 发表于 02-20 11:25 2650次阅读
    DeepSeek最新论文:训练<b class='flag-5'>速度</b>提升9<b class='flag-5'>倍</b>,<b class='flag-5'>推理</b><b class='flag-5'>速度快</b>11<b class='flag-5'>倍</b>!

    基于米尔MYC-LR3576开发板的实时视频识别系统设计与实现

    1080P3245% 12路视频流处理1080P×121592% 人脸疲劳检测720P4838%注:12路视频流端到端延迟约140ms2.
    发表于 12-01 21:23

    谷歌芯片实现量子计算新突破,比超算13000

    在特定任务上的运行速度比传统超级计算机13000,并且这种算法可以在类似平台上得到重现。   量子比特极易受到环境干扰,导致计算错误,这成为量子计算走向实用的一大阻碍。而谷歌的Willow芯片成功实现了低于表面码阈值的量子纠
    的头像 发表于 10-27 06:51 9128次阅读

    今日看点:谷歌芯片实现量子计算比经典超算13000;NFC 技术突破:读取距离从 5 毫米提升至 20 毫米

    性能甚至超越了最快的经典超级计算机,速度快 13000 。   Willow是谷歌于去年12月宣布推出的量子芯片。当时,Willow量子芯片在5分钟内完成了一项传统超级计算机需要“10的25次方”年的时间才能完成的标准基准计算任务。而此次谷歌披露量子可验证性
    发表于 10-23 10:20 1226次阅读

    AURIX tc367通过 MCU SOTA 更新逻辑 IC 闪存是否可行?

    你好专家:我的用例是 MCU 通过 SPI 连接到逻辑 IC,逻辑 IC 连接到 8MB 闪存,但 MCU PFLASH 大小为 2MB,通过 MCU SOTA 更新逻辑 IC 闪存是否可行?
    发表于 08-11 06:36

    求助,关于TC387使能以及配置SOTA 中一些问题求解

    你好, 之前我拿到贵司给一个demo,里面有一些使能以及配置SWAP的代码, 这里有些疑问 问题1. 判断SOTA功能是否生效,demo中使用的是 SCU_STMEM1中的bit位, 代码如下
    发表于 08-08 07:31

    ‌Groq LPU 如何让万亿参数模型「飞」起来?揭秘 Kimi K2 40 提速背后的黑科技

    开放预览,引发了开发者社区的疯狂讨论——‌为什么 Groq 能跑得这么?‌ 传统 AI 推理硬件(如 GPU)往往面临一个两难选择: ✅ ‌‌(但牺牲精度) ⛔ ‌准‌(但延迟高到无法接受) 而
    的头像 发表于 08-07 10:01 651次阅读

    大模型推理显存和计算量估计方法研究

    过程中需要占用大量显存,导致推理速度变慢,甚至无法进行。 计算量过大:大模型的计算量较大,导致推理速度慢,难以满足实时性要求。 为了解决这些问题,本文将针对大模型
    发表于 07-03 19:43

    RK3588核心板在边缘AI计算中的颠覆性优势与场景落地

    、ResNet50等模型,推理速度较纯CPU方案(如i.MX8)5-10,无需外接加速卡。 全接口覆盖: 原生支持PCIe 3.0、双千兆网口、USB 3.1 Gen2、SATA
    发表于 04-15 10:48

    YOLOv5类中rgb888p_size这个参数要与模型推理和训练的尺寸一致吗?一致会达到更好的效果?

    YOLOv5类中rgb888p_size这个参数要与模型推理和训练的尺寸一致吗,一致会达到更好的效果
    发表于 03-11 08:12

    使用修改后的基准C++工具推断灰度图像时的推理速度慢怎么解决?

    修改了 基准测试 C++ 工具 ,以加载灰度图像。 获得的推理速度非常低。
    发表于 03-06 07:11

    k230如何将yolo分类视频推理后的视频结果保存到本地?

    请问k230如何将yolo分类视频推理后的视频结果保存到本地?
    发表于 02-08 08:09

    中国电提出大模型推理加速新范式Falcon

    中提出的 Falcon 方法是一种 增强半自回归投机解码框架 ,旨在增强 draft model 的并行性和输出质量,以有效提升大模型的推理速度。Falcon 可以实现约 2.91-3.51 的加速比,在多种数据集上获得了很好
    的头像 发表于 01-15 13:49 1461次阅读
    中国电提出大模型<b class='flag-5'>推理</b>加速新范式Falcon

    在ARM上实现模拟视频的实时解码,模拟相机的速度为1080p 30fps,TVP5150能达到这个速度吗?

    最近需要在ARM上实现模拟视频的实时解码,模拟相机的速度为1080p 30fps, 我在这里想咨询一下TVP5150能达到这个速度
    发表于 12-20 07:57

    谷歌正式发布Gemini 2.0 性能提升

    2.0在关键基准测试中相比前代产品Gemini 1.5 Pro的性能提升了。该模型支持图像、视频和音频等多种输入与输出形式,例如可以实现文本与图像的混合生成以及自定义的多语言文本转语音(TTS)内容。 此外,Gemini
    的头像 发表于 12-12 14:22 1117次阅读