0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华人学者推出视频修复AI:可换天造物 秒变科幻大片

工程师邓生 来源:雷锋网 作者:贝爽 2020-10-27 09:39 次阅读

AI修图到底有多强?

前几日,Adobe Max 大会刚刚结束,Photoshop 2021版便登上了国外各大媒体版面。

其原因是,新版Ps工具中内置了AI驱动工具,诸如“天空置换”等高难度修图问题,现在点点鼠标就可以轻松实现,而且效果远超手动操作。

无论是拍人拍景或是其他,“天空”都可以说是摄像中的关键元素。比如,一张平平无奇的景色图加上落日余晖的天空色调,是不是有内味了?

对于短视频爱好者来说,如果也能达到如此处理效果岂不是更佳?

没错,今天小编就是要给大家介绍一款基于原生视频的AI处理方法,不仅可以一键切置换天空背景,还可以打造任意“天空之城”。

AI视频修复新玩法

这项AI处理方法来自密歇根大学的一位华人博士后的最新研究。该方法基于视觉技术可一键调整视频中的天空背景和天气转换。

比如,《星际迷航》等科幻电影中经常出现的浩瀚星空、宇宙飞船,也可以利用这项技术融入随手拍的视频中。

公路片秒变科幻片,画面毫无违和感。

视频中的蓝色的天空背景也随飞船变成了灰蒙蒙的色调,一种世界末日的即视感有木有?

当然它的玩法还不止如此。

动漫迷也可以创建自己的移动城堡。喜欢《天空之城》《哈尔的移动城堡》的朋友应该对这一幕应该非常熟悉。

又或者在视频中挂一个超级月亮,又是另一番景象。

好像只要脑洞够大,利用这项AI技术,视频创作就有无限种玩法。

另外,它还具备天气转换的功能,比如晴空万里、阴雨绵绵、雷雨交加等各种天气都可以在视频中随意切换。

喜欢玩Vlog的朋友听着是不是非常心动了?研究人员表示,现在已经在考虑将其制作成插件/脚本的形式,方便相关从业者或行业使用。

在此之前,这项技术的AI代码已经在Github开源,懂技术的朋友可以优先安装体验了~

Github地址:https://github.com/jiupinjia/SkyAR

技术原理

不同于传统研究,研究人员提出了一种完全基于视觉的解决方案。它的好处就是可以处理非静态图像,同时不受拍摄设备的限制,也不需要用户交互,可以处理在线或离线视频。

上述实验视频,均是通过手持智能手机和行车记录仪在野外拍摄的。经过该方法处理后,其在视频质量、运动动态、照明转换方面都达到了较高的保真度。比如在浮动城堡,超级月亮样例中,使用单个NVIDIA Titan XP GPU卡,该方法可以在输出分辨率为640 x 320时达到24 fps的实时处理速度,在854 x 480时达到接近15 fps的实时处理速度。

具体来说,该方法分为三个核心模块:

天空遮罩框架(Sky Matting Network):用于检测视频帧中天空区域的视频框架。该框架是采用了基于深度学习的预测管道,能够产生更精确的检测结果和更具视觉效果的天空蒙版。

运动估计(Motion Estimation):用于恢复天空运动的运动估计器。天空视频需要在真实摄像机的运动下进行渲染和同步。

图像融合(Image Blending):用于将用户指定的天空模板混合到视频帧中的Skybox。除此之外,还用于重置和着色,使混合结果在其颜色和动态范围内更具视觉逼真感。

完整框架如下图:

天空遮罩框架:利用深卷积神经网络(CNN)的优势,在一个像素级回归框架下对天空冰雹进行预测,该框架可以产生粗尺度和细尺度的天空蒙版。

天空遮罩框架由一个分段编码器( Segmentation Encoder )、一个掩模预测解码器(Mask Prediction Decoder)和一个软细化模块(Soft Refinement Module)组成。

其中,编码器的目的是学习下采样输入图像的中间特征表示。解码器被用来训练和预测粗糙的天空。优化模块同时接收粗糙的天空蒙版和高分辨率输入,并生成一个高精度的天空蒙版。

运动估计:研究人员直接估计了目标在无穷远处的运动,并创建了一个用于图像混合的天空盒(Skybox),通过将360°天空盒模板图像混合到透视窗口来渲染虚拟天空背景。

假设天空模式的运动是由一个矩阵M2R33来模拟的。 由于天空中的物体(如云、太阳或月亮)应该位于同一个位置,假设它们的透视变换参数是固定值,并且已经包含在天空盒背景图像中,然后使用迭代Lucas-Kanade和金字塔方法计算光学流,从而可以逐帧跟踪一组稀疏特征点。对于每对相邻帧,给定两组2D特征点,使用基于RANSAC的鲁棒模糊估计来计算具有四个自由度(仅限于平移、旋转和均匀缩放)的最佳2D变换。

图像融合:在预测天空蒙版时,输出像素值越高,表示像素属于天空背景的概率越高。在常规方法中,通常利用图像遮罩方程,将新合成的视频帧与背景进行线性组合,以作为它们的像素级组合权重。

但由于前景色和背景色可能具有不同的色调和强度,因此直接进行上述方法可能会导致不切实际的结果。 因此,研究人员应用重新着色和重新照明技术将颜色和强度从背景转移到前景。

实验结果

研究人员采用了天空电视台上的一个数据集。 该数据集基于AED20K数据集构建而成,包括多个子集,其中每个子集对应于使用不同方法创建真实的填空遮罩。

本次试验使用“ADE20K+DE+GF”子集进行了培训和评估,该训练集中有9187张图像,验证集中有885张图像。以下为基于该方法的视频天空增强效果:

最左边是输入视频的起始帧,右边的图像序列是不同时间段下的输出效果

天气转换的效果,分别为晴到多云,晴到小雨,多云到晴天以及多云到多雨。

需要强调的是,在合成雨天图像时,研究人员通过屏幕混合在结果的顶部添加动态雨层(视频源)和雾层。 结果显示,只需对skybox模板和重新照明因子稍作修改,就可以实现视觉逼真的天气转换。

与CycleGAN的比较结果。CycleGAN是一种基于条件生成对抗网络的非成对图像到图像转换方法。在定性方面,该方法表现出更高的保真度。

第一行为两个原始的输入帧;第三行为CycleGAN结果

在定性比较上,PI和NIQE的得分值越低越好。

可以看出,该方法在定量指标和视觉质量方面都优于CycleGAN。

更多论文详细内容,可参见:https://arxiv.org/abs/2010.11800

相关作者

Zhengxia Zou,是该项研究的第一作者,目前是密歇根大学安娜堡分校的博士后研究员 。

他于2013年和2018年获得北京航空航天大学的学士学位和博士学位,后加入密歇根大学,其研究兴趣包括计算机视觉在遥感、自动驾驶以及视频游戏中的相关应用。

近几年,其发表的多篇相关论文被ACM、CVPR以及AAAI顶会收录。

对于该项研究,Zhengxia Zou认为,除了视频领域的应用外,还有一个潜在应用空间—数据扩充。 他说,

数据集的规模和质量是计算机视觉技术的基础,在现实场景中,即使ImageNet、MS-COCO等大规模数据集,在应用中也存在采样偏差带来的局限,而该方法对于提高深度学习模型在检测、分割、跟踪等各种视觉任务中的泛化能力具有很大的潜力。

不过,目前研究也存在一定的局限性,主要体现在两个方面,

一是天空遮罩网络无法检测到夜间视频中的天空区域。

二是当视频中某段时间内没有天空像素,或者没有纹理时,天空背景的运动就无法精确建模。

其原因是用于运动估计的特征点被假定为位于同一位置,并且使用距离第二远的特征点来估计运动会不可避免地引入误差。

因此,在未来的工作中,研究会着重于三个方向进行优化:第一是自适应天空光照;第二是鲁棒背景运动估计;第三是探索基于天空渲染的数据增强对目标检测和分割的有效性。
责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 视频
    +关注

    关注

    6

    文章

    1889

    浏览量

    71874
  • AI
    AI
    +关注

    关注

    87

    文章

    26352

    浏览量

    263945
收藏 人收藏

    评论

    相关推荐

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新的 Stable Video 3D 模型,该模型以其独特的功能吸引了众多关注。此模型具备从单张图像中生成多视图3D视频的能力,为视频制作领域带
    的头像 发表于 03-22 10:30 223次阅读

    阿里巴巴推出全新AI图生视频模型EMO

    近日,阿里巴巴集团智能计算研究院宣布推出了一款革命性的AI图片-音频-视频模型技术——EMO。据官方介绍,EMO是一种先进的音频驱动肖像视频生成框架,能够将静态照片转化为生动逼真的动态
    的头像 发表于 03-05 11:00 560次阅读

    Stability AI与Morph AI共同推出一体化AI视频创作工具

    近日,业界领先的AI技术公司Stability AI与中国AI创业公司Morph AI达成重要合作。双方宣布共同推出一款革新性的all-in
    的头像 发表于 03-05 10:44 351次阅读

    AI视频年大爆发!2023年AI视频生成领域的现状全盘点

    2023年,也是AI视频元年。过去一年究竟有哪些爆款应用诞生,未来视频生成领域面临的难题还有哪些?
    的头像 发表于 02-20 10:40 538次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>视频</b>年大爆发!2023年<b class='flag-5'>AI</b><b class='flag-5'>视频</b>生成领域的现状全盘点

    OpenAI发布文生视频模型Sora,引领AI视频生成新纪元

    在人工智能(AI)领域掀起新一轮革命浪潮的,正是OpenAI最新推出的文生视频大模型——Sora。这款被业界广泛赞誉的模型,以其“逼真”和“富有想象力”的视频生成能力,彻底颠覆了传统
    的头像 发表于 02-19 11:03 422次阅读

    OpenAI推出新模型Sora:文字视频短片

    OpenAI行业资讯
    深圳市浮思特科技有限公司
    发布于 :2024年02月18日 16:49:39

    谷歌推出AI扩散模型Lumiere

    近日,谷歌研究院重磅推出全新AI扩散模型Lumiere,这款模型基于谷歌自主研发的“Space-Time U-Net”基础架构,旨在实现视频生成的一次性完成,同时保证视频的真实性和动作
    的头像 发表于 02-04 13:49 583次阅读

    什么是AI视频识别分析

    视频AI识别分析是指利用人工智能技术对视频数据进行智能化检测、分析和提取有用信息的过程。通过视频AI分析,可以自动化地识别、检测和理解
    的头像 发表于 12-02 08:26 868次阅读
    什么是<b class='flag-5'>AI</b><b class='flag-5'>视频</b>识别分析

    造物云旗下造物数科发布电子电路智慧云工厂

    11月5日,由广东省工业和信息化厅、广东省科学技术厅、广东省教育厅、深圳市人民政府共同主办的2023工业软件生态大会在深圳会展中心隆重举办。造物云旗下造物数科正式发布电子电路智慧云工厂,展示 1+N
    的头像 发表于 11-07 16:18 445次阅读
    <b class='flag-5'>造物</b>云旗下<b class='flag-5'>造物</b>数科发布电子电路智慧云工厂

    基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统

    基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统#2023集创赛#紫光同创#小眼睛科技助力紫光同创高校生态建设@小眼睛科技 获奖作品展示:华南理工大学+CR8_Pro队
    发表于 11-02 17:51

    全新系列视频助您开始 AI 技术探索之旅

    尚未准备好深入构建自己的人工智能模型。考虑到这一点,我们创建了帮助您开始使用 AI 技术构建应用的资源。 我们推出了新的系列视频: " 使用 Google AI 进行构建 "。该系列
    的头像 发表于 11-01 09:20 227次阅读

    【KV260视觉入门套件试用体验】Vitis-AI加速的YOLOX视频目标检测示例体验和原理解析

    本文将介绍如何使用Vitis-AI加速YOLOX模型实现视频中的目标检测,并对相关源码进行解读。由于演示的示例程序源码是Vitis-AI开源项目提供的,本文演示之前会介绍所需要的准备工作。演示之后
    发表于 10-06 23:32

    BMS架构的初学者指南,电池管理系统bms的功能包括哪些

    电池技术的持续转型促使许多新人学习设计电池管理系统。本文提供了电池管理系统(BMS)架构的初学者指南,讨论了主要功能块,并解释了每个模块对电池管理系统的重要性。
    的头像 发表于 07-12 15:41 2220次阅读
    BMS架构的初<b class='flag-5'>学者</b>指南,电池管理系统bms的功能包括哪些

    2022年我国科幻产业总营收达877.5亿元

    这一数据来自中国科学研究中心和南方科学技术大学科学和人类想象力研究中心共同发表的《2023中国科幻产业报告》。该报告2022年中国科幻产业的典型的转型升级科幻阅读、科幻电影、
    的头像 发表于 05-31 10:10 651次阅读

    为什么在路瞬间电容电压和电感电流不能跃

    在一般情况下,为什么在路瞬间电容电压和电感电流不能跃? 求指点
    发表于 04-21 16:46