0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌新作Dreamix:视频扩散模型是通用视频编辑器,效果惊艳!

CVer 来源:机器之心 2023-02-09 11:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AIGC 已经火了很长时间了,出现了文本生成图像、文本生成视频、图像生成视频等广泛的应用场景,如今谷歌研究院的一项新研究可以让我们根据输入视频生成其他视频了!

我们知道,生成模型和多模态视觉语言模型的进展已经为具备前所未有生成真实性和多样性的大型文本到图像模型铺平了道路。这些模型提供了新的创作过程,但仅限于合成新图像而非编辑现有图像。为了弥合这一差距,基于文本的直观编辑方法可以对生成和真实图像进行基于文本的编辑,并保留这些图像的一些原始属性。与图像类似,近来文本到视频模型也提出了很多,但使用这些模型进行视频编辑的方法却很少。 在文本指导的视频编辑中,用户提供输入视频以及描述生成视频预期属性的文本 prompt,如下图 1 所示。目标有以下三个方面,1)对齐,编辑后的视频应符合输入文本 prompt;2)保真度,编辑后的视频应保留原始视频的内容,3)质量,编辑后的视频应具备高质量。 可以看到,视频编辑比图像编辑更加具有挑战性,它需要合成新的动作,而不仅仅是修改视觉外观。此外还需要保持时间上的一致性。因此,将 SDEdit、Prompt-to-Prompt 等图像级别的编辑方法应用于视频帧上不足以实现很好的效果。

c97ae65a-a7e3-11ed-bfe3-dac502259ad0.png

在近日谷歌研究院等发表在 arXiv 的一篇论文中,研究者提出了一种新方法 Dreamix,它受到了 UniTune 的启发,将文本条件视频扩散模型(video diffusion model, VDM)应用于视频编辑。

c996adcc-a7e3-11ed-bfe3-dac502259ad0.png

Dreamix: Video Diffusion Models are General Video Editors

论文地址:https://arxiv.org/abs/2302.01329

项目主页:https://dreamix-video-editing.github.io/

文中方法的核心是通过以下两种主要思路使文本条件 VDM 保持对输入视频的高保真度。其一不使用纯噪声作为模型初始化,而是使用原始视频的降级版本,通过缩小尺寸和添加噪声仅保留低时空信息;其二通过微调原始视频上的生成模型来进一步提升对原始视频的保真度。 微调确保模型了解原始视频的高分辨率属性。对输入视频的简单微调会促成相对较低的运动可编辑性,这是因为模型学会了更倾向于原始运动而不是遵循文本 prompt。研究者提出了一种新颖的混合微调方法,其中 VDM 也在输入视频各个帧的集合上进行微调,并丢弃了它们的时序。混合微调显著提升了运动编辑的质量。 研究者进一步利用其视频编辑模型提出了一个新的图像动画框架,如下图 2 所示。该框架包含了几个步骤,比如为图像中的对象和背景设置动画、创建动态相机运动等。他们通过帧复制或几何图像变换等简单的图像处理操作来实现,从而创建粗糙的视频。接着使用 Dreamix 视频编辑器对视频进行编辑。此外研究者还使用其微调方法进行目标驱动的视频生成,也即 Dreambooth 的视频版本。

c9aa1678-a7e3-11ed-bfe3-dac502259ad0.png

在实验展示部分,研究者进行了广泛的定性研究和人工评估,展示了他们方法的强大能力,具体可参考如下动图。

c9c1c62e-a7e3-11ed-bfe3-dac502259ad0.gif

ca0b8e44-a7e3-11ed-bfe3-dac502259ad0.gif

cab5acee-a7e3-11ed-bfe3-dac502259ad0.gif

对于谷歌这项研究,有人表示,3D + 运动和编辑工具可能是下一波论文的热门主题。

cb1f10da-a7e3-11ed-bfe3-dac502259ad0.png

还有人表示:大家可以很快在预算内制作自己的的电影了,你所需要的只是一个绿幕以及这项技术:

cb39199e-a7e3-11ed-bfe3-dac502259ad0.png

方法概览 本文提出了一种新的方法用于视频编辑,具体而言: 通过逆向被破坏视频进行文本引导视频编辑 他们采用级联 VDM( Video Diffusion Models ),首先通过下采样对输入视频就行一定的破坏,后加入噪声。接下来是级联扩散模型用于采样过程,并以时间 t 为条件,将视频升级到最终的时间 - 空间分辨率。 在对输入视频进行破坏处理的这一过程中,首先需要进行下采样操作,以得到基础模型(16 帧 24 × 40),然后加入方差为cb4acffe-a7e3-11ed-bfe3-dac502259ad0.png高斯噪声,从而进一步破坏输入视频。   对于上述处理好的视频,接下来的操作是使用级联 VDM 将损坏掉的低分辨率视频映射到与文本对齐的高分辨率视频。这里的核心思想是,给定一个嘈杂的、时间空间分辨率非常低的视频,有许多完全可行的、高分辨率的视频与之对应。本文中基础模型从损坏的视频开始,它与时间 s 的扩散过程具有相同的噪声。然后该研究用 VDM 来逆向扩散过程直到时间 0。最后通过超分辨率模型对视频进行升级。  混合视频图像微调  仅利用输入视频进行视频扩散模型的微调会限制物体运动变化,相反,该研究使用了一种混合目标,即除了原始目标(左下角)之外,本文还对无序的帧集进行了微调,这是通过「masked temporal attention」来完成的,以防止时间注意力和卷积被微调(右下)。这种操作允许向静态视频中添加运动。  

cb5b667a-a7e3-11ed-bfe3-dac502259ad0.png

推理 在应用程序预处理的基础上(Aapplication Dependent Pre-processing,下图左),该研究支持多种应用,能将输入内容转换为统一的视频格式。对于图像到视频,输入图像被复制并被变换,合成带有一些相机运动的粗略视频;对于目标驱动视频生成,其输入被省略,单独进行微调以维持保真度。然后使用 Dreamix Video Editor(右)编辑这个粗糙的视频:即前面讲到的,首先通过下采样破坏视频,添加噪声。然后应用微调的文本引导视频扩散模型,将视频升级到最终的时间空间分辨率。

cb7a6520-a7e3-11ed-bfe3-dac502259ad0.png

实验结果 视频编辑:下图中 Dreamix 将动作改为舞蹈,并且外观由猴子变为熊,但视频中主体的基本属性没有变:

cb8bda80-a7e3-11ed-bfe3-dac502259ad0.gif

Dreamix 还可以生成与输入视频时间信息一致的平滑视觉修改,如下图会滑滑板的小鹿:

cbd6fd08-a7e3-11ed-bfe3-dac502259ad0.gif

图像到视频:当输入是一张图像时,Dreamix 可以使用其视频先验添加新的移动对象,如下图中添加了在有雾的森林中出现一头独角兽,并放大。

cc397f00-a7e3-11ed-bfe3-dac502259ad0.gif

小屋旁边出现企鹅:

cc73cb56-a7e3-11ed-bfe3-dac502259ad0.gif

目标驱动视频生成:Dreamix 还可以获取显示相同主题的图像集合,并以该主题为运动对象生成新的视频。如下图是一条在叶子上蠕动的毛毛虫:

ccb304ba-a7e3-11ed-bfe3-dac502259ad0.gif

除了定性分析外,该研究还进行了基线比较,主要是将 Dreamix 与 Imagen-Video、 Plug-and-Play (PnP) 两种基线方法进行对比。下表为评分结果:

ccec576a-a7e3-11ed-bfe3-dac502259ad0.png

图 8 展示了由 Dreamix 编辑的视频和两个基线示例:文本到视频模型实现了低保真度的编辑,因为它不以原始视频为条件。PnP 保留了场景,但不同帧之间缺乏一致性;Dreamix 在这三个目标上都表现良好。

cd035e2e-a7e3-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 视频
    +关注

    关注

    6

    文章

    1999

    浏览量

    74639
  • 编辑器
    +关注

    关注

    1

    文章

    826

    浏览量

    32642
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11251

原文标题:谷歌新作Dreamix:视频扩散模型是通用视频编辑器,效果惊艳!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    编辑器无法正常运行,为什么?

    编辑器无法正常运行
    发表于 11-11 07:33

    飞凌嵌入式ElfBoard-常用编辑器之Vim编辑器

    在Linux下我们对文本进行编辑,经常用到的编辑器就是Vi/Vim, Vi/Vim命令众多,功能强大,是大多数Linux程序员选择使用的编辑器。但是Vi/Vim没有图形界面,对于经常在windows
    发表于 10-13 08:47

    Vim编辑器高效操作流程

    在现代运维工作中,服务配置管理、日志分析、脚本编写等任务几乎占据了工程师日常工作的大部分时间。作为Linux系统标配的文本编辑器,Vim以其强大的功能和极高的效率赢得了无数运维工程师的青睐。然而,Vim陡峭的学习曲线也让许多初学者望而却步。
    的头像 发表于 09-02 16:45 656次阅读

    视频教程 | 单元测试工具TESSY:脚本编辑器(Script Editor)#单元测试工具

    编辑器
    龙智DevSecOps
    发布于 :2025年08月21日 14:43:49

    Vim编辑器的基本操作

    在代码的世界里,效率是永恒的追求。无论是新手开发者还是资深工程师,都渴望拥有一款能让自己如虎添翼的编辑器。而在Linux生态中,有一款被无数程序员奉为神器、被誉为“效率之王”的编辑器——Vim。它以
    的头像 发表于 05-06 13:41 967次阅读
    Vim<b class='flag-5'>编辑器</b>的基本操作

    Linux下Vim编辑器的使用技巧

    【Vim】常用总结⟳ 简介⟳ image 什么是vim?⟳ Linux下两大编辑神器之一 vim • Linux/Unix下使用最多的编辑器 • vi的改进版 • 可能是最难上手的编辑器之一
    的头像 发表于 04-01 17:36 1026次阅读
    Linux下Vim<b class='flag-5'>编辑器</b>的使用技巧

    简化树莓派文件操作:Picockpit 编辑器应用上手体验

    我们激动地宣布推出全新的文件编辑器应用,让您能够在RaspberryPi上远程创建和编辑文件和目录!不仅如此,通过我们的文件编辑器应用,您还能获得我们的AI系统——RaspiGPT的协助。要您拥有
    的头像 发表于 03-25 09:26 501次阅读
    简化树莓派文件操作:Picockpit <b class='flag-5'>编辑器</b>应用上手体验

    鸿蒙海报编辑器APP,分享端云一体化开发的经验!

    前言 在我工作的日常中,经常会用一些画图编辑器,简单设计一些页面原型。而在去年低代码很火的时候,我在公司就开发了一款大屏可视化编辑器,可以通过拖拉拽生成网页的一个工具。后面也想着自己也开发一个画图
    的头像 发表于 03-16 16:09 644次阅读
    鸿蒙海报<b class='flag-5'>编辑器</b>APP,分享端云一体化开发的经验!

    MaaS 应用系列 MaaS X Cursor:基于 DeepSeek API 快速构建代码编辑器

    Cursor 是一款基于人工智能技术的现代化代码编辑器,专为开发者设计。它结合了传统编辑器(如 VS Code)的强大功能与 AI 驱动的智能编程能力,能够提供智能代码补全、自然语言编程、代码库理解
    的头像 发表于 03-08 16:43 3489次阅读
    MaaS 应用系列 MaaS X Cursor:基于 DeepSeek API 快速构建代码<b class='flag-5'>编辑器</b>

    《AI Agent 应用与项目实战》----- 学习如何开发视频应用

    学习、自然语言处理(NLP)、计算机视觉(CV)等先进技术提供的强大的数据处理和分析能力。 在视频应用开发中,AI Agent可以用于视频内容分析、推荐、编辑等。 下面跟随作者的指导,使用语聚AI平台
    发表于 03-05 19:52

    福昕软件国内版PDF编辑器成功接入DeepSeek模型

    近日,福昕软件在互动平台上宣布,其国内版PDF编辑器产品已经成功完成了DeepSeek模型的适配接入工作。这一举措标志着福昕软件在AI技术融合方面取得了重要进展,为用户提供了更加智能、高效的PDF
    的头像 发表于 02-19 09:28 1141次阅读

    阿里云通义万相2.1视频生成模型震撼发布

    。在复杂运动的表现上,该模型能够生成更加流畅、自然的视频内容,使得生成的视频在动态效果上更加逼真。同时,在物理规律的遵循方面,万相2.1也展现出了出色的能力,能够确保生成的
    的头像 发表于 01-13 10:00 1122次阅读

    基于移动自回归的时序扩散预测模型

    回归取得了比传统基于噪声的扩散模型更好的生成效果,并且获得了人工智能顶级会议 NeurIPS 2024 的 best paper。 然而在时间序列预测领域,当前主流的扩散方法还是传统的
    的头像 发表于 01-03 14:05 1646次阅读
    基于移动自回归的时序<b class='flag-5'>扩散</b>预测<b class='flag-5'>模型</b>

    OpenAI暂不推出Sora视频生成模型API

    OpenAI近日宣布,目前暂无推出其视频生成模型Sora的应用程序接口(API)的计划。Sora模型能够基于文本和图像生成视频,引发了广泛关注。然而,由于访问量远超预期,OpenAI此
    的头像 发表于 12-20 14:23 969次阅读

    Luma AI Ray 2视频模型即将发布

    近日,在2024年亚马逊云科技re:Invent全球大会上,Luma AI宣布了一个令人振奋的消息:其最新版Luma AI Ray 2视频模型即将面向广大消费者、专业人士及开发者开放。这款视频
    的头像 发表于 12-20 11:37 981次阅读