0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

扩散模型在视频领域表现如何?

新机器视觉 来源:机器之心 作者:机器之心 2022-04-13 10:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

扩散模型正在不断的「攻城略地」。

扩散模型并不是一个崭新的概念,早在2015年就已经被提出。其核心应用领域包括音频建模、语音合成、时间序列预测、降噪等。

那么它在视频领域表现如何?先前关于视频生成的工作通常采用诸如GAN、VAE、基于流的模型。

在视频生成领域,研究的一个重要里程碑是生成时间相干的高保真视频。来自谷歌的研究者通过提出一个视频生成扩散模型来实现这一里程碑,显示出非常有希望的初步结果。本文所提出的模型是标准图像扩散架构的自然扩展,它可以从图像和视频数据中进行联合训练,研究发现这可以减少小批量梯度的方差并加快优化速度。

为了生成更长和更高分辨率的视频,该研究引入了一种新的用于空间和时间视频扩展的条件采样技术,该技术比以前提出的方法表现更好。

30908a38-ba83-11ec-aa7f-dac502259ad0.png

论文地址:https://arxiv.org/pdf/2204.03458.pdf

论文主页:https://video-diffusion.github.io/

研究展示了文本条件视频生成的结果和无条件视频生成基准的最新结果。例如生成五彩斑斓的烟花:

30a02fc4-ba83-11ec-aa7f-dac502259ad0.gif

其他生成结果展示:

30c6b572-ba83-11ec-aa7f-dac502259ad0.gif

这项研究有哪些亮点呢?首先谷歌展示了使用扩散模型生成视频的首个结果,包括无条件和有条件设置。先前关于视频生成的工作通常采用其他类型的生成模型,如 GAN、VAE、基于流的模型和自回归模型。

其次该研究表明,可以通过高斯扩散模型的标准公式来生成高质量的视频,除了直接的架构更改以适应深度学习加速器的内存限制外,几乎不需要其他修改。该研究训练生成固定数量的视频帧块的模型,并且为了生成比该帧数更长的视频,他们还展示了如何重新调整训练模型的用途,使其充当对帧进行块自回归的模型。

方法介绍

图像扩散模型中31a1e930-ba83-11ec-aa7f-dac502259ad0.png的标准架构是U-Net,它是一种被构造为空间下采样通道的神经网络架构,空间上采样通道紧随其后,其中残差连接到下采样通道激活。这种神经网络由2D卷积残差块的层构建而成,并且每个这种卷积块的后面是空间注意力块。

研究者建议将这一图像扩散模型架构扩展至视频数据,给定了固定数量帧的块,并且使用了在空间和时间上分解的特定类型的 3D U-Net。

首先,研究者通过将每个 2D卷积改成space-only 3D卷积对图像模型架构进行修改,比如将每个3x3卷积改成了1x3x3卷积,即第一个轴(axis)索引视频帧,第二和第三个索引空间高度和宽度。每个空间注意力块中的注意力仍然为空间上的注意力,也即第一个轴被视为批处理轴(batch axis)。

其次,在每个空间注意力块之后,研究者插入一个时间注意力块,它在第一个轴上执行注意力并将空间轴视为批处理轴。他们在每个时间注意力块中使用相对位置嵌入,如此网络不需要绝对视频时间概念即可区分帧的顺序。3D U-Net 的模型架构可视图如下所示。

31acf762-ba83-11ec-aa7f-dac502259ad0.png

我们都知道,得益于分解时空注意力的计算效率,在视频transformers中使用它是一个很好的选择。研究者使用的分解时空架构是自身视频生成设置独有的,它的一大优势是可以直接 mask 模型以在独立图像而非视频上运行,其中只需删除每个时间注意力块内部的注意力操作并修复注意力矩阵以在每个视频时间步精确匹配每个键和问询向量。

这样做的好处是允许联合训练视频和图像生成的模型。研究者在实验中发现,这种联合训练对样本质量非常重要。

新颖的条件生成梯度方法

研究者的主要创新是设计了一种新的、用于无条件扩散模型的条件生成方法,称之为梯度方法,它修改了模型的采样过程以使用基于梯度的优化来改进去噪数据上的条件损失。他们发现,梯度方法比现有方法更能确保生成样本与条件信息的一致性。

研究者使用该梯度方法将自己的模型自回归地扩展至更多的时间步和更高的分辨率。

下图左为利用梯度方法的视频帧,图右为利用自回归扩展基线替代(replacement)方法的帧。可以看到,使用梯度方法采用的视频比基线方法具有更好的时间相干性。

31baddd2-ba83-11ec-aa7f-dac502259ad0.png

实验结果

研究者对无条件、文本-条件视频生成模型进行了评估。文本-条件视频生成是在一个包含 1000 万个字幕视频数据集上进行训练,视频空间分辨率为 64x64 ;对于无条件视频生成,该研究在现有基准 [36] 上训练和评估模型。

无条件视频建模该研究使用 Soomro 等人[36]提出的基准对无条件视频生成模型进行评估。表 1 展示了该研究所提模型生成的视频的感知质量得分,并与文献中的方法进行了比较,发现本文方法大大提高了SOTA。

31d7767c-ba83-11ec-aa7f-dac502259ad0.png

视频、图像模型联合训练:表 2 报告了针对文本-条件的 16x64x64 视频的实验结果。

31eaf116-ba83-11ec-aa7f-dac502259ad0.png

无分类器指导的效果:表3 表明无分类器指导 [13] 在文本-视频生成方面的有效性。正如预期的那样,随着指导权重的增加,类 Inception Score 的指标有明显的改进,而类 FID 的指标随着引导权重的增加先改善然后下降。

表 3 报告的结果验证了无分类器指导 [13] 在文本-视频生成方面的有效性。正如预期的那样,随着引导权重的增加,类 Inception Score (IS)的指标有明显的改进,而类 FID 的指标随着引导权重的增加先改善然后下降。这一现象在文本-图像生成方面也有类似的发现[23]。

31fa1d94-ba83-11ec-aa7f-dac502259ad0.png

图 3 显示了无分类器指导 [13] 对文本-条件视频模型的影响。与在文本条件图像生成 [23] 和类条件图像生成 [13, 11] 上使用无分类器指导的其他工作中观察到的类似,添加指导提高了每个图像的样本保真度。

3209e472-ba83-11ec-aa7f-dac502259ad0.png

针对较长序列的自回归视频扩展:3.1节提出了基于扩散模型的条件采样梯度法,这是对[35]中替换方法的改进。表4展示了使用这两种技术生成较长视频的结果,由结果可得本文提出的方法在感知质量分数方面确实优于替换方法。

3237c806-ba83-11ec-aa7f-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 视频
    +关注

    关注

    6

    文章

    2017

    浏览量

    75235
  • GaN
    GaN
    +关注

    关注

    21

    文章

    2391

    浏览量

    84921
  • 模型
    +关注

    关注

    1

    文章

    3873

    浏览量

    52337

原文标题:视频生成无需GAN、VAE,谷歌用扩散模型联合训练视频、图像,实现新SOTA

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    联影智能发布、开源医疗视频理解大模型 邀全球开发者共探技术上限

    近日,联影智能在GitHub、Hugging face等国际知名开发者平台正式发布全球规模最大、性能最强的医疗视频理解大模型——元智医疗视频理解大模型(uAI-NEXUS-MedVLM
    的头像 发表于 05-06 14:40 262次阅读

    AI大模型微调企业项目实战课

    成长为该领域的资深专家。通过将企业积累的高质量业务问答对、专业文档输入给模型,调整其内部的极小部分参数,就能让模型保持原有通用能力的基础上,精准掌握企业的特定语感和输出规范。这不仅将
    发表于 04-16 18:48

    Firefly-RK1828 赋能视频模型:多目标+全场景,引领智能分析新风向

    如今,视频分析领域,传统检测模型存在这一局限:单个模型只能聚焦单一目标检测,面对复杂场景中多样的检测需求时,往往需要多套
    的头像 发表于 04-15 16:35 1364次阅读
    Firefly-RK1828 赋能<b class='flag-5'>视频</b>大<b class='flag-5'>模型</b>:多目标+全场景,引领智能分析新风向

    杭晶电子差分晶振产品视频领域的应用

    随着高清视频、4K/8K显示以及视频会议、直播等应用的快速发展,视频设备对时钟信号的稳定性、低抖动和高频率要求不断提高。差分晶振因其独特的技术优势,逐渐
    的头像 发表于 12-24 11:40 1060次阅读
    杭晶电子差分晶振产品<b class='flag-5'>在</b><b class='flag-5'>视频</b><b class='flag-5'>领域</b>的应用

    Termux手机摄像头采集图像/视频流 部署 YOLO 模型推理

    Termux手机摄像头采集图像/视频流 部署 YOLO 模型推理
    的头像 发表于 12-14 07:26 3434次阅读

    探索RISC-V机器人领域的潜力

    SLAM等轻量级算法时表现出了不错的性能,CPU占用率可接受范围内。整个系统响应及时,证明了MUSE Pi Pro完全有能力作为小型移动机器人的“大脑”。 四、 其他功能浅尝 • AI模型部署
    发表于 12-03 14:40

    物质扩散与污染物监测系统软件:多领域环境守护的智能中枢

    物质扩散与污染物监测系统
    的头像 发表于 08-25 16:26 609次阅读

    国产主板耐用性和可靠性上有哪些具体表现

    国产主板耐用性和可靠性上有着诸多令人瞩目的具体表现不同领域发挥着关键作用。
    的头像 发表于 07-22 18:21 1314次阅读

    AI视频分析化工领域的应用和开发

    AI视频分析化工领域的应用正深刻改变这一高风险行业的安全生产模式,通过智能视觉技术实现从“人防”到“技防”的升级。以下是关键技术落地场景及实施案例:   一、核心应用场景 1. 人员安全管
    的头像 发表于 07-22 11:47 1120次阅读

    百度重磅发布!全球首创中文音视频模型

    电子发烧友网综合报道 2025年7月2日,百度北京正式发布全球首个中文音视频一体化生成模型——MuseSteamer,标志着其正式进军图生视频领域
    的头像 发表于 07-11 09:18 4697次阅读

    一种基于扩散模型视频生成框架RoboTransfer

    机器人操作领域,模仿学习是推动具身智能发展的关键路径,但高度依赖大规模、高质量的真实演示数据,面临高昂采集成本与效率瓶颈。仿真器虽提供了低成本数据生成方案,但显著的“模拟到现实”(Sim2Real)鸿沟,制约了仿真数据训练策略的泛化能力与落地应用。
    的头像 发表于 07-09 14:02 997次阅读
    一种基于<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的<b class='flag-5'>视频</b>生成框架RoboTransfer

    无法使用OpenVINO™ GPU 设备上运行稳定扩散文本到图像的原因?

    OpenVINO™ GPU 设备上使用图像大小 (1024X576) 运行稳定扩散文本到图像,并收到错误消息: RuntimeError: Exception from
    发表于 06-25 06:36

    模型半导体行业的应用可行性分析

    的应用,比如使用机器学习分析数据,提升良率。 这一些大模型是否真的有帮助 能够解决工程师的知识断层问题 本人纯小白,不知道如何涉足这方面 应该问什么大模型比较好,或者是看什么视频能够
    发表于 06-24 15:10

    4K、多模态、长视频:AI视频生成的下一个战场,谁在领跑?

    电子发烧友网报道(文/李弯弯) 6月11日,豆包App上线视频生成模型豆包Seedance 1.0 pro。这是字节跳动最新视频模型,支持文字与图片输入,可生成多镜头无缝切换的1080
    的头像 发表于 06-16 00:13 7635次阅读

    明远智睿SSD2351开发板:视频监控领域的卓越之选

    随着安全防范意识的提高,视频监控各个领域得到了广泛应用。明远智睿SSD2351开发板凭借其出色的性能和特性,成为视频监控领域的卓越之选,为
    发表于 05-30 10:24