0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌推出能一次生成完整视频的扩散模型

微云疏影 来源:综合整理 作者:综合整理 2024-01-29 11:14 次阅读

谷歌研究院近日发布了一款名为Lumiere的文生视频扩散模型,基于自家研发的Space-Time U-Net基础架构,独立生成具有高效、完整且动作连贯性的视频效果。

公司指出,当前众多文生视频模型普遍存在无法生成长时、高品质及动作连贯的问题。这些模型往往采用“分段生成视频”策略,即先生成少量关键帧,再借助时间超级分辨率(TSM)技术生成其间的视频文件。尽管此策略可减缓RAM负担,但难以生成理想的连续视频效果。

针对此问题,谷歌的Lumiere模型创新地引入了新型Space-Time U-Net基础架构,这种架构能在空间和时间两个维度同时降低信号采样率,使其具备更高的计算效率,进而实现生成更具持续性、动作连贯的视频效果。

此外,开发者们特别说明,Lumiere每次可生成80帧视频(在16FPS模式下相当于5秒视频,或在24FPS模式下为约3.34秒视频)。尽管这一时光貌似短暂,然而他们强调,事实上,这段5秒视频所包含的镜头时长已超出大多数媒体作品中单一镜头的平均时长。

除运用架构创新以外,作为AI构建基础的预训练文生图像模型也得到了谷歌团队的特别关注。该模型首次生成简单像素草稿作为视频分帧,然后借助空间超分辨率(SRM)模型,逐步提高分帧分辨率,同时引入通用生成框架Multi-Diffusion以增强模型稳定性,从而确保最终输出的视频效果一致且连续。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5861

    浏览量

    103266
  • RAM
    RAM
    +关注

    关注

    7

    文章

    1322

    浏览量

    113707
  • AI
    AI
    +关注

    关注

    87

    文章

    26459

    浏览量

    264079
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47696
收藏 人收藏

    评论

    相关推荐

    谷歌模型合成软件有哪些

    谷歌模型合成软件通常指的是谷歌提供的用于创建、修改和共享3D模型的软件。目前,谷歌推出
    的头像 发表于 02-29 18:20 895次阅读

    谷歌模型合成工具怎么用

    谷歌模型合成工具主要是指Dreamfusion,这是Google的大型AI图像模型Imagen与NeRF的3D功能相结合的一种技术。Dreamfusion是Dream Fields的演变,Dream Fields是
    的头像 发表于 02-29 17:33 389次阅读

    谷歌交互世界模型重磅发布

    谷歌模型
    北京中科同志科技股份有限公司
    发布于 :2024年02月28日 09:13:06

    sora模型中国可以使用吗 sora模型是哪个公司

    。 Sora是一种扩散模型,具备从噪声中生成完整视频的能力,它生成
    的头像 发表于 02-22 16:52 1748次阅读

    sora如何使用 sora是什么软件

    Sora是一种扩散模型,具备从噪声中生成完整视频的能力,它生成
    的头像 发表于 02-21 17:20 1542次阅读

    OpenAI新年开出王炸,视频生成模型Sora问世

    近日,OpenAI在AI生成视频领域取得重大突破,发布了全新的生成式人工智能模型“Sora”。该模型
    的头像 发表于 02-20 11:46 379次阅读

    OpenAI发布文生视频模型Sora,引领AI视频生成新纪元

    在人工智能(AI)领域掀起新一轮革命浪潮的,正是OpenAI最新推出的文生视频模型——Sora。这款被业界广泛赞誉的模型,以其“逼真”和“富有想象力”的
    的头像 发表于 02-19 11:03 446次阅读

    OpenAI发布首个视频生成模型Sora

    OpenAI近日宣布推出其全新的文本到视频生成模型——Sora。这一突破性的技术将视频创作带入了一个全新的纪元,为用户提供了前所未有的创作可能性。
    的头像 发表于 02-18 10:07 599次阅读

    谷歌推出AI扩散模型Lumiere

    近日,谷歌研究院重磅推出全新AI扩散模型Lumiere,这款模型基于谷歌自主研发的“Space-
    的头像 发表于 02-04 13:49 594次阅读

    基于DiAD扩散模型的多类异常检测工作

    现有的基于计算机视觉的工业异常检测技术包括基于特征的、基于重构的和基于合成的技术。最近,扩散模型因其强大的生成能力而闻名,因此本文作者希望通过扩散
    的头像 发表于 01-08 14:55 422次阅读
    基于DiAD<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的多类异常检测工作

    如何在PyTorch中使用扩散模型生成图像

    除了顶尖的图像质量,扩散模型还带来了许多其他好处,包括不需要对抗性训练。对抗训练的困难是有据可查的。在训练效率的话题上,扩散模型还具有可伸缩性和并行性的额外好处。
    发表于 11-22 15:51 336次阅读
    如何在PyTorch中使用<b class='flag-5'>扩散</b><b class='flag-5'>模型</b><b class='flag-5'>生成</b>图像

    DDFM:首个使用扩散模型进行多模态图像融合的方法

    近来去噪扩散概率模型 Denoising diffusion probabilistic model (DDPM)在图像生成中获得很多进步,通过对一张noise-corrupted图像恢复为干净图像的
    的头像 发表于 09-19 16:02 1571次阅读
    DDFM:首个使用<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>进行多模态图像融合的方法

    如何加速生成2 PyTorch扩散模型

    加速生成2 PyTorch扩散模型
    的头像 发表于 09-04 16:09 821次阅读
    如何加速<b class='flag-5'>生成</b>2 PyTorch<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>

    基于扩散模型的图像生成过程

    等很难用文本指定。   最近,谷歌发布了MediaPipe Diffusion插件,可以在移动设备上运行「可控文本到图像生成」的低成本解决方案,支持现有的预训练扩散模型及其低秩自适应(
    的头像 发表于 07-17 11:00 2110次阅读
    基于<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的图像<b class='flag-5'>生成</b>过程

    基于文本到图像模型的可控文本到视频生成

    1. 论文信息 2. 引言   大规模扩散模型在文本到图像合成方面取得了巨大的突破,并在创意应用方面取得了成功。一些工作试图在视频领域复制这个成功,即在野外世界建模高维复杂视频分布。然
    的头像 发表于 06-14 10:39 587次阅读
    基于文本到图像<b class='flag-5'>模型</b>的可控文本到<b class='flag-5'>视频生成</b>