谷歌研究院近日发布了一款名为Lumiere的文生视频扩散模型,基于自家研发的Space-Time U-Net基础架构,独立生成具有高效、完整且动作连贯性的视频效果。
该公司指出,当前众多文生视频模型普遍存在无法生成长时、高品质及动作连贯的问题。这些模型往往采用“分段生成视频”策略,即先生成少量关键帧,再借助时间超级分辨率(TSM)技术生成其间的视频文件。尽管此策略可减缓RAM负担,但难以生成理想的连续视频效果。
针对此问题,谷歌的Lumiere模型创新地引入了新型Space-Time U-Net基础架构,这种架构能在空间和时间两个维度同时降低信号采样率,使其具备更高的计算效率,进而实现生成更具持续性、动作连贯的视频效果。
此外,开发者们特别说明,Lumiere每次可生成80帧视频(在16FPS模式下相当于5秒视频,或在24FPS模式下为约3.34秒视频)。尽管这一时光貌似短暂,然而他们强调,事实上,这段5秒视频所包含的镜头时长已超出大多数媒体作品中单一镜头的平均时长。
除运用架构创新以外,作为AI构建基础的预训练文生图像模型也得到了谷歌团队的特别关注。该模型首次生成简单像素草稿作为视频分帧,然后借助空间超分辨率(SRM)模型,逐步提高分帧分辨率,同时引入通用生成框架Multi-Diffusion以增强模型稳定性,从而确保最终输出的视频效果一致且连续。
-
谷歌
+关注
关注
27文章
6245浏览量
110264 -
RAM
+关注
关注
8文章
1398浏览量
119831 -
AI
+关注
关注
89文章
38135浏览量
296732 -
模型
+关注
关注
1文章
3649浏览量
51716
发布评论请先 登录
一种基于扩散模型的视频生成框架RoboTransfer
谷歌新一代生成式AI媒体模型登陆Vertex AI平台
4K、多模态、长视频:AI视频生成的下一个战场,谁在领跑?
一次消谐装置与二次消谐装置区别、一次消谐器与二次消谐器的区别
字节跳动即将推出多模态视频生成模型OmniHuman
谷歌 Gemini 2.0 Flash 系列 AI 模型上新
一次性锂电池为什么不能充电?一文讲清!
阿里云通义万相2.1视频生成模型震撼发布
基于移动自回归的时序扩散预测模型
借助谷歌Gemini和Imagen模型生成高质量图像
Google两款先进生成式AI模型登陆Vertex AI平台
OpenAI暂不推出Sora视频生成模型API
Lightricks与Shutterstock携手,推动开源LTXV视频人工智能生成式视频模型发展

谷歌推出能一次生成完整视频的扩散模型
评论