0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌研究人员利用3D卷积网络打造视频生成新系统

DPVg_AI_era 来源:lq 2019-06-02 09:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

谷歌研究人员利用3D卷积网络打造视频生成新系统,只需要视频的第一帧和最后一帧,就能生成完整合理的整段视频,是不是很神奇?

漫画书秒变动画片了解一下?

想象一下,现在你的手中有一段视频的第一帧和最后一帧图像,让你负责把中间的图像填进去,生成完整的视频,从现有的有限信息中推断出整个视频。你能做到吗?

这可能听起来像是一项不可能完成的任务,但谷歌人工智能研究部门的研究人员已经开发出一种新系统,可以由视频第一帧和最后一帧生成“似是而非的”视频序列,这个过程被称为“inbetween”。

“想象一下,如果我们能够教一个智能系统来将漫画自动变成动画,会是什么样子?如果真实现了这一点,无疑将彻底改变动画产业。“该论文的共同作者写道。“虽然这种极其节省劳动力的能力仍然超出目前最先进的水平,但计算机视觉机器学习技术的进步正在使这个目标的实现越来越接近。”

原理与模型结构

这套AI系统包括一个完全卷积模型,这是是受动物视觉皮层启发打造的深度神经网络,最常用于分析视觉图像。它由三个部分组成:2D卷积图像解码器,3D卷积潜在表示生成器,以及视频生成器。

图1:视频生成模型示意图

图像解码器将来自目标视频的帧映射到潜在空间,潜在表示生成器学习对包含在输入帧中的信息进行合并。最后,视频生成器将潜在表示解码为视频中的帧。

研究人员表示,将潜在表示生成与视频解码分离对于成功实现中间视频至关重要,直接用开始帧和结束帧的编码表示生成视频的结果很差。为了解决这个问题,研究人员设计了潜在表示生成器,对帧的表示进行融合,并逐步增加生成视频的分辨率。

图2:模型生成的视频帧序列图,对于每个数据集上方的图表示模型生成的序列,下方为原视频,其中首帧和尾帧用于生成模型的采样。

实验结果

为了验证该方法,研究人员从三个数据集中获取视频 - BAIR机器人推送,KTH动作数据库和UCF101动作识别数据集 - 并将这些数据下采样至64 x 64像素的分辨率。每个样本总共包含16帧,其中的14帧由AI系统负责生成。

研究人员为每对视频帧运行100次模型,并对每个模型变量和数据集重复10次,在英伟达Tesla V100显卡平台上的训练时间约为5天。结果如下表所示:

表1:我们报告了完整模型和两个基线的平均FVD,对每个模型和数据集重复10次,每次运行100个epoch,表中FVD值越低,表示对应生成视频的质量越高。

表2:使用直接3D卷积和基于的替代方法的模型的平均SSIM

RNN(SDVI)或光流(SepConv和SuperSloMo),数值越高越好。

研究人员表示,AI生成的视频帧序列在风格上与给定的起始帧和结束帧保持一致,而且看上去说得通。“令人惊喜的是,这种方法可以在如此长的时间段内实现视频生成,”该团队表示,“这可能给未来的视频生成技术研究提供了一个有用的替代视角。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1225

    浏览量

    43753
  • 谷歌
    +关注

    关注

    27

    文章

    6257

    浏览量

    111941
  • 智能系统
    +关注

    关注

    2

    文章

    421

    浏览量

    74344

原文标题:谷歌AI动画接龙:只用头尾两帧图像,片刻生成完整视频!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    倍加福基于双目视觉技术的SmartRunner 3D传感器介绍

    当我们迈入自动化的“三维时代”,SmartRunner Explorer 3D不仅能生成清晰的2D图像,还可输出高精度的3D点云数据。
    的头像 发表于 04-08 10:39 290次阅读
    倍加福基于双目视觉技术的SmartRunner <b class='flag-5'>3D</b>传感器介绍

    3D系统可视化

    本身的深入描述和F-Theta透镜的应用示例。 光学系统3D-可视化 VirtualLab Fusion提供的工具可以实现光学系统3D可视化,因此可以用于检查元件的位置,以及快速了
    发表于 03-30 09:25

    NVIDIA和ComfyUI携手简化本地AI视频生成工作流

    借助 ComfyUI 的应用视图、NVIDIA RTX Video 超分辨率和全新的 NVFP4 模型,AI 驱动的视频生成更加易用。
    的头像 发表于 03-14 16:37 2469次阅读
    NVIDIA和ComfyUI携手简化本地AI<b class='flag-5'>视频生成</b>工作流

    2D材料3D集成实现光电储备池计算

    先进材料与三维集成技术的结合为边缘计算应用带来了新的可能性。本文探讨研究人员如何通过单片3D集成方式将硒化铟光电探测器与二硫化钼忆阻晶体管结合,实现传感器与计算单元之间物理距离小于50纳米的紧密集成[1]。
    的头像 发表于 02-02 15:58 439次阅读
    2<b class='flag-5'>D</b>材料<b class='flag-5'>3D</b>集成实现光电储备池计算

    技术资讯 I 多板系统 3D 建模,提升设计精度和性能

    本文要点了解3D建模流程。洞悉多板系统3D建模如何提高设计精度、性能和成本效益。掌握3D建模在制造工艺中的优势。在PCBA领域,仿真与建模是实现精准高效设计的基石。在量产前构建并复用原
    的头像 发表于 11-21 17:45 2636次阅读
    技术资讯 I 多板<b class='flag-5'>系统</b> <b class='flag-5'>3D</b> 建模,提升设计精度和性能

    全球首个动漫专属AI视频生成平台Animon,国内版&quot;萌动AI&quot;正式发布

    Animon国内版——"萌动AI"首秀:AI动漫创作进入全民时代 北京2025年9月25日 /美通社/ -- CreateAI(OTC:TSPH)今日宣布,其打造的全球首个专注于动漫的AI视频生成
    的头像 发表于 09-25 12:33 1309次阅读

    玩转 KiCad 3D模型的使用

    “  本文将带您学习如何将 3D 模型与封装关联、文件嵌入,讲解 3D 查看器中的光线追踪,以及如何使用 CLI 生成 PCBA 的 3D 模型。  ”   在日常的 PCB 设计中,
    的头像 发表于 09-16 19:21 1.2w次阅读
    玩转 KiCad <b class='flag-5'>3D</b>模型的使用

    索尼与VAST达成3D业务合作

    与Tripo AI的高精度3D生成能力,打造从内容创作到沉浸式展示的全链路解决方案。此次合作将推动3D技术在展览、零售、教育等场景的普惠化应用,同时也将为元宇宙、工业设计、数字孪生等领
    的头像 发表于 08-28 17:32 1672次阅读

    生成式 AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成式AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等长尾场景?本文为您
    的头像 发表于 08-06 11:20 5360次阅读
    <b class='flag-5'>生成</b>式 AI 重塑自动驾驶仿真:4<b class='flag-5'>D</b> 场景<b class='flag-5'>生成</b>技术的突破与实践

    TechWiz LCD 3D应用:FFS仿真

    建模任务 堆栈结构 建模过程 2.1使用TechWiz Layout绘制各层掩模版平面图 2.2创建堆栈结构,并生成3D结构 2.3 使用TechWiz LCD 3D进行各项参数计算 3
    的头像 发表于 07-14 14:08 881次阅读
    TechWiz LCD <b class='flag-5'>3D</b>应用:FFS仿真

    无刷直流电机双闭环串级控制系统仿真研究

    以来伴随着永磁材料技术、计算机及控制技术等支撑技术的快速发展及微电机制造工艺水平的不断提高,永磁无刷直流电动机在高性能中、小伺服驱动领域获得广泛应用并日趋占据主导地位吗。一直以来,研究人员都比较关注利用
    发表于 07-07 18:36

    4K、多模态、长视频:AI视频生成的下一个战场,谁在领跑?

    电子发烧友网报道(文/李弯弯) 6月11日,豆包App上线视频生成模型豆包Seedance 1.0 pro。这是字节跳动最新视频模型,支持文字与图片输入,可生成多镜头无缝切换的1080P高品质
    的头像 发表于 06-16 00:13 7528次阅读

    3D AD库文件

    3D库文件
    发表于 05-28 13:57 6次下载

    VirtualLab Fusion应用:3D系统可视化

    描述和F-Theta透镜的应用示例。 光学系统3D-可视化 VirtualLab Fusion提供的工具可以实现光学系统3D可视化,因此可以用于检查元件的位置,以及快速了解
    发表于 04-30 08:47

    NVIDIA助力影眸科技3D生成工具Rodin升级

    在当今数字化与 AI 飞速发展的时代,3D 生成技术正逐渐成为推动各行业创新的关键力量。影眸科技(上海)有限公司专注于 3D 生成领域的探索,积极推动领先实验室科研成果的民用化、商业化
    的头像 发表于 04-27 15:09 1450次阅读