0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DVD-GAN机器人用AI生成高度逼真视频的一次重要的尝试

BFv1_robovideo 来源:陈年丽 2019-07-29 10:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,DeepMind的研究人员研发了一个名叫Dual Video Discriminator GAN(DVD-GAN)的人工智能模型,该模型通过能够通过学习一系列的YouTube视频数据集,生成高度逼真且连贯的256 x 256像素视频,最长可达48帧。

目前,DVD-GAN的研究成果已于美国时间2019年7月15日发表在arxiv上,名为《在复杂数据集上的高效视频生成(Efficient Video Generation on Complex Datasets)》。

AI造假视频比造假图片更难

最近,俄罗斯AI研究人员开发的FaceApp着实大火了一把,这款应用通过人工智能技术能够改变用户自拍照的年龄、外貌、发色和性别,甚至可以生成虚构的人物照片。这直接让人们近距离地感受了人工智能技术给我们的生活带来的乐趣。

但是否有人想过,有朝一日这些技术也能应用在视频领域呢?

如果说BigGAN是DeepMind在图像领域开发的能够生成高度逼真图像的图像生成器,那么DeepMind研究人员们开发的DVD-GAN,就是人工智能在视频剪辑生成领域的最新突破。

研究人员在论文中表示,生成自然视频对生成式建模来说是一个较大的挑战,同时还会受到数据复杂性和计算需求增加的困扰。

因此,之前业界的研究人员们在研究视频生成领域时,几乎都围绕着相对简单的数据集,或者采用有限的时间信息来降低任务的复杂程度。

而这次,DeepMind的研究人员们主要针对视频合成和视频预测的任务,将生成图像模型的强大功能和逼真效果扩展到视频领域。

DVD-GAN:基于BigGAN模型结构

研究人员们基于BigGAN的模型结构,构建了DVD-GAN的系统,并引入了一系列用于视频生成的调整,使DVD-GAN能够在Kinetics-600上进行训练。

Kinetics-600是一组由50万段10秒高分辨率的YouTube视频剪辑汇编而成的训练数据集,它最初是为识别人类动作而制作的,比目前其他常用的语料库还大一个数量级。

同时,研究人员们表示,Kinetics-600具有多样化特征,能消除他们对过拟合(Overfitting)的担忧。过拟合主要是指机器学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。

另一方面,DeepMind的研究人员们利用生成对抗以提供一个能生成动作的学习信号

此外,DVD-GAN还有一个单独的Transformer模块,它可以让学习信息在整合AI模型中传播。

训练12至96小时即可生成视频

研究论文表明,在经过Google第三代TPU训练了12至96个小时后,DVD-GAN可以成功地生成视频,这些视频内容包含了物体的组成和运动,以及各种复杂的纹理。

不足的是,DVD-GAN生成的视频内容有时较为“诡异”,例如生成的物体和人形奇形怪状,甚至人体忽长忽短地变化。

但研究人员指出,当把DVD-GAN放在UCF-101(一个包含13320个人类动作视频的较小数据集)上进行评估后,DVD-GAN生成的样本初始值最高为32.97。

DeepMind的研究人员们希望能进一步强调在大型复杂视频数据集上训练生成模型的好处,例如Kinetics-600。

“我们设想通过DVD-GAN在这个数据集上建立强大的基线,该基线将被用作未来建模生成领域的参考点。”研究人员表示,“尽管在不受约束的环境下持续生成逼真的视频还需要进行很多工作,但我们相信DVD-GAN是我们朝这个方向迈出的重要一步。”

网络(GANs)来区分生成样本和真实世界样本,该网络主要由生成器和判别器两部分组成。

GANs曾被应用在把文字转换成一幕幕的场景故事,或生成人造星系图像等任务中。而研究人员们这次使用的是名为BigGANs的生成对抗网络,该网络以大批量和数百万个参数而得名。

值得一提的是,DVD-GAN包含两个判别器。一个是空间判别器(Spatial Discriminator:D_S),该判别器通过随机采样全分辨率帧并单独处理,以评估单个帧的内容和结构;另一个是时间判别器(Temporal Discriminator:D_T),它可以提供一个能生成动作的学习信号。

此外,DVD-GAN还有一个单独的Transformer模块,它可以让学习信息在整合AI模型中传播。

结语:用AI生成高度逼真视频的一次尝试

不管是BigGAN还是FaceApp,以往的研究人员们在人工智能生成图像领域进行了许多具有突破性的研究,但在视频领域,除了AI换脸曾火了一把之外,并没有更多的突破性进展。

而DeepMind的研究人员们基于BigGAN架构和Kinetics-600训练数据集开发的DVD-GAN,利用计算高效的判别器分解,扩展到时间更长、分辨率更高的视频。就目前来说,虽然这一成果还有些许不足,但这无疑是研究人员们利用AI生成高度逼真视频的一次重要尝试。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • DVD
    DVD
    +关注

    关注

    3

    文章

    134

    浏览量

    63303
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261478

原文标题:[机器人频道|大事记]你担心的就要成真,AI换脸不算啥,现在新AI可生成逼真视频

文章出处:【微信号:robovideo,微信公众号:机器人频道】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    深圳人形机器人行走视频震惊英伟达科学家,下个划时代产品是AI机器人

    电子发烧友网报道(文/吴子鹏)日前,深圳特区报发布了则国产人形机器人行走的视频,该视频引起了包括英伟达高级AI研究科学家Jim Fan在内
    的头像 发表于 01-14 00:53 3691次阅读
    深圳人形<b class='flag-5'>机器人</b>行走<b class='flag-5'>视频</b>震惊英伟达科学家,下<b class='flag-5'>一</b>个划时代产品是<b class='flag-5'>AI</b><b class='flag-5'>机器人</b>?

    探索RISC-V在机器人领域的潜力

    应用,特别是机器人操作系统领域的可行性。MUSE Pi Pro以其强大的K1 AI CPU和官方对主流开源软件栈的积极适配,成为了个非常有吸引力的选择。 二、 硬件初窥:性能小钢炮 MUSE Pi Pro
    发表于 12-03 14:40

    普渡机器人与亚朵集团达成重要合作

    近日,全球领先的服务机器人企业普渡机器人宣布与亚朵集团达成重要合作,普渡的楼宇配送机器人“闪电匣” 正式上线亚朵集团供应商库,成为亚朵旗下酒店智能化升级的
    的头像 发表于 12-03 11:04 205次阅读

    生成AI如何变革机器人工作流程

    非常激动地和大家分享我们最近的些酷炫成果:我们正在利用生成AI,让机器人变得更加灵活,使用起来也更加便捷!
    的头像 发表于 12-02 15:06 575次阅读
    <b class='flag-5'>生成</b>式<b class='flag-5'>AI</b>如何变革<b class='flag-5'>机器人</b>工作流程

    RK3576机器人核心:三屏异显+八路摄像头,重塑机器人交互与感知

    更多"、"互动更流畅"是开发者面临的核心挑战。传统的单屏幕和有限的视觉输入已成为提升机器人智能化水平的瓶颈。而瑞芯微RK3576高性能处理器的出现
    发表于 10-29 16:41

    小萝卜机器人的故事

    代替, LED, 有大佬感兴趣, 起关注和讨论代码, 这个机器人知名度不高, 可是是机器人的原型, 如果开放接口, 定位和无线充电, 也不失为未来的礼物。 让我们为小萝卜工程师的, 自掏腰包救萝卜
    发表于 10-23 05:24

    工业机器人的特点

    机器人是关键。工业互联网是通过端上的数据传输,经过大数据分析和云计算处理,再进行智能化决策的整个过程,其中端的数据传输是基础。工业互联网的端包括机器人、传感器等切线下连接端口。因此
    发表于 07-26 11:22

    盘点#机器人开发平台

    地瓜机器人RDK X5开发套件地瓜机器人RDK X5开发套件产品介绍 旭日5芯片10TOPs算力-电子发烧友网机器人开发套件 Kria KR260机器人开发套件 Kria KR260-
    发表于 05-13 15:02

    大象机器人携手进迭时空推出 RISC-V 全栈开源六轴机械臂产品

    识别联调。 进迭时空致力于为智能机器人提供完整全栈优化的RISC-V AI软硬件解决方案,第代RISC-V AI CPU芯片K1已完成AI
    发表于 04-25 17:59

    AI Agent 应用与项目实战》阅读心得2——客服机器人、AutoGen框架 、生成式代理

    继续分享第2篇阅读心得。 传统客服系统在知识库更新和多轮对话管理方面存在诸多技术瓶颈,本书第3章中提出的AI课程客服机器人架构巧妙地解决了这些问题。该架构采用Replit作为开发环境
    发表于 02-25 21:59

    【「具身智能机器人系统」阅读体验】2.具身智能机器人的基础模块

    一次生成深度信息。 自主机器人定位任务的本质是对机器人自身状态的估计问题,包括位置,朝向,速度等问题。 路径规划旨在找到从起点到目标区域的路径,确保路径的可行性和最优性。路径规划方法包括变分方法,图搜
    发表于 01-04 19:22

    开源项目!能够精确地行走、跳舞和执行复杂动作的机器人—Tillu

    的语音识别系统响应语音指令 为什么打造Tillu? 打造Tillu不仅是个项目,更是一次学习体验。通过深入探索机器人技术、编程细节以及自定义动作和表情,释放你的创造力。无论你是学生、爱好者还是创
    发表于 01-02 17:24

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    指令和当前机器人静态图像,生成段预测的未来状态视频。从这些预测视频中,可以提取机器人的位姿信息
    发表于 12-29 23:04

    【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

    重大数据瓶颈的严重阻碍。与主要由用户生成的输入组成且相对容易收集和汇总的 Internet 数据不同,EAI 的数据涉及机器人与其动态环境之间的复杂交互。这根本差异意味着,虽然可以从跨数字平台的用户
    发表于 12-24 00:33

    《具身智能机器人系统》第1-6章阅读心得之具身智能机器人系统背景知识与基础模块

    要给AI这个聪明的“头脑”装上副“身体”。这个“身体”可以是部手机,可以是台自动驾驶汽车。而人形机器人则是集各类核心尖端技术于
    发表于 12-19 22:26