0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

字节跳动推出一款颠覆性视频模型—Boximator

jf_WZTOguxH 来源:Boximator论文 2024-02-20 13:44 次阅读

来源|AIGC开放社区

在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。

与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

例如,下雨天,大风把一位女生的雨伞吹走了。目前,很少有视频模型能精准做到这一点。

Boximator 案例赏析

我们先看一下 Boximator 与 Gen-2、Pink1.0,在使用相同的文本提示词、图像生成的视频,所表现出来的不同动作。

为了方便观察,「AIGC 开放社区」将对比视频整合在一起,最左边的是 Boximator 生成的视频。

一个可爱的 3D 男孩站着,然后走路

在这个案例中,Pika 1.0 生成的视频男孩只是站着没有走动,Gen-2 的视频走动了但不明显,只有 Boximator 产生了明显的走动动作。

一位英俊的男人用他的右手从口袋里拿出一朵玫瑰,并且在看着这朵玫瑰

这个案例 Pika 1.0 和 Gen-2 表现的都非常不好,男士没有掏出玫瑰花的动作。Boximator 再一次完美理解文本语义并做出了相应的动作。

往杯子里加红酒

这个案例主要展示了控制物体动作的能力,Pika 1.0 和 Gen-2 都做出了倒酒的动作,但是杯子里的酒没有明显上升的动作。只有 Boximator 做到了倒酒 + 上升两个动作。

看了这 3 个案例,能感受到 Boximator 对文本语义精准理解,以及对动作控制的强大功能了吧。

Boximator 模型介绍

为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。

硬框:可精确定义目标对象的边界框。用户可以在图片中画出感兴趣的对象,Boximator 会将其视为硬框约束, 在之后的帧中精准定位该对象的位置。

22fcfe7e-cfb2-11ee-a297-92fbcf53809c.png

软框:软框定义一个对象可能存在的区域, 形成一个宽松的边界框。对象需要停留在这个区域内, 但位置可以有一定变化,实现适度的随机性。

两类框都包含目标对象的 ID, 用于在不同帧中跟踪同一对象。此外, 框还包含坐标、类型等信息的编码。

控制模块和训练策略

控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

框编码器:将框的坐标、ID、类型等信息, 通过 Fourier 编码和 MLP 映射为控制向量。

自注意力层:将框的控制向量与视频帧的视觉向量通过自注意力建模其关系, 学习将框指导帧生成。

训练策略方面,Boximator 主要分为两个阶段: 自跟踪阶段,训练模型的同时生成视频内容和对应的框,并简化框与对象的关系学习。

正常训练,训练模型只生成视频内容, 框的内在表达已经学会指导对象生成。此外, 训练还使用多阶段策略,逐步过渡从硬框到软框的约束, 以及适当融合无框数据。

Boximator 实验数据

为获得视频训练数据, 研究人员从 WebVid-10M 数据集中,过滤出 110 万段动态明显的视频片段, 并自动为其注释了 220 万个对象的边界框。并在 PixelDance 和 ModelScope 这两个模型上训练了 Boximator。

实验数据显示,Boximator 在保持原模型视频质量, 具有非常强大的动作控制能力。同时可以作为一种插件,帮助现有视频扩散模型提升生成质量。

在 MSR-VTT 数据集上, 无论是视频质量还是框与对象对齐精度方面,Boximator 都优于原模型。在人类评估中,Boximator 生成的视频也在质量和运动控制上明显超过原模型。

239eb6ce-cfb2-11ee-a297-92fbcf53809c.png

字节跳动的研究人员表示,目前该模型处于研发阶段,预计 2-3 个月内发布测试网站。让我们期待一下国内挑战 Sora 的产品诞生吧!




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 字节跳动
    +关注

    关注

    0

    文章

    266

    浏览量

    8726
  • Sora
    +关注

    关注

    0

    文章

    73

    浏览量

    129

原文标题:字节跳动推出颠覆性文生视频模型,可自由控制动作!

文章出处:【微信号:AI前线,微信公众号:AI前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    字节跳动加速AI布局,Flow部门吸引百度阿里人才

    去年11月,字节跳动宣布成立新部门Flow,专注于AI大模型应用层的研发。该部门隶属于字节跳动产品研发与工程部(PDI),目前下设四大业务线
    的头像 发表于 03-26 11:46 394次阅读

    字节跳动发布AI角色互动应用“话炉”,涉足AI社交赛道

     值得注意的是,字节跳动CEO梁汝波在2024年度全体会议上指出,尽管字节跳动在2023年才初步涉足GPT领域,然而同期众多先进的大模型创业
    的头像 发表于 03-25 16:40 586次阅读

    字节跳动开启新一轮期权回购

    字节跳动最近进行了新的期权回购,这次回购的价格对于现任员工和离职员工有所区别。据消息透露,现任员工的回购价格为170美元/股,而离职员工的回购价格则为145美元/股。这种差别待遇引发了外界的关注和讨论,但是字节
    的头像 发表于 03-07 10:04 287次阅读

    字节跳动被曝正秘密研发多个AI产品

    据多位知情人士透露,科技巨头字节跳动正在人工智能(AI)大模型领域秘密研发多个创新产品。其中,多模态数字人产品备受瞩目,该产品将结合先进的AI技术与虚拟形象,为用户提供全新的交互体验。此外,
    的头像 发表于 03-05 11:22 439次阅读

    字节跳动「突袭」交换机!

    因为字节跳动自研交换机,早在2019年,就开始悄悄布局了。
    的头像 发表于 02-26 15:34 423次阅读
    <b class='flag-5'>字节</b><b class='flag-5'>跳动</b>「突袭」交换机!

    字节跳动澄清未推出中文版Sora

    近日,有传闻称字节跳动在Sora文生视频模型发布之前,已经推出一款名为
    的头像 发表于 02-20 13:58 321次阅读

    字节跳动推出创新视频模型Boximator,实现精确操控人物或物体动作

    针对 Boximator 的相关问题,字节跳动方回应指出,这只是视频生成对象移动技术方法的研究项目,暂不可能成为完整可用的产品。相比国外优秀的视频
    的头像 发表于 02-20 13:49 193次阅读

    字节跳动推出AI聊天机器人Coze扣子

    近日,字节跳动正式推出了名为“Coze扣子”的AI聊天机器人开发平台。自2月1日起,这一平台已正式上线,为开发者和用户提供了一个全新的交互体验。
    的头像 发表于 02-03 09:31 758次阅读

    字节跳动否认借助OpenAI技术研发大模型,已删除GPT生成数据

    据悉,有媒体曝光,字节跳动可能涉足未公开地使用OpenAI技术来开发自家的大规模语言模型,这与OpenAI的服务条款相悖。因此,该公司的账户现已经被OpenAI暂时禁用。
    的头像 发表于 12-18 10:39 225次阅读

    字节跳动否认使用OpenAI技术开发大语言模型,并正与后者进行沟通 

    回顾过去,字节跳动早在 4月份就明文规定,严禁将 GPT 模型生成的数据添加到大模型的训练数据集中,并且指导工程师们在使用 GPT 时遵循服务条款。更值得关注是,9 月时,
    的头像 发表于 12-18 09:53 217次阅读

    字节跳动旗下PICO近半员工离职 但字节跳动表示会长期投入XR

    字节跳动旗下PICO近半员工离职 但字节跳动表示会长期投入XR 有媒体报道字节跳动旗下PICO
    的头像 发表于 10-24 17:38 1340次阅读

    字节跳动大规模多云CDN管理与产品化实践

    字节跳动有很多流量型的业务,包括抖音、头条、西瓜视频等。为了承载这样的流量,团队使用了各种各样流量加速的产品,包括静态加速、动态加速、域名解析、证书管理以及与各种配套的解决方案,比如源站缓存、回源调度、边缘函数等。
    的头像 发表于 09-13 15:51 537次阅读
    <b class='flag-5'>字节</b><b class='flag-5'>跳动</b>大规模多云CDN管理与产品化实践

    字节跳动旗下火山引擎自研的视频编解码芯片已出片

    字节跳动旗下火山引擎自研的视频编解码芯片已出片 在8月22日的一场活动中,据字节跳动视频架构负责
    的头像 发表于 08-23 18:56 1685次阅读

    模型颠覆研发模式:字节跳动是如何在单元测试中落地大模型的?

    在接受 InfoQ 采访时,字节跳动算法专家张树波表示,大语言模型是一项人工智能基础技术的突破,必然会带来多个行业的变革。2023 年初,字节跳动
    的头像 发表于 08-16 14:48 526次阅读

    字节跳动AI开启测试 代号“Grace”

    字节跳动AI开启测试 代号“Grace” 字节跳动AI开启测试;目前在内测阶段,需要邀请或授权的相关账号登录后才可使用。代号为Grace;这是一个对话类AI项目,支持文本生成图片等需求
    的头像 发表于 08-07 16:58 917次阅读