0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

字节跳动推出一款颠覆性视频模型—Boximator

jf_WZTOguxH 来源:Boximator论文 2024-02-20 13:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来源|AIGC开放社区

在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。

与 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

例如,下雨天,大风把一位女生的雨伞吹走了。目前,很少有视频模型能精准做到这一点。

Boximator 案例赏析

我们先看一下 Boximator 与 Gen-2、Pink1.0,在使用相同的文本提示词、图像生成的视频,所表现出来的不同动作。

为了方便观察,「AIGC 开放社区」将对比视频整合在一起,最左边的是 Boximator 生成的视频。

一个可爱的 3D 男孩站着,然后走路

在这个案例中,Pika 1.0 生成的视频男孩只是站着没有走动,Gen-2 的视频走动了但不明显,只有 Boximator 产生了明显的走动动作。

一位英俊的男人用他的右手从口袋里拿出一朵玫瑰,并且在看着这朵玫瑰

这个案例 Pika 1.0 和 Gen-2 表现的都非常不好,男士没有掏出玫瑰花的动作。Boximator 再一次完美理解文本语义并做出了相应的动作。

往杯子里加红酒

这个案例主要展示了控制物体动作的能力,Pika 1.0 和 Gen-2 都做出了倒酒的动作,但是杯子里的酒没有明显上升的动作。只有 Boximator 做到了倒酒 + 上升两个动作。

看了这 3 个案例,能感受到 Boximator 对文本语义精准理解,以及对动作控制的强大功能了吧。

Boximator 模型介绍

为了实现对视频中物体、人物的动作控制,Boximator 使用了“软框”和“硬框”两种约束方法。

硬框:可精确定义目标对象的边界框。用户可以在图片中画出感兴趣的对象,Boximator 会将其视为硬框约束, 在之后的帧中精准定位该对象的位置。

22fcfe7e-cfb2-11ee-a297-92fbcf53809c.png

软框:软框定义一个对象可能存在的区域, 形成一个宽松的边界框。对象需要停留在这个区域内, 但位置可以有一定变化,实现适度的随机性。

两类框都包含目标对象的 ID, 用于在不同帧中跟踪同一对象。此外, 框还包含坐标、类型等信息的编码。

控制模块和训练策略

控制模块可以将框约束的编码与视频帧的视觉编码结合,用来指导视频的精准动作生成。包含框编码器和自注意力层两大块。

框编码器:将框的坐标、ID、类型等信息, 通过 Fourier 编码和 MLP 映射为控制向量。

自注意力层:将框的控制向量与视频帧的视觉向量通过自注意力建模其关系, 学习将框指导帧生成。

训练策略方面,Boximator 主要分为两个阶段: 自跟踪阶段,训练模型的同时生成视频内容和对应的框,并简化框与对象的关系学习。

正常训练,训练模型只生成视频内容, 框的内在表达已经学会指导对象生成。此外, 训练还使用多阶段策略,逐步过渡从硬框到软框的约束, 以及适当融合无框数据。

Boximator 实验数据

为获得视频训练数据, 研究人员从 WebVid-10M 数据集中,过滤出 110 万段动态明显的视频片段, 并自动为其注释了 220 万个对象的边界框。并在 PixelDance 和 ModelScope 这两个模型上训练了 Boximator。

实验数据显示,Boximator 在保持原模型视频质量, 具有非常强大的动作控制能力。同时可以作为一种插件,帮助现有视频扩散模型提升生成质量。

在 MSR-VTT 数据集上, 无论是视频质量还是框与对象对齐精度方面,Boximator 都优于原模型。在人类评估中,Boximator 生成的视频也在质量和运动控制上明显超过原模型。

239eb6ce-cfb2-11ee-a297-92fbcf53809c.png

字节跳动的研究人员表示,目前该模型处于研发阶段,预计 2-3 个月内发布测试网站。让我们期待一下国内挑战 Sora 的产品诞生吧!




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 字节跳动
    +关注

    关注

    0

    文章

    349

    浏览量

    9865
  • Sora
    +关注

    关注

    0

    文章

    86

    浏览量

    757

原文标题:字节跳动推出颠覆性文生视频模型,可自由控制动作!

文章出处:【微信号:AI前线,微信公众号:AI前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    恭贺!同星智能TSMaster项目荣获2025全国颠覆性技术创新大赛优胜奖

    ,再次获得的又重要荣誉。2025全国颠覆性技术创新大赛是由京津冀国家技术创新中心主办,上海颠覆性技术创新中心、广州颠覆性技术创新中心、黄埔创新学院承办的全国
    的头像 发表于 11-07 20:05 366次阅读
    恭贺!同星智能TSMaster项目荣获2025全国<b class='flag-5'>颠覆性</b>技术创新大赛优胜奖

    字节豆包大模型团队提出稀疏模型架构

    字节跳动豆包大模型Foundation团队近期研发出UltraMem,种创新的稀疏模型架构,旨在解决推理过程中的访存问题,同时确保
    的头像 发表于 02-13 15:25 1024次阅读

    字节豆包大模型团队推出UltraMem稀疏架构

    字节跳动豆包大模型Foundation团队近期在稀疏模型架构领域取得了新突破,提出了种名为UltraMem的新型架构。这
    的头像 发表于 02-13 11:17 1067次阅读

    字节跳动否认赵明加盟及自研手机传闻

    近日,市场传出荣耀前CEO赵明即将加盟字节跳动,并可能主导其手机业务的消息。与此同时,还有传闻称字节跳动有意推出主打AI概念的手机产品,这
    的头像 发表于 02-10 09:12 858次阅读

    字节跳动即将推出多模态视频生成模型OmniHuman

    字节跳动旗下站式AI创作平台即梦AI即将迎来重大更新,全新多模态视频生成模型OmniHuman即将上线。这款
    的头像 发表于 02-08 10:53 1143次阅读

    字节跳动发布OmniHuman 多模态框架

    2 月 6 日消息,字节跳动近日发布了项重大成果 ——OmniHuman 多模态框架,其优势在于其强大的视频生成能力。用户只需提供张任意
    的头像 发表于 02-07 17:50 1191次阅读

    字节跳动启动AGI长期研究计划Seed Edge

    近日,字节跳动内部传来消息,其豆包大模型团队已正式组建了个旨在探索通用人工智能(AGI)的长期研究团队,代号为“Seed Edge”。据悉,该团队鼓励项目成员勇于挑战更长周期、更具不
    的头像 发表于 01-24 14:07 1031次阅读

    快讯:字节跳动否认120亿美元投资AI

    对于传闻中的字节跳动计划2025年在人工智能基础设施上投入超120亿美元的消息,字节跳动回应称消息并不准确。    
    的头像 发表于 01-23 15:45 763次阅读

    字节跳动豆包大模型1.5 Pro发布

    近日,字节跳动旗下的豆包大模型迎来了全新的升级——豆包大模型1.5 Pro正式发布。这款全新模型在知识、代码、推理、中文等多个测评基准上表现
    的头像 发表于 01-23 15:24 1113次阅读

    字节跳动发布豆包大模型1.5 Pro

    字节跳动正式发布了豆包大模型1.5 Pro。 全新的Doubao -1.5 - pro模型综合能力显著增强,在知识、代码、推理、中文等多个测评基准上,综合得分优于GPT - 4o、Cl
    的头像 发表于 01-23 10:24 1131次阅读

    字节跳动发布海外AI中文开发环境IDE:Trae

    近日,字节跳动正式推出一款全新的AI Coding产品——Trae(trae.ai),该产品专为海外专业开发者设计,旨在实现从Copilot向Autopilot的跨越式演进。这款创新
    的头像 发表于 01-23 10:15 1410次阅读

    字节跳动推出海外AI中文开发环境IDE:Trae

    字节跳动近期正式发布了一款名为Trae(trae.ai)的全新AI Coding产品,旨在为海外专业开发者提供个高效、智能的编程环境。这款产品的问世,标志着
    的头像 发表于 01-21 10:33 1927次阅读

    中科创达旗下MM Solutions推出突破视频降噪算法

    在CES 2025上,中科创达旗下全球领先的移动和工业图形图像视觉技术公司MM Solutions重磅推出一款具有突破视频降噪算法——MMS AI Video Denoiser。这
    的头像 发表于 01-13 11:41 1524次阅读

    字节跳动与努比亚合作开发AI手机

    2025年第季度,双方将拿出具体的研发方案,明确产品的功能定位和技术路线。这阶段的合作将主要集中在技术研发和产品设计上,为后续的样机生产和测试打下坚实基础。 进入2025年第二季度,字节
    的头像 发表于 01-03 14:48 1731次阅读

    字节跳动否认与中兴通讯合作传闻

    模型已经与多个手机品牌建立了合作关系,但并未涉及与中兴通讯在智能手机领域的合作。同时,字节跳动还强调,目前并不存在与中兴通讯关于芯片合作的具体计划。这澄清使得市场上对于两家企业可能
    的头像 发表于 12-18 10:08 1625次阅读