0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

南开大学和字节跳动联合开发一款StoryDiffusion模型

冬至配饺子 来源:网络整理 作者:网络整理 2024-05-07 14:46 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,南开大学和字节跳动联合开发的 StoryDiffusion 模型解决了扩散模型生成连贯图像与视频的难题。其核心在于“一致自注意力”机制,强化图像间一致性,无需额外训练即可提升现有文本到图像模型的表现。加之“语义运动预测器”,利用语义空间预测图像序列间的流畅变换,尤其在长视频生成中展现了前所未有的稳定性与主体一致性。此框架使基于文本的复杂故事视觉化成为可能,不仅在角色与场景细节一致性上超越 IP-Adapter 等工具,还能精准匹配文本描述。

南开大学和字节跳动联合开发的StoryDiffusion模型是一种新的机器学习技术,主要用于生成具有长距离相关性的图像和视频。以下是该模型的一些主要特点:

1.一致性自注意力(Consistent Self-Attention):该模型通过一种新的自注意力计算方法,在生成图像时建立批内图像之间的联系,以保持人物的一致性。这种机制无需训练即可生成主题一致的图像,解决了在一系列生成的图像中保持内容一致性的挑战,尤其是对于包含复杂主题和细节的图像。

2.语义运动预测器(Semantic Motion Predictor):为了将这种方法扩展到长视频生成,StoryDiffusion引入了语义运动预测器,将图像编码到语义空间,并预测语义空间中的运动,以生成视频。这种基于语义空间的运动预测比仅基于潜在空间的预测更加稳定。

3.两阶段长视频生成方法:通过Consistent self-attention机制生成的图像可以顺利过渡为视频,实现两阶段长视频生成方法。结合这两个部分,可以生成常长且高质量的AIGC视频。

4.用户交互性:用户可以通过提供一系列用户输入的条件图像,使用Image-to-Video模型生成视频。此外,用户还可以通过Jupyter notebook或本地adio demo来生成漫画。

5.应用范围:StoryDiffusion的应用范围广泛,包括漫画生成、图像转视频等多种场景。

StoryDiffusion模型利用了一种称为StoryGAN的生成模型,该模型可以根据输入的故事情节和场景描述生成相关的图像和视频。这项技术有助于解决传统图像和视频生成技术中的局限性,使得生成的图像和视频更加自然和连贯。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136231
  • 字节跳动
    +关注

    关注

    0

    文章

    348

    浏览量

    9865
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    TDK和北海道大学联合开发模拟储备池AI芯片原型

    高速处理且功耗低。TDK和北海道大学联合开发了面向边缘A1的模拟储备池A1芯片原型。在2025年10月举行的CEATEC 2025上,我们展示了个演示机,让参观者可以实际体验其成果。
    的头像 发表于 11-24 11:22 500次阅读
    TDK和北海道<b class='flag-5'>大学联合开发</b>模拟储备池AI芯片原型

    电装联合开发电驱动模块eAxle搭载于铃木首量产电池电动车

    株式会社BluE Nexus(以下简称“BluE”)、株式会社爱信(以下简称“爱信”)与株式会社电装(以下简称“电装”)联合开发的电驱动模块 eAxle 将搭载于铃木首量产电池电动车(BEV)车型——“e VITARA”。
    的头像 发表于 10-27 14:56 418次阅读

    请问RT-Thread与stm32cubemx联合开发的原理是什么?

    在使用RT-Thread与stm32cubemx联合开发的原理是什么,cubemx在其中主要起到了哪些功能呢?
    发表于 10-11 15:49

    Vector与QNX联合开发基础车载软件平台

    基础车载软件平台是由Vector和QNX联合开发一款预集成、可扩展的软件平台,专为软件定义汽车的高性能计算节点(HPC)打造。该平台可用于当前和未来车型,满足最高等级的功能安全(ISO 26262,ASIL D)和网络安全(ISO 21434)要求。
    的头像 发表于 07-11 09:31 1150次阅读
    Vector与QNX<b class='flag-5'>联合开发</b>基础车载软件平台

    字节豆包大模型团队提出稀疏模型架构

    字节跳动豆包大模型Foundation团队近期研发出UltraMem,种创新的稀疏模型架构,旨在解决推理过程中的访存问题,同时确保
    的头像 发表于 02-13 15:25 1015次阅读

    字节跳动否认赵明加盟及自研手机传闻

    近日,市场传出荣耀前CEO赵明即将加盟字节跳动,并可能主导其手机业务的消息。与此同时,还有传闻称字节跳动有意推出主打AI概念的手机产品,这
    的头像 发表于 02-10 09:12 853次阅读

    字节跳动即将推出多模态视频生成模型OmniHuman

    字节跳动旗下站式AI创作平台即梦AI即将迎来重大更新,全新多模态视频生成模型OmniHuman即将上线。这款模型
    的头像 发表于 02-08 10:53 1125次阅读

    快讯:字节跳动否认120亿美元投资AI

    对于传闻中的字节跳动计划2025年在人工智能基础设施上投入超120亿美元的消息,字节跳动回应称消息并不准确。    
    的头像 发表于 01-23 15:45 757次阅读

    字节跳动豆包大模型1.5 Pro发布

    近日,字节跳动旗下的豆包大模型迎来了全新的升级——豆包大模型1.5 Pro正式发布。这款全新模型在知识、代码、推理、中文等多个测评基准上表现
    的头像 发表于 01-23 15:24 1105次阅读

    字节跳动发布豆包大模型1.5 Pro

    字节跳动正式发布了豆包大模型1.5 Pro。 全新的Doubao -1.5 - pro模型综合能力显著增强,在知识、代码、推理、中文等多个测评基准上,综合得分优于GPT - 4o、Cl
    的头像 发表于 01-23 10:24 1117次阅读

    字节跳动发布海外AI中文开发环境IDE:Trae

    近日,字节跳动正式推出了一款全新的AI Coding产品——Trae(trae.ai),该产品专为海外专业开发者设计,旨在实现从Copilot向Autopilot的跨越式演进。这款创新
    的头像 发表于 01-23 10:15 1403次阅读

    字节跳动推出海外AI中文开发环境IDE:Trae

    字节跳动近期正式发布了一款名为Trae(trae.ai)的全新AI Coding产品,旨在为海外专业开发者提供个高效、智能的编程环境。这款
    的头像 发表于 01-21 10:33 1923次阅读

    字节跳动与努比亚合作开发AI手机

    近日,有消息称字节跳动已经选择努比亚作为其合作伙伴,共同开发AI手机。据悉,双方已经签订了框架协议,明确了合作的具体内容和时间表。 根据协议内容,字节
    的头像 发表于 01-03 14:48 1717次阅读

    纤纳光电与南开国家新材料研究院签订合作备忘录

    日前,纤纳光电与南开大学国家新材料研究院签约仪式暨钙钛矿光伏产业交流沙龙于南开大学材料科学与工程学院举办。纤纳光电姚总、颜总、首席科学家杨旸教授出席,南开大学材料学院党委书记邢丽芳,团委书记杨晓颖,及材料学院、电光学院、化学学院
    的头像 发表于 01-02 14:45 802次阅读

    字节跳动否认与中兴通讯合作传闻

    模型已经与多个手机品牌建立了合作关系,但并未涉及与中兴通讯在智能手机领域的合作。同时,字节跳动还强调,目前并不存在与中兴通讯关于芯片合作的具体计划。这澄清使得市场上对于两家企业可能
    的头像 发表于 12-18 10:08 1621次阅读