0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

字节跳动发布文生图开放模型,迅速冲上Hugging Face Spaces热榜

jf_WZTOguxH 来源:AI前线 2024-02-26 13:47 次阅读

很高兴跟大家分享我们最新的文生图模型 —— SDXL-Lightning,它实现了前所未有的速度和质量,并且已经向社区开放。

闪电般的图片生成

生成式 AI 正凭借其根据文本提示(text prompts)创造出惊艳图像乃至视频的能力,赢得全球的瞩目。当前最先进的生成模型依赖于扩散过程(diffusion),这是一个将噪声逐步转化为图像样本的迭代过程。这个过程需要耗费巨大的计算资源并且速度较慢,在生成高质量图像样本的过程中,单张图像的处理时间约为 5 秒,其中通常需要多次(20 到 40 次)调用庞大的神经网络。这样的速度限制了有快速、实时生成需求的应用场景。如何在提升生成质量的同时加快速度,是当前研究的热点领域,也是我们工作的核心目标。

SDXL-Lightning 通过一种创新技术——渐进式对抗蒸馏(Progressive Adversarial Distillation)——突破了这一障碍,实现了前所未有的生成速度。该模型能够在短短 2 步或 4 步内生成极高质量和分辨率的图像,将计算成本和时间降低十倍。我们的方法甚至可以在 1 步内为超时敏感的应用生成图像,虽然可能会稍微牺牲一些质量。

除了速度优势,SDXL-Lightning 在图像质量上也有显著表现,并在评估中超越了以往的加速技术。在实现更高分辨率和更佳细节的同时保持良好的多样性和图文匹配度。

33c5b058-d461-11ee-a297-92fbcf53809c.gif

速度对比示意

原始模型(20 步),SDXL-Lightning 模型(2 步)

模型效果

SDXL-Lightning 模型可以通过 1 步、2 步、4 步和 8 步来生成图像。推理步骤越多,图像质量越好。

以下是 4 步生成结果——

以下是 2 步生成结果—— 与以前的方法(Turbo 和 LCM)相比,我们的方法生成的图像在细节上有显著改进,并且更忠实于原始生成模型的风格和布局。

3400e01a-d461-11ee-a297-92fbcf53809c.png

回馈社区,开放模型

开源开放的浪潮已经成为推动人工智能迅猛发展的关键力量,字节跳动也自豪地成为这股浪潮的一部分。我们的模型基于目前最流行的文字生成图像开放模型 SDXL,该模型已经拥有一个繁荣的生态系统。现在,我们决定将 SDXL-Lightning 开放给全球的开发者、研究人员和创意从业者,以便他们能访问并运用这一模型,进一步推动整个行业的创新和协作。

在设计 SDXL-Lightning 时,我们就考虑到与开放模型社区的兼容。社区中已有众多艺术家和开发者创建了各种各样的风格化图像生成模型,例如卡通和动漫风格等。为了支持这些模型,我们提供 SDXL-Lightning 作为一个增速插件,它可以无缝地整合到这些多样风格的 SDXL 模型中,为各种不同模型加快图像生成的速度。 342047d4-d461-11ee-a297-92fbcf53809c.png

SDXL-Lightning 模型也可以和目前非常流行的控制插件 ControlNet 相结合,实现极速可控的图片生成。

345c001c-d461-11ee-a297-92fbcf53809c.png

SDXL-Lightning 模型也支持开源社区里目前最流行的生成软件 ComfyUI,模型可以被直接加载来使用:

347621e0-d461-11ee-a297-92fbcf53809c.png

关于技术细节

从理论上来说,图像生成是一个由噪声到清晰图像的逐步转化过程。在这一过程中,神经网络学习在这个转化流(flow)中各个位置上的梯度。

生成图像的具体步骤是这样的:

首先我们在流的起点,随机采样一个噪声样本,接着用神经网络计算出梯度。根据当前位置上的梯度,我们对样本进行微小的调整,然后不断重复这一过程。每一次迭代,样本都会更接近最终的图像分布,直至获得一张清晰的图像。 34921a9e-d461-11ee-a297-92fbcf53809c.png

图:生成流程(来自:https://arxiv.org/abs/2011.13456)

由于生成流复杂且非直线,生成过程必须一次只走一小步以减少梯度误差累积,所以需要神经网络的频繁计算,这就是计算量大的原因。

34a43d00-d461-11ee-a297-92fbcf53809c.png

图:曲线流程(图片来自:https://arxiv.org/abs/2210.05475)

为了减少生成图像所需的步骤数量,许多研究致力于寻找解决方案。一些研究提出了能减少误差的采样方法,而其他研究则试图使生成流更加直线化。尽管这些方法有所进展,但它们仍然需要超过 10 个推理步骤来生成图像。

另一种方法是模型蒸馏,它能够在少于 10 个推理步骤的情况下生成高质量图像。不同于计算当前流位置下的梯度,模型蒸馏改变模型预测的目标,直接让其预测下一个更远的流位置。具体来说,我们训练一个学生网络直接预测老师网络完成了多步推理后的结果。这样的策略可以大幅减少所需的推理步骤数量。通过反复应用这个过程,我们可以进一步降低推理步骤的数量。这种方法被先前的研究称之为渐进式蒸馏。

34bd92c8-d461-11ee-a297-92fbcf53809c.png

图:渐进式蒸馏,学生网络预测老师网络多步后的结果

在实际操作中,学生网络往往难以精确预测未来的流位置。误差随着每一步的累积而放大,导致在少于 8 步推理的情况下,模型产生的图像开始变得模糊不清。

为了解决这个问题,我们的策略是不强求学生网络精确匹配教师网络的预测,而是让学生网络在概率分布上与教师网络保持一致。换言之,学生网络被训练来预测一个概率上可能的位置,即使这个位置并不完全准确,我们也不会对它进行惩罚。这个目标是通过对抗训练来实现的,引入了一个额外的判别网络来帮助实现学生网络和教师网络输出的分布匹配。

这是我们研究方法的简要概述。在技术论文(https://arxiv.org/abs/2402.13929)中,我们提供了更深入的理论分析、训练策略以及模型的具体公式化细节。

SDXL-Lightning 之外

尽管本研究主要探讨了如何利用 SDXL-Lightning 技术进行图像生成,但我们所提出的渐进式对抗蒸馏方法的应用潜力不局限于静态图像的范畴。这一创新技术也可以被运用于快速且高质量生成视频、音频以及其他多模态内容。我们诚挚邀请您在 HuggingFace 平台上体验 SDXL-Lightning,并期待您宝贵的意见和反馈。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4575

    浏览量

    98769
  • LCM
    LCM
    +关注

    关注

    6

    文章

    57

    浏览量

    34315
  • 字节跳动
    +关注

    关注

    0

    文章

    266

    浏览量

    8728
  • 生成式AI
    +关注

    关注

    0

    文章

    354

    浏览量

    224

原文标题:就是“快”!字节跳动发布文生图开放模型,迅速冲上Hugging Face Spaces 热榜

文章出处:【微信号:AI前线,微信公众号:AI前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    OpenAI发布文生视频大模型Sora、英伟达市值超谷歌

    OpenAI加入文生视频大模型的战局,AI大模型进入视频生成的阶段,这将进一步刺激AI芯片的需求。 OpenAI发布文生视频大
    的头像 发表于 03-28 18:13 528次阅读

    字节跳动发布AI角色互动应用“话炉”,涉足AI社交赛道

     值得注意的是,字节跳动CEO梁汝波在2024年度全体会议上指出,尽管字节跳动在2023年才初步涉足GPT领域,然而同期众多先进的大模型创业
    的头像 发表于 03-25 16:40 592次阅读

    字节跳动被曝正秘密研发多个AI产品

    据多位知情人士透露,科技巨头字节跳动正在人工智能(AI)大模型领域秘密研发多个创新产品。其中,多模态数字人产品备受瞩目,该产品将结合先进的AI技术与虚拟形象,为用户提供全新的交互体验。此外,
    的头像 发表于 03-05 11:22 441次阅读

    ServiceNow、Hugging Face 和 NVIDIA 发布全新开放获取 LLM,助力开发者运用生成式 AI 构建企业应用

    2024 年 2 月 28 日 - ServiceNow(NYSE:NOW)、Hugging Face 和 NVIDIA 于今日发布 StarCoder2,其为一系列用于代码生成的开放
    发表于 02-29 11:12 153次阅读
    ServiceNow、<b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 和 NVIDIA <b class='flag-5'>发布</b>全新<b class='flag-5'>开放</b>获取 LLM,助力开发者运用生成式 AI 构建企业应用

    字节跳动澄清未推出中文版Sora

    近日,有传闻称字节跳动在Sora文生视频模型发布之前,已经推出了一款名为Boximator的颠覆性视频
    的头像 发表于 02-20 13:58 322次阅读

    字节跳动推出一款颠覆性视频模型—Boximator

    在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。
    的头像 发表于 02-20 13:44 468次阅读
    <b class='flag-5'>字节</b><b class='flag-5'>跳动</b>推出一款颠覆性视频<b class='flag-5'>模型</b>—Boximator

    奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相

    奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相 2月16日凌晨OpenAI的首个文生视频
    的头像 发表于 02-18 17:41 595次阅读

    Hugging Face LLM部署大语言模型到亚马逊云科技Amazon SageMaker推理示例

     本篇文章主要介绍如何使用新的Hugging Face LLM推理容器将开源LLMs,比如BLOOM大型语言模型部署到亚马逊云科技Amazon SageMaker进行推理的示例。我们将部署12B
    的头像 发表于 11-01 17:48 467次阅读
    <b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> LLM部署大语言<b class='flag-5'>模型</b>到亚马逊云科技Amazon SageMaker推理示例

    字节跳动旗下PICO近半员工离职 但字节跳动表示会长期投入XR

    字节跳动旗下PICO近半员工离职 但字节跳动表示会长期投入XR 有媒体报道字节跳动旗下PICO
    的头像 发表于 10-24 17:38 1340次阅读

    Hugging Face被限制访问

    目前尚不清楚 Hugging Face 何时出现访问限制问题。雅虎的报道称,早在今年 5 月起,就已经有用户在 HF 的论坛上抱怨连接问题。另外有报道称,至少从 9 月 12 日起,Hugging
    的头像 发表于 10-22 15:51 1179次阅读
    <b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b>被限制访问

    模型颠覆研发模式:字节跳动是如何在单元测试中落地大模型的?

    在接受 InfoQ 采访时,字节跳动算法专家张树波表示,大语言模型是一项人工智能基础技术的突破,必然会带来多个行业的变革。2023 年初,字节跳动
    的头像 发表于 08-16 14:48 529次阅读

    NVIDIA 与 Hugging Face 将连接数百万开发者与生成式 AI 超级计算

    NVIDIA DGX Cloud 集成到 Hugging Face 平台将加速大语言模型(LLM)的训练和调优,简化了几乎每个行业的模型定制     洛杉矶 — SIGGRAPH —
    发表于 08-09 11:41 108次阅读
    NVIDIA 与 <b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 将连接数百万开发者与生成式 AI 超级计算

    NVIDIA 与 Hugging Face 将连接数百万开发者与生成式 AI 超级计算

    NVIDIA DGX Cloud 集成到 Hugging Face 平台将加速大语言模型(LLM)的训练和调优,简化了几乎每个行业的模型定制
    的头像 发表于 08-09 11:38 704次阅读
    NVIDIA 与 <b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 将连接数百万开发者与生成式 AI 超级计算

    NASA 携手 IBM 发布 Hugging Face 平台最大开源地理空间 AI 基础模型

    Hugging Face发布。它将成为 Hugging Face 上至今最大的地理空间基础模型
    的头像 发表于 08-08 18:15 435次阅读
    NASA 携手 IBM <b class='flag-5'>发布</b> <b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 平台最大开源地理空间 AI 基础<b class='flag-5'>模型</b>

    Hugging Face更改文本推理软件许可证,不再“开源”

    据悉,TGI 已成为 Hugging Face 商业产品(如推理端点)及其商业合作伙伴(如 Amazon SageMaker、Azure 机器学习和 IBM watsonx )的重要组成部分。而 Hugging
    的头像 发表于 07-31 14:42 409次阅读