0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

生成式 AI 研究通过引导式图像结构控制为创作者赋能

NVIDIA英伟达 来源:未知 2023-07-24 19:30 次阅读

新的研究正在通过一个文本引导的图像编辑工具来提升生成式 AI 的创造性潜能。这项创新性的研究提出了一个使用即插即用扩散特征(PnP DFs)的框架,可引导实现逼真而精确的图像生成。通过这项研究,视觉内容创作者只需一张提示图片和几个描述性词语,就能将图像转化为视觉内容。

可靠轻松编辑并生成内容的能力有助于艺术家、设计师和创作者不断扩展创意的可能性。这也将为那些依赖动画、视觉设计和图像编辑的行业赋能。

这项研究的首席作者、魏兹曼科学研究院博士研究生 Narek Tumanyan 表示:“最新的文本到图像生成模型标志着数字内容创作进入了一个新时代。然而,将它们应用于现实世界的主要挑战在于缺乏用户可控性,这在很大程度上局限于‘仅通过输入文本来引导图像生成’。我们的工作是最早为用户提供图像布局控制权的方法之一。”

生成式 AI 的最新突破为开发强大的文本到图像模型提供了新方法。然而,复杂性、模糊性以及对定制内容的需求限制了当前渲染技术的发展。

这项研究引入了一种新方法,使用 PnP DFs 来改进图像编辑和生成过程,使创作者对最终产物有更大的控制权。

研究人员从一个简单的问题入手:扩散模型如何表现并捕捉图像的形状或轮廓?研究探索了图像在生成过程中不断演变的内部表征,并研究了这些表征如何对形状和语义信息进行编码。

这种新方法通过理解如何在预训练的文本到图像模型中编码空间信息来控制生成的图像布局,而无需训练新的扩散模型或对其进行微调。在生成过程中,模型从引导图像中提取扩散特征,并将其注入到整个过程中的每一个步骤,从而对新图像的结构进行精细控制。

通过融合这些空间特征,扩散模型可以完善新图像,使其与引导结构相匹配。它会反复进行此过程,更新图像特征,直到生成一张既保留引导图像布局、又与文本提示相匹配的最终图像。

作者写道:“这就产生了一种简单而有效的方法,即从引导图像中提取的特征直接注入到转化图像的生成过程中,无需进行训练或微调。”

这种方法为更先进的可控生成和操作方法铺平了道路。

视频. 在 2023 年国际计算机视觉与模式识别会议(CVPR)上展示的“文本驱动的图像到图像翻译的即插即用扩散特征”研究概述

研究人员使用 cuDNN 加速的 PyTorch 框架在单个 NVIDIA A100 GPU 上开发并测试了这个 PNP 模型。该团队表示,GPU 的大容量使他们能够专注于开发方法。作为 NVIDIA 应用研究加速器计划的参与者,这些研究人员获得了一块 A100 GPU。

该框架部署在 A100 上,能够在大约 50 秒内从引导图像和文本转换为一个新图像。

该过程不仅有高效,而且可靠,能准确地生成令人惊叹的图像。除图像外,它还适用于转化草图、绘图和动画,并能修改照明、色彩和背景。

图 1.该方法的示例结果,保留了引导折纸图像的结构,同时与目标提示的描述相匹配(来源:Tumanyan, Narek 等人/CVPR 2023)

他们的方法还优于现有的文本到图像模型,在保留引导布局和偏离其外观之间实现了卓越的平衡。

图 2.示例结果,将该模型与 P2P、DiffuseIT、SDedit 和 VQ+CLIP 模型进行三种不同噪声水平的比较(来源:Tumanyan, Narek 等人/CVPR 2023)

然而,该模型确实存在一些局限性。当编辑任意颜色的图像区域时,它的表现并不理想,因为该模型无法从输入图像中提取语义信息。

目前,研究人员正在致力于将这种方法扩展到文本引导的视频编辑中。同时,该研究还证明对于其他利用扩散模型分析图像内部表征的研究也具有重要价值。

例如,有一项研究正在利用该团队的研究成果来改进计算机视觉任务,例如语义点对应。另一项研究则专注于扩展文本到图像生成的控制,包括物体的形状、位置和外观。

这项研究已在 GitHub 上开源。

点击“阅读原文”,或扫描下方海报二维码,在 8 月 8日聆听NVIDIA 创始人兼 CEO 黄仁勋在 SIGGRAPH 现场发表的 NVIDIA 主题演讲,了解 NVIDIA 的新技术,包括屡获殊荣的研究,OpenUSD 开发,以及最新的 AI 内容创作解决方案。


原文标题:生成式 AI 研究通过引导式图像结构控制为创作者赋能

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3330

    浏览量

    87781

原文标题:生成式 AI 研究通过引导式图像结构控制为创作者赋能

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    创作者变身知识智能体,AI时代的“超级个体”

    无Agent不创作:为什么知识智能体是创作者的人生杠杆?
    的头像 发表于 04-23 09:26 836次阅读
    <b class='flag-5'>创作者</b>变身知识智能体,<b class='flag-5'>AI</b>时代的“超级个体”

    京东十亿现金及十亿流量鼓励原创作者和优质内容机构入驻

    首先,针对涵盖数码3C、家电家居、母婴、宠物、时尚、运动、美妆个护、健康、车品等20余个创作领域的达人们,京东将给予现金补贴。达到招募标准的创作者,单个周期内单个账户最高可领取3万元现金创作补贴,且同时享受视频播放补贴和带货佣金
    的头像 发表于 04-10 14:19 124次阅读

    NVIDIA Edify多模态架构升级,引领视觉生成AI新纪元

    NVIDIA近日宣布,其用于视觉生成AI的多模态架构Edify迎来重大更新,为开发者和视觉内容提供商带来前所未有的新功能。其中,3D资产生成功能的引入,极大地提升了AI
    的头像 发表于 03-27 10:22 132次阅读

    微软收购Inflection AI,将其技术授给创作者

    Inflection AI 随后发表声明,称他们将在 Microsoft Azure 上部署 Inflection-2.5 工具套件,这将助力广大创作者使用这项技术。同时,他们也承诺在可预见的未来,将在其他各大云计算平台上推广其模型及服务。
    的头像 发表于 03-21 10:13 161次阅读

    NVIDIA 在 CES 2024 上展示游戏、创作生成AI 和机器人领域的创新成果

    席卷 CES,为游戏玩家和内容创作者带来各种性能强大的新工具。   在 CES 展会开始之前,NVIDIA 发表了一场重磅演讲,重点介绍了将为游戏和应用带来逼真角色的生成AI 模型,以及一款面向游戏玩家
    发表于 01-09 09:17 189次阅读
    NVIDIA 在 CES 2024 上展示游戏、<b class='flag-5'>创作</b>、<b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b> 和机器人领域的创新成果

    Omniverse 资讯速递 | 应用案例、创作者故事、OpenUSD 最新视频等你来解锁!

    在本期 「Omniverse 资讯速递」 中,Omniverse 用户和开发者将了解到: Omniverse 应用案例与创作者故事 OpenUSD 最新视频 Omniverse 应用案例与创作者故事
    的头像 发表于 12-04 20:20 345次阅读
    Omniverse 资讯速递 | 应用案例、<b class='flag-5'>创作者</b>故事、OpenUSD 最新视频等你来解锁!

    声智无线麦克风轻松满足创作者的各类创作需求

    近期,声智无线麦克风新品上市。作为一款麦克风,这款产品具备可变装、AI降噪、远距离传输、超长续航等一系列令人耳目一新的亮点,全方位实力超越市场传统款,功能齐全,轻松满足创作者的各类创作需求
    的头像 发表于 11-11 10:32 895次阅读

    自媒体创作者电脑硬盘如何配置?

    各行各业的创作者都涉足于内,甚至将此作为自己的主业。 内容创作者在经营自己的主业时,会更加看重单位时间内的产出比,对于自媒体群体来说,时间就是金钱,当需要同时处理多个文件时,一块优质靠谱的硬盘能让操作页面更流畅,
    的头像 发表于 09-28 19:05 410次阅读
    自媒体<b class='flag-5'>创作者</b>电脑硬盘如何配置?

    生成AI如何帮助创建和编辑逼真的材质?

    精细的把控。NVIDIA Picasso 将提供这些功能,使企业、软件创作者和服务提供商能够使用其经过完全授权的数据来开发自定义生成AI 材质模型。
    的头像 发表于 09-01 15:36 519次阅读

    黄仁勋:生成AI将为创作者带来加速动力

    黄仁勋在与全球市场营销和传播服务公司 WPP 首席执行官 Mark Read 交谈时表示:“我们如今能够前所未有地通过内容生成来强化创作流程,而且可以生成文本、
    的头像 发表于 07-11 10:50 331次阅读

    Omniverse 资讯速递 | 行业动态、COMPUTEX 2023 精彩回顾、应用案例、创作者故事、中文课程系列等你来解锁!

    Omniverse 中文课程系列 Omniverse 行业动态 NVIDIA 创始人兼首席执行官黄仁勋:生成AI 将为创作者带来加速动力 NVIDIA 创始人兼首席执行官黄仁勋在戛纳国际创意
    的头像 发表于 07-03 19:05 258次阅读

    NVIDIA创始人兼首席执行官黄仁勋:生成AI将为创作者带来加速动力

    Mark Read交谈时表示:“我们如今能够前所未有地通过内容生成来强化创作流程,而且可以生成文本、图像、3D、视频等任何形式的内容。”  
    发表于 06-27 10:38 203次阅读
    NVIDIA创始人兼首席执行官黄仁勋:<b class='flag-5'>生成</b>式<b class='flag-5'>AI</b>将为<b class='flag-5'>创作者</b>带来加速动力

    NVIDIA 创始人兼首席执行官黄仁勋:生成AI 将为创作者带来加速动力

    兼首席执行官黄仁勋 近日在法国里维埃拉戛纳国际创意节上表示,生成AI 将为各行各业、各类内容的创作者带来加速动力。 黄仁勋在与全球市场营销和传播服务公司 WPP 首席执行官 Mark Read 交谈
    的头像 发表于 06-21 22:25 327次阅读
    NVIDIA 创始人兼首席执行官黄仁勋:<b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b> 将为<b class='flag-5'>创作者</b>带来加速动力

    用于虚幻引擎的 Omniverse Connector 助力内容创作者节省时间与精力

    通过提升 USD 的兼容性,并新增多项用于优化工作流的增强功能,以实现更快速且高效的自动化工作流。 Epic Games 开放、先进的实时 3D 创作工具—虚幻引擎,现新增更多功能以赋能内容创作者
    的头像 发表于 06-13 20:55 404次阅读
    用于虚幻引擎的 Omniverse Connector 助力内容<b class='flag-5'>创作者</b>节省时间与精力

    Omniverse 资讯速递 | SIGGRAPH 亮点抢先看、相关赛事、应用案例与创作者故事、教程视频等你来解锁!

    在本期 「Omniverse 资讯速递」 中,Omniverse 用户和开发者将了解到: SIGGRAPH 亮点抢先看 Omniverse 相关赛事 Omniverse 应用案例与创作者故事
    的头像 发表于 05-15 23:40 350次阅读
    Omniverse 资讯速递 | SIGGRAPH 亮点抢先看、相关赛事、应用案例与<b class='flag-5'>创作者</b>故事、教程视频等你来解锁!