0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

生成式 AI 研究通过引导式图像结构控制为创作者赋能

NVIDIA英伟达 来源:未知 2023-07-24 19:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

新的研究正在通过一个文本引导的图像编辑工具来提升生成式 AI 的创造性潜能。这项创新性的研究提出了一个使用即插即用扩散特征(PnP DFs)的框架,可引导实现逼真而精确的图像生成。通过这项研究,视觉内容创作者只需一张提示图片和几个描述性词语,就能将图像转化为视觉内容。

可靠轻松编辑并生成内容的能力有助于艺术家、设计师和创作者不断扩展创意的可能性。这也将为那些依赖动画、视觉设计和图像编辑的行业赋能。

这项研究的首席作者、魏兹曼科学研究院博士研究生 Narek Tumanyan 表示:“最新的文本到图像生成模型标志着数字内容创作进入了一个新时代。然而,将它们应用于现实世界的主要挑战在于缺乏用户可控性,这在很大程度上局限于‘仅通过输入文本来引导图像生成’。我们的工作是最早为用户提供图像布局控制权的方法之一。”

生成式 AI 的最新突破为开发强大的文本到图像模型提供了新方法。然而,复杂性、模糊性以及对定制内容的需求限制了当前渲染技术的发展。

这项研究引入了一种新方法,使用 PnP DFs 来改进图像编辑和生成过程,使创作者对最终产物有更大的控制权。

研究人员从一个简单的问题入手:扩散模型如何表现并捕捉图像的形状或轮廓?研究探索了图像在生成过程中不断演变的内部表征,并研究了这些表征如何对形状和语义信息进行编码。

这种新方法通过理解如何在预训练的文本到图像模型中编码空间信息来控制生成的图像布局,而无需训练新的扩散模型或对其进行微调。在生成过程中,模型从引导图像中提取扩散特征,并将其注入到整个过程中的每一个步骤,从而对新图像的结构进行精细控制。

通过融合这些空间特征,扩散模型可以完善新图像,使其与引导结构相匹配。它会反复进行此过程,更新图像特征,直到生成一张既保留引导图像布局、又与文本提示相匹配的最终图像。

作者写道:“这就产生了一种简单而有效的方法,即从引导图像中提取的特征直接注入到转化图像的生成过程中,无需进行训练或微调。”

这种方法为更先进的可控生成和操作方法铺平了道路。

视频. 在 2023 年国际计算机视觉与模式识别会议(CVPR)上展示的“文本驱动的图像到图像翻译的即插即用扩散特征”研究概述

研究人员使用 cuDNN 加速的 PyTorch 框架在单个 NVIDIA A100 GPU 上开发并测试了这个 PNP 模型。该团队表示,GPU 的大容量使他们能够专注于开发方法。作为 NVIDIA 应用研究加速器计划的参与者,这些研究人员获得了一块 A100 GPU。

该框架部署在 A100 上,能够在大约 50 秒内从引导图像和文本转换为一个新图像。

该过程不仅有高效,而且可靠,能准确地生成令人惊叹的图像。除图像外,它还适用于转化草图、绘图和动画,并能修改照明、色彩和背景。

图 1.该方法的示例结果,保留了引导折纸图像的结构,同时与目标提示的描述相匹配(来源:Tumanyan, Narek 等人/CVPR 2023)

他们的方法还优于现有的文本到图像模型,在保留引导布局和偏离其外观之间实现了卓越的平衡。

图 2.示例结果,将该模型与 P2P、DiffuseIT、SDedit 和 VQ+CLIP 模型进行三种不同噪声水平的比较(来源:Tumanyan, Narek 等人/CVPR 2023)

然而,该模型确实存在一些局限性。当编辑任意颜色的图像区域时,它的表现并不理想,因为该模型无法从输入图像中提取语义信息。

目前,研究人员正在致力于将这种方法扩展到文本引导的视频编辑中。同时,该研究还证明对于其他利用扩散模型分析图像内部表征的研究也具有重要价值。

例如,有一项研究正在利用该团队的研究成果来改进计算机视觉任务,例如语义点对应。另一项研究则专注于扩展文本到图像生成的控制,包括物体的形状、位置和外观。

这项研究已在 GitHub 上开源。

点击“阅读原文”,或扫描下方海报二维码,在 8 月 8日聆听NVIDIA 创始人兼 CEO 黄仁勋在 SIGGRAPH 现场发表的 NVIDIA 主题演讲,了解 NVIDIA 的新技术,包括屡获殊荣的研究,OpenUSD 开发,以及最新的 AI 内容创作解决方案。


原文标题:生成式 AI 研究通过引导式图像结构控制为创作者赋能

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4039

    浏览量

    97646

原文标题:生成式 AI 研究通过引导式图像结构控制为创作者赋能

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI图像与视频双引擎 欧莱雅CCH平台升级领跑美妆智能创作

    了高分答卷。依托图像与视频双引擎,该平台致力于实现品牌多样化素材的集中化管理,并持续推动工作流程向极致高效与无缝协作的方向发展, 标志着平台正式迈入AI智能驱动的
    的头像 发表于 11-21 17:48 1107次阅读

    全球首个动漫专属AI视频生成平台Animon,国内版"萌动AI"正式发布

    平台Animon正式推出国内版产品——"萌动AI",为数亿创作者带来视觉革命。该平台由专业的动漫制作团队和顶尖的AI技术团队联合打造,并将专为专业创作团队和个人工作室设计的Animon
    的头像 发表于 09-25 12:33 534次阅读

    复星医药使用亚马逊云科技生成AI技术医疗撰写场景 助力科学家效率跃升

    北京 ——2025 年 7 月 14 日 近日,全球知名的医药公司复星医药宣布使用亚马逊云科技的生成AI技术和智能医学内容生成中心
    发表于 07-14 14:16 1047次阅读

    边缘生成AI面临哪些工程挑战?

    本文由TechSugar编译自electronicdesign当大多数人想到人工智能(AI)时,他们通常想到的是能够生成新文本、图像或语音内容的应用。像ChatGPT这样流行的文本应
    的头像 发表于 06-25 10:44 898次阅读
    边缘<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>面临哪些工程挑战?

    利用NVIDIA 3D引导生成AI Blueprint控制图像生成

    AI 图像生成技术突飞猛进,从早期模型会生成手指过多的人类
    的头像 发表于 06-05 09:24 726次阅读

    生成人工智能认证:重构AI时代的人才培养与职业跃迁路径

    ,恰似一座连接技术前沿与个体成长的桥梁,既承载着时代对人才的迫切需求,也指向着未来职场的核心竞争力。 一、技术革命的双重性:能与失衡并存 生成人工智能的突破性,在于其首次让机器具备了“无中生有”的创造力。从文本
    的头像 发表于 05-23 09:29 607次阅读

    浅谈生成AI的应用场景

    AI 未来已来,将至已至:面对席卷而来的 AI 浪潮,许多高瞻远瞩的公司、政府、研究机构和初创公司不约而同地选择了 Google AI 解决方案,为发展蓄势
    的头像 发表于 02-27 09:55 2460次阅读

    富士通如何解锁生成AI红利 从人才进化到业务

    生成AI技术正以每周迭代一次的速度重塑商业世界。利用生成AI,营销部门10分钟就可以产出百张
    的头像 发表于 02-25 17:32 1075次阅读

    聚云科技获亚马逊云科技生成AI能力认证

    的应用上展现出了卓越的能力。 聚云科技通过整合亚马逊云科技的先进技术,从应用范围确定、模型选择、数据处理、模型调优到应用集成与部署,为企业提供全方位的生成AI应用落地支持。这不仅加速
    的头像 发表于 02-19 10:33 830次阅读

    聚云科技荣获亚马逊云科技生成AI能力认证

    助力企业加速生成AI应用落地 北京2025年2月14日 /美通社/ -- 云管理服务提供商聚云科技获得亚马逊云科技生成
    的头像 发表于 02-14 16:07 694次阅读

    聚云科技荣获亚马逊云科技生成AI能力认证 助力企业加速生成AI应用落地

    北京 ——2025 年 2 月 14 日 云管理服务提供商聚云科技获得亚马逊云科技生成AI能力认证,利用亚马逊云科技全托管的生成
    发表于 02-14 13:41 323次阅读

    生成AI工具好用吗

    当下,生成AI工具正以其强大的内容生成能力,为用户带来了前所未有的便捷与创新。那么,生成
    的头像 发表于 01-17 09:54 814次阅读

    Adobe发布新工具简化内容创作

    Adobe近日宣布了一系列面向内容创作者的新工具和服务,旨在利用生成人工智能技术简化繁琐的劳动密集型任务。其中,备受瞩目的新工具——“FireflyBulkCreate”应用程序,更是为内容
    的头像 发表于 01-15 10:39 802次阅读

    全方位创意工作流程:西部数据推出全新消费级存储解决方案

    于一身,能够完美适配家庭、工作室等各类创作场景,旨在帮助用户更专注于创作出高质量的内容,启迪他人灵感。 为提升与内容创作者而生 全新的闪
    的头像 发表于 01-08 11:52 1045次阅读
    全方位<b class='flag-5'>赋</b><b class='flag-5'>能</b>创意工作流程:西部数据推出全新消费级存储解决方案

    Google两款先进生成AI模型登陆Vertex AI平台

    新的 AI 模型,包括最先进的视频生成模型Veo以及最高品质的图像生成模型Imagen 3。近日,我们在 Google Cloud 上进一步推动这一势头,客户可以在Vertex
    的头像 发表于 12-30 09:56 977次阅读