0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

生成式 AI 研究通过引导式图像结构控制为创作者赋能

NVIDIA英伟达 来源:未知 2023-07-24 19:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

新的研究正在通过一个文本引导的图像编辑工具来提升生成式 AI 的创造性潜能。这项创新性的研究提出了一个使用即插即用扩散特征(PnP DFs)的框架,可引导实现逼真而精确的图像生成。通过这项研究,视觉内容创作者只需一张提示图片和几个描述性词语,就能将图像转化为视觉内容。

可靠轻松编辑并生成内容的能力有助于艺术家、设计师和创作者不断扩展创意的可能性。这也将为那些依赖动画、视觉设计和图像编辑的行业赋能。

这项研究的首席作者、魏兹曼科学研究院博士研究生 Narek Tumanyan 表示:“最新的文本到图像生成模型标志着数字内容创作进入了一个新时代。然而,将它们应用于现实世界的主要挑战在于缺乏用户可控性,这在很大程度上局限于‘仅通过输入文本来引导图像生成’。我们的工作是最早为用户提供图像布局控制权的方法之一。”

生成式 AI 的最新突破为开发强大的文本到图像模型提供了新方法。然而,复杂性、模糊性以及对定制内容的需求限制了当前渲染技术的发展。

这项研究引入了一种新方法,使用 PnP DFs 来改进图像编辑和生成过程,使创作者对最终产物有更大的控制权。

研究人员从一个简单的问题入手:扩散模型如何表现并捕捉图像的形状或轮廓?研究探索了图像在生成过程中不断演变的内部表征,并研究了这些表征如何对形状和语义信息进行编码。

这种新方法通过理解如何在预训练的文本到图像模型中编码空间信息来控制生成的图像布局,而无需训练新的扩散模型或对其进行微调。在生成过程中,模型从引导图像中提取扩散特征,并将其注入到整个过程中的每一个步骤,从而对新图像的结构进行精细控制。

通过融合这些空间特征,扩散模型可以完善新图像,使其与引导结构相匹配。它会反复进行此过程,更新图像特征,直到生成一张既保留引导图像布局、又与文本提示相匹配的最终图像。

作者写道:“这就产生了一种简单而有效的方法,即从引导图像中提取的特征直接注入到转化图像的生成过程中,无需进行训练或微调。”

这种方法为更先进的可控生成和操作方法铺平了道路。

视频. 在 2023 年国际计算机视觉与模式识别会议(CVPR)上展示的“文本驱动的图像到图像翻译的即插即用扩散特征”研究概述

研究人员使用 cuDNN 加速的 PyTorch 框架在单个 NVIDIA A100 GPU 上开发并测试了这个 PNP 模型。该团队表示,GPU 的大容量使他们能够专注于开发方法。作为 NVIDIA 应用研究加速器计划的参与者,这些研究人员获得了一块 A100 GPU。

该框架部署在 A100 上,能够在大约 50 秒内从引导图像和文本转换为一个新图像。

该过程不仅有高效,而且可靠,能准确地生成令人惊叹的图像。除图像外,它还适用于转化草图、绘图和动画,并能修改照明、色彩和背景。

图 1.该方法的示例结果,保留了引导折纸图像的结构,同时与目标提示的描述相匹配(来源:Tumanyan, Narek 等人/CVPR 2023)

他们的方法还优于现有的文本到图像模型,在保留引导布局和偏离其外观之间实现了卓越的平衡。

图 2.示例结果,将该模型与 P2P、DiffuseIT、SDedit 和 VQ+CLIP 模型进行三种不同噪声水平的比较(来源:Tumanyan, Narek 等人/CVPR 2023)

然而,该模型确实存在一些局限性。当编辑任意颜色的图像区域时,它的表现并不理想,因为该模型无法从输入图像中提取语义信息。

目前,研究人员正在致力于将这种方法扩展到文本引导的视频编辑中。同时,该研究还证明对于其他利用扩散模型分析图像内部表征的研究也具有重要价值。

例如,有一项研究正在利用该团队的研究成果来改进计算机视觉任务,例如语义点对应。另一项研究则专注于扩展文本到图像生成的控制,包括物体的形状、位置和外观。

这项研究已在 GitHub 上开源。

点击“阅读原文”,或扫描下方海报二维码,在 8 月 8日聆听NVIDIA 创始人兼 CEO 黄仁勋在 SIGGRAPH 现场发表的 NVIDIA 主题演讲,了解 NVIDIA 的新技术,包括屡获殊荣的研究,OpenUSD 开发,以及最新的 AI 内容创作解决方案。


原文标题:生成式 AI 研究通过引导式图像结构控制为创作者赋能

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4113

    浏览量

    99600

原文标题:生成式 AI 研究通过引导式图像结构控制为创作者赋能

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    嵌入AI开发必看:杜绝幻觉,才是工业级IDE的核心底气

    验机制,通过自动化测试用例对生成代码进行持续验证,结合工业场景规则库进行自我修正。 无需人工干预即可完成多轮校验,确保代码符合工业控制系统“可预测、可验证、可交付”的核心要求,从根源杜绝 A
    发表于 03-18 13:49

    生成AI工程师挖掘非结构化数据价值

    您是否知道,生成 AI(GenAI)可以帮助工程师在几秒钟内诊断汽车故障,甚至在设备出现问题之前预测潜在失效?GenAI 正在通过加速数据分析和算法开发,让这些场景从设想走向现实,使
    的头像 发表于 02-28 10:24 591次阅读

    SeaVerse发布全球首个AI Native平台,“All in AI Native”引领AI创作前瞻革命

    2026年1月10日,SeaVerse宣布全球发布SeaVerse AI平台。这是全球首个AI原生的创建和部署平台,集合大语言模型、图像生成、视频
    的头像 发表于 01-14 17:41 1471次阅读

    榜样领航,共赴新章——2025年度电子发烧友社区表彰

    创新,让分享连接你我。 2025年的斐然成绩,离不开每一位生态伙伴的深耕细作与每一位创作者的热忱。为此我们特别表彰一批行业领军专家、卓越版主、社区先锋、评测达人、
    发表于 01-12 15:21

    嵌入软件单元测试中AI自动化与人工检查的协同机制研究:基于专业工具的实证分析

    ‌ ‌摘要****‌ 本文系统探讨嵌入软件相较于通用软件在单元测试层面的特殊性,分析其对高覆盖率、可追溯性与实时性验证的严苛需求,并以专业工具winAMS为技术载体,深入研究AI驱动的自动化测试在
    发表于 12-31 11:22

    生成AI虚拟调试——fe.screen-sim的架构价值

    生成AI虚拟调试——fe.screen-sim的架构价值
    的头像 发表于 12-04 14:59 1183次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b><b class='flag-5'>赋</b><b class='flag-5'>能</b>虚拟调试——fe.screen-sim的架构价值

    AI图像与视频双引擎 欧莱雅CCH平台升级领跑美妆智能创作

    了高分答卷。依托图像与视频双引擎,该平台致力于实现品牌多样化素材的集中化管理,并持续推动工作流程向极致高效与无缝协作的方向发展, 标志着平台正式迈入AI智能驱动的
    的头像 发表于 11-21 17:48 1471次阅读

    全球首个动漫专属AI视频生成平台Animon,国内版&quot;萌动AI&quot;正式发布

    平台Animon正式推出国内版产品——"萌动AI",为数亿创作者带来视觉革命。该平台由专业的动漫制作团队和顶尖的AI技术团队联合打造,并将专为专业创作团队和个人工作室设计的Animon
    的头像 发表于 09-25 12:33 1315次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    是一种快速反应能力,是直接的感知;灵感是一种通过思考和探索获得的创造性想法,是一种创意。 AI怎么模拟直觉与灵感呢?四、AI代替人类的假说 这可能吗? 用机器来生成假说: 1、直接
    发表于 09-17 11:45

    智能体化AI生成AI的区别

    生成 AI 的核心是“生成内容” —— 比如用大模型写报告,是对输入指令的被动响应。而智能体化 AI(Agentic
    的头像 发表于 08-25 17:24 1867次阅读

    生成 AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等
    的头像 发表于 08-06 11:20 5366次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>式</b> <b class='flag-5'>AI</b> 重塑自动驾驶仿真:4D 场景<b class='flag-5'>生成</b>技术的突破与实践

    复星医药使用亚马逊云科技生成AI技术医疗撰写场景 助力科学家效率跃升

    北京 ——2025 年 7 月 14 日 近日,全球知名的医药公司复星医药宣布使用亚马逊云科技的生成AI技术和智能医学内容生成中心
    发表于 07-14 14:16 1187次阅读

    边缘生成AI面临哪些工程挑战?

    本文由TechSugar编译自electronicdesign当大多数人想到人工智能(AI)时,他们通常想到的是能够生成新文本、图像或语音内容的应用。像ChatGPT这样流行的文本应
    的头像 发表于 06-25 10:44 1275次阅读
    边缘<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>面临哪些工程挑战?

    利用NVIDIA 3D引导生成AI Blueprint控制图像生成

    AI 图像生成技术突飞猛进,从早期模型会生成手指过多的人类
    的头像 发表于 06-05 09:24 1004次阅读

    生成人工智能认证:重构AI时代的人才培养与职业跃迁路径

    ,恰似一座连接技术前沿与个体成长的桥梁,既承载着时代对人才的迫切需求,也指向着未来职场的核心竞争力。 一、技术革命的双重性:能与失衡并存 生成人工智能的突破性,在于其首次让机器具备了“无中生有”的创造力。从文本
    的头像 发表于 05-23 09:29 986次阅读