0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

StyleGAN在图像质量和可控性方面为生成模型树立了新的标杆

OpenCV学堂 来源:机器之心 作者:机器之心 2022-06-01 11:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

StyleGAN-XL 首次在 ImageNet 上实现了 1024^2 分辨率图像合成。

近年来,计算机图形学领域的研究者一直致力于生成高分辨率的仿真图像,并经历了一波以数据为中心的真实可控内容创作浪潮。其中英伟达的 StyleGAN 在图像质量和可控性方面为生成模型树立了新的标杆。

但是,当用 ImageNet 这样的大型非结构化数据集进行训练时,StyleGAN 还不能取得令人满意的结果。另一个存在的问题是,当需要更大的模型时,或扩展到更高的分辨率时,这些方法的成本会高得令人望而却步。

比如,英伟达的 StyleGAN3 项目消耗了令人难以想象的资源和电力。研究者在论文中表示,整个项目在 NVIDIA V100 内部集群上消耗了 92 个 GPU year(即单个 GPU 一年的计算)和 225 兆瓦时(Mwh)的电力。有人说,这相当于整个核反应堆运行大约 15 分钟。

最初,StyleGAN 的提出是为了明确区分变量因素,实现更好的控制和插值质量。但它的体系架构比标准的生成器网络更具限制性,这些限制似乎会在诸如 ImageNet 这种复杂和多样化的数据集上训练时带来相应代价。

此前有研究者尝试将 StyleGAN 和 StyleGAN2 扩展到 ImageNet [Grigoryev et al. 2022; Gwern 2020],导致结果欠佳。这让人们更加相信,对于高度多样化的数据集来说,StyleGAN 可能会从根本上受到限制。

受益于更大的 batch 和模型尺寸,BigGAN [Brock et al. 2019] 是 ImageNet 上的图像合成 SOTA 模型。最近,BigGAN 的性能表现正在被扩散模型 [Dhariwal and Nichol 2021] 超越。也有研究发现,扩散模型能比 GAN 实现更多样化的图像合成,但是在推理过程中速度明显减慢,以前的基于 GAN 的编辑工作不能直接应用。

此前在扩展 StyleGAN 上的失败尝试引出了这样一个问题:架构约束是否从根本上限制了基于 Style 的生成器,或者 missing piece 是否是正确的训练策略。最近的一项工作 [Sauer et al. 2021] 引入了 Projected GAN,将生成和实际的样本投射到一个固定的、预训练的特征空间。重组 GAN 设置这种方式显著改进了训练稳定性、训练时间和数据效率。然而,Projected GAN 的优势只是部分地延伸到了这项研究的单模态数据集上的 StyleGAN。

为了解决上述种种问题,英伟达的研究者近日提出了一种新的架构变化,并根据最新的 StyleGAN3 设计了渐进式生长的策略。研究者将改进后的模型称为 StyleGAN-XL,该研究目前已经入选了 SIGGRAPH 2022。

论文地址:https://arxiv.org/pdf/2202.00273.pdf

代码地址:https://github.com/autonomousvision/stylegan_xl

这些变化结合了 Projected GAN 方法,超越了此前在 ImageNet 上训练 StyleGAN 的表现。为了进一步改进结果,研究者分析了 Projected GAN 的预训练特征网络,发现当计算机视觉的两种标准神经结构 CNN 和 ViT [ Dosovitskiy et al. 2021] 联合使用时,性能显著提高。最后,研究者利用了分类器引导这种最初为扩散模型引入的技术,用以注入额外的类信息。

总体来说,这篇论文的贡献在于推动模型性能超越现有的 GAN 和扩散模型,实现了大规模图像合成 SOTA。论文展示了 ImageNet 类的反演和编辑,发现了一个强大的新反演范式 Pivotal Tuning Inversion (PTI)[ Roich et al. 2021] ,这一范式能够与模型很好地结合,甚至平滑地嵌入域外图像到学习到的潜在空间。高效的训练策略使得标准 StyleGAN3 的参数能够增加三倍,同时仅用一小部分训练时间就达到扩散模型的 SOTA 性能。

这使得 StyleGAN-XL 能够成为第一个在 ImageNet-scale 上演示 1024^2 分辨率图像合成的模型。

将 StyleGAN 扩展到 ImageNet

实验表明,即使是最新的 StyleGAN3 也不能很好地扩展到 ImageNet 上,如图 1 所示。特别是在高分辨率时,训练会变得不稳定。因此,研究者的第一个目标是在 ImageNet 上成功地训练一个 StyleGAN3 生成器。成功的定义取决于主要通过初始评分 (IS)[Salimans et al. 2016] 衡量的样本质量和 Fréchet 初始距离 (FID)[Heusel et al. 2017] 衡量的多样性。

在论文中,研究者也介绍了 StyleGAN3 baseline 进行的改动,所带来的提升如下表 1 所示:

0f08bff4-e15a-11ec-ba43-dac502259ad0.png

研究者首先修改了生成器及其正则化损失,调整了潜在空间以适应 Projected GAN (Config-B) 和类条件设置 (Config-C);然后重新讨论了渐进式增长,以提高训练速度和性能 (Config-D);接下来研究了用于 Projected GAN 训练的特征网络,以找到一个非常适合的配置 (Config-E);最后,研究者提出了分类器引导,以便 GAN 通过一个预训练的分类器 (Config-F) 提供类信息。

这样一来,就能够训练一个比以前大得多的模型,同时需要比现有技术更少的计算量。StyleGAN-XL 在深度和参数计数方面比标准的 StyleGAN3 大三倍。然而,为了在 512^2 像素的分辨率下匹配 ADM [Dhariwal and Nichol 2021] 先进的性能,在一台 NVIDIA Tesla V100 上训练模型需要 400 天,而以前需要 1914 天。(图 2)。

0f527dd8-e15a-11ec-ba43-dac502259ad0.png

实验结果

在实验中,研究者首先将 StyleGAN-XL 与 ImageNet 上的 SOTA 图像合成方法进行比较。然后对 StyleGAN-XL 的反演和编辑性能进行了评价。研究者将模型扩展到了 1024^2 像素的分辨率,这是之前在 ImageNet 上没有尝试过的。在 ImageNet 中,大多数图像的分辨率较低,因此研究者用超分辨率网络 [Liang et al. 2021] 对数据进行了预处理。

图像合成

如表 2 所示,研究者在 ImageNet 上对比了 StyleGAN-XL 和现有最强大的 GAN 模型及扩散模型的图像合成性能。

0f8a0a3c-e15a-11ec-ba43-dac502259ad0.png

有趣的是,StyleGAN-XL 在所有分辨率下都实现了高度的多样性,这可以归功于渐进式生长策略。此外,这种策略使扩大到百万像素分辨率的合成变成可能。

在 1024^2 这一分辨率下,StyleGAN-XL 没有与 baseline 进行比较,因为受到资源限制,且它们的训练成本高得令人望而却步。

图 3 展示了分辨率提高后的生成样本可视化结果。

0fb0f106-e15a-11ec-ba43-dac502259ad0.png

反演和操纵

同时,还可以进一步细化所得到的重构结果。将 PTI [Roich et al. 2021] 和 StyleGAN-XL 相结合,几乎可以精确地反演域内 (ImageNet 验证集) 和域外图像。同时生成器的输出保持平滑,如下图 4 所示。

0fdd1772-e15a-11ec-ba43-dac502259ad0.png

图 5、图 6 展示了 StyleGAN-XL 在图像操纵方面的性能:

101c12ba-e15a-11ec-ba43-dac502259ad0.png

106363ea-e15a-11ec-ba43-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51719
  • 图像质量
    +关注

    关注

    0

    文章

    36

    浏览量

    10339
  • 英伟达
    +关注

    关注

    23

    文章

    4044

    浏览量

    97702

原文标题:英伟达公布StyleGAN-XL:参数量3倍于StyleGAN3,计算时间仅为五分之一

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    福田启明星树立纯电轻卡价值新标杆

    纯电轻卡专属平台打造的福田启明星,以全维度安全防护与十年如新的可靠承诺,为纯电轻卡树立了安全与可靠的新标杆,更将用户价值融入每一项技术创新之中。
    的头像 发表于 11-21 14:47 375次阅读

    树立行业新标杆:施奈仕uv三防漆通过严苛测试,定义三防漆可靠新高度

    材料的可靠树立了新的标杆。uv三防漆,施奈仕uv三防漆在电气性能方面,CA6001的体积电阻率高达1.04×10¹⁴Ω·cm,湿热绝缘电阻稳定在≥5000MΩ,
    的头像 发表于 10-24 17:44 2342次阅读
    <b class='flag-5'>树立</b>行业新<b class='flag-5'>标杆</b>:施奈仕uv三防漆通过严苛测试,定义三防漆可靠新高度

    中车斫轮大模型通过国家生成式人工智能服务备案

    提供生成式人工智能服务的资质,成为我国轨道交通行业及央企高端装备制造业首个通过《生成式人工智能服务管理暂行办法》备案的大模型系统,凸显中国中车推动人工智能与装备制造业深度融合进程中的
    的头像 发表于 09-16 09:16 635次阅读

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    能够有效捕捉AI生成图像与真实手绘扫描图像在纹理、笔触、光影、全局一致方面的细微差异。 边缘端部署:将
    发表于 08-21 13:59

    国家级认证!拓维海云天“中文手写体作文图像识别评分生成算法”通过国家网信办备案

    近日,国家互联网信息办公室发布第十二批深度合成服务算法备案公告,拓维海云天自主研发的核心技术成果——“中文手写体作文图像识别评分生成算法”成功通过备案(备案编号:250011号)。这是拓维海云天
    的头像 发表于 08-15 16:42 1162次阅读
    国家级认证!拓维海云天“中文手写体作文<b class='flag-5'>图像</b>识别评分<b class='flag-5'>生成</b>算法”通过国家网信办备案

    移远通信飞鸢AIoT大模型应用算法成功通过备案

    近日,第十二批境内深度合成服务算法备案信息发布,移远通信"飞鸢AIoT大模型应用算法"榜上有名。这标志着该算法技术合规、安全可控性及社会价值上获得权威认可,彰显了移远通信
    的头像 发表于 08-06 08:48 717次阅读
    移远通信飞鸢AIoT大<b class='flag-5'>模型</b>应用算法成功通过备案

    领跑AIoT的关键一步!移远大模型应用算法成功通过备案

    近日,第十二批境内深度合成服务算法备案信息发布“飞鸢AIoT大模型应用算法”榜上有名这标志着该算法技术合规、安全可控性以及社会价值上获得权威认可彰显了移远通信
    的头像 发表于 08-05 19:05 715次阅读
    领跑AIoT的关键一步!移远大<b class='flag-5'>模型</b>应用算法成功通过备案

    模型半导体行业的应用可行分析

    有没有这样的半导体专用大模型,能缩短芯片设计时间,提高成功率,还能帮助新工程师更快上手。或者软硬件可以设计和制造环节确实有实际应用。会不会存在AI缺陷检测。 能否应用在工艺优化和预测维护中
    发表于 06-24 15:10

    Gemini API集成Google图像生成模型Imagen 3

    开发者现在可以通过 Gemini API 访问 Google 最先进的图像生成模型 Imagen 3。该模型最初仅对付费用户开放,不久后也将面向免费用户推出。
    的头像 发表于 05-14 16:53 970次阅读

    行业首创20kV耐压继电器为高压开关树立标杆

    Pickering通过扩展其广受欢迎的63系列舌簧继电器产品线,将开关触点间的耐压能力提升至20kV,从而树立了新的行业标杆。   2025年4月,英国克拉克顿滨海:高性能舌簧继电器领域的全球领导者
    发表于 04-16 09:59 757次阅读
    行业首创20kV耐压继电器为高压开关<b class='flag-5'>树立</b>新<b class='flag-5'>标杆</b>

    爱立信与Telstra、联发科技树立5G连接新标杆

    近日,爱立信、Telstra与联发科技(MediaTek)合作,在其5G SA商用现网上实现了9.4 Gbps的峰值下行链路速度,树立了5G连接新标杆实验室环境中,Telstra取得进一步突破,
    的头像 发表于 02-18 09:50 7842次阅读

    【「基于大模型的RAG应用开发与优化」阅读体验】+第一章初体验

    3降低幻觉风险:通过引入权威数据源(如学术论文、企业文档),RAG为生成过程提供“事实锚点”,减少模型虚构内容的可能。 4轻量化部署:开发者无需频繁微调大模型,仅需优化检索模块即可
    发表于 02-07 10:42

    SOLiDVUE激光雷达IC荣获CES创新奖,树立行业新标杆

    研发方面的深厚实力,更为整个行业树立了新的技术标杆。 CES创新奖作为全球消费电子领域的权威奖项,旨在表彰技术创
    的头像 发表于 01-20 13:57 846次阅读

    借助谷歌Gemini和Imagen模型生成质量图像

    快速发展的生成式 AI 领域,结合不同模型的优势可以带来显著的成果。通过利用谷歌的 Gemini 模型来制作详细且富有创意的提示,然后使用 Imagen 3
    的头像 发表于 01-03 10:38 1355次阅读
    借助谷歌Gemini和Imagen<b class='flag-5'>模型</b><b class='flag-5'>生成</b>高<b class='flag-5'>质量</b><b class='flag-5'>图像</b>

    【「大模型启示录」阅读体验】如何在客服领域应用大模型

    训练模型如BERT、GPT等。这些模型在理解自然语言、生成文本、处理对话等方面具有不同的能力。因此,选择
    发表于 12-17 16:53