0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

何恺明新作RCG:无自条件图像生成新SOTA!与MIT首次合作!

CVer 来源:量子位 2023-12-10 10:24 次阅读

大佬何恺明还未正式入职MIT,但和MIT的第一篇合作研究已经出来了:

他和MIT师生一起开发了一个自条件图像生成框架,名叫RCG(代码已开源)。

这个框架结构非常简单但效果拔群,直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA。

968392de-96ac-11ee-8b88-92fbcf53809c.png

它生成的图像不需要任何人类注释(也就是提示词、类标签什么的),就能做到既保真又具有多样性。

968f3756-96ac-11ee-8b88-92fbcf53809c.png

这样的它不仅显著提高了无条件图像生成的水平,还能跟当前最好的条件生成方法一较高下。

用何恺明团队自己的话来说:

有条件和无条件生成任务之间长期存在的性能差距,终于在这一刻被弥补了。

那么,它究竟是如何做到的呢?

类似自监督学习的自条件生成

首先,所谓无条件生成,就是模型在没有输入信号帮助的情况下直接捕获数据分布生成内容。

这种方式比较难以训练,所以一直和条件生成有很大性能差距——就像无监督学习比不过监督学习一样。

但就像自监督学习的出现,扭转了这一局面一样。

在无条件图像生成领域,也有一个类似于自监督学习概念的自条件生成方法。

相比传统的无条件生成简单地将噪声分布映射到图像分布,这种方法主要将像素生成过程设置在从数据分布本身导出的表示分布上。

它有望超越条件图像生成,并推动诸如分子设计或药物发现这种不需要人类给注释的应用往前发展(这也是为什么条件生成图像发展得这么好,我们还要重视无条件生成)。

现在,基于这个自条件生成概念,何恺明团队首先开发了一个表示扩散模型RDM。

它主要用于生成低维自监督图像表示,方法是通过自监督图像编码器从图像中截取:

969c8794-96ac-11ee-8b88-92fbcf53809c.png

它的核心架构如下:

首先是输入层,它负责将表征投射到隐藏维度C,接着是N个全连接块,最后是一个输出层,负责把隐藏层的潜在特征重新投射(转换)到原始表征维度。

其中每一层都包含一个LayerNorm层、一个SiLU层以及一个线性层。

96aaccaa-96ac-11ee-8b88-92fbcf53809c.png

这样的RDM具有两个优点:

一是多样性强,二是计算开销小。

接着,利用RDM,团队就提出了今天的主角:表示条件图像生成架构RCG。

它是一个简单的自条件生成框架,由三个组件组成:

一个是SSL图像编码器,用于将图像分布转换为紧凑的表示分布。

一个是RDM,用于对该分布进行建模和采样。

最后是一个像素生成器MAGE,用于根据表示来处理图像像。

MAGE的工作方式主要是向token化的图像中添加随机掩码,并要求网络以从同一图像中提取的表示为条件来重建丢失的token。

96b8b810-96ac-11ee-8b88-92fbcf53809c.png

最终,测试表明,这个自条件生成框架虽结构简单但效果非凡:

在ImageNet 256×256上,RCG实现了3.56的FID和186.9的IS(Inception Score)得分。

相比之下,在它之前最厉害的无条件生成方法FID分数为7.04,IS得分为123.5。

96c3fdd8-96ac-11ee-8b88-92fbcf53809c.png

以及,相比条件生成,RCG也丝毫不逊色,可以达到相当甚至超过该领域基准模型的水平。

最后,在无分类器引导的情况下,RCG的成绩还能进一步提高到3.31(FID)和253.4(IS)。

团队表示:

这些结果表明,自条件图像生成模型拥有巨大潜力,可能预示这一领域新时代的到来。

团队介绍

本文一共三位作者:

96c8531a-96ac-11ee-8b88-92fbcf53809c.png

代码:https://github.com/LTH14/rcg

论文:https://arxiv.org/abs/2312.03701

一作是MIT博士生黎天鸿,本科毕业于清华姚班,研究方向为跨模态集成传感技术

他的主页很有意思,还专门放了一个菜谱合集——做研究和做饭是他最热爱的两件事。

96d25b26-96ac-11ee-8b88-92fbcf53809c.png

另一位作者是MIT电气工程与计算机科学系(EECS)教授、MIT无线网络和移动计算中心主任Dina Katabi,她是今年斯隆奖的获得者,并已当选美国国家科学院院士。

最后,通讯作者为何恺明,他将在明年正式回归学界、离开Meta加入MIT电气工程和计算机科学系,与Dina Katabi成为同事。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1063

    浏览量

    40041
  • MIT
    MIT
    +关注

    关注

    3

    文章

    253

    浏览量

    23248
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24351

原文标题:何恺明新作RCG:无自条件图像生成新SOTA!与MIT首次合作!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    KOALA人工智能图像生成模型问世

    近日,韩国科学团队宣布研发出名为 KOALA 的新型人工智能图像生成模型,该模型在速度和质量上均实现了显著突破。KOALA 能够在短短 2 秒内生成高质量图片,同时大幅降低了对硬件的需求,为
    的头像 发表于 03-05 10:46 333次阅读

    Stability AI试图通过新的图像生成人工智能模型保持领先地位

    Stability AI的最新图像生成模型Stable Cascade承诺比其业界领先的前身Stable Diffusion更快、更强大,而Stable Diffusion是许多其他文本到图像
    的头像 发表于 02-19 16:03 431次阅读
    Stability AI试图通过新的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>人工智能模型保持领先地位

    谷歌推出图像生成新工具ImageFX,提升图像质量

    作为实验室的新兴工具,ImageFX 允许用户借助简洁的文字指令来创作图像。经过前期试验,该团队认为对生成型人工智能工具来说最关键的是如何启发并鼓励用户挖掘和实践创意想法。
    的头像 发表于 02-02 14:18 262次阅读

    三项SOTA!MasQCLIP:开放词汇通用图像分割新网络

    MasQCLIP在开放词汇实例分割、语义分割和全景分割三项任务上均实现了SOTA,涨点非常明显。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。
    的头像 发表于 12-12 11:23 279次阅读
    三项<b class='flag-5'>SOTA</b>!MasQCLIP:开放词汇通用<b class='flag-5'>图像</b>分割新网络

    香港大学最新提出!实现超现实的人类图像生成:HyperHuman

    最后,为了进一步提高视觉质量,我们提出了一种结构引导细化器来组合预测条件,以更详细地生成更高分辨率。大量的实验表明,我们的框架具有最先进的性能,可以在不同的场景下生成超逼真的人类图像
    的头像 发表于 11-27 16:03 263次阅读
    香港大学最新提出!实现超现实的人类<b class='flag-5'>图像</b><b class='flag-5'>生成</b>:HyperHuman

    基于大语言模型的共情回复生成:实证研究和改进

    对以ChatGPT为代表的LLMs在共情回复生成上的表现进行了全面的实证研究,LLMs在现有的基准数据集上,对比以往的SOTA模型,表现极其优越。
    的头像 发表于 11-21 09:25 549次阅读
    基于大语言模型的共情回复<b class='flag-5'>生成</b>:实证研究和改进

    如何对照Yocto生成图像检查设备上的图像版本 ?

    如何对照 Yocto 生成图像检查设备上的图像版本 ?
    发表于 11-13 07:41

    CMU、MIT、清华联合发布全球首个生成式机器人智能体RoboGen

    CMU、MIT、清华联合发布了全球首个生成式机器人智能体RoboGen,可以无限生成数据,让机器人7*24小时永不停歇地训练。为机器人进入通用场景迈出坚实一步。
    的头像 发表于 11-09 10:19 668次阅读

    人工智能SOTA什么意思

    人工智能SOTA什么意思 人工智能SOTA是机器学习领域中的一个术语,指的是目前能够实现的最佳结果,SOTA是State of the art的缩写,意为“最新技术”的最佳状态。在人工智能领域
    的头像 发表于 08-22 16:45 1w次阅读

    低质量图像生成与增强的区别 图像生成领域中存在的难点

    1. 论文信息   2. 引言   这篇论文的研究背景是图像生成领域中存在的一个难点 - 如何从低质量的图像中恢复高质量的细节信息。这对很多下游应用如监控视频分析等都是非常重要的。现有的图像
    的头像 发表于 08-03 15:36 1068次阅读
    低质量<b class='flag-5'>图像</b>的<b class='flag-5'>生成</b>与增强的区别 <b class='flag-5'>图像</b><b class='flag-5'>生成</b>领域中存在的难点

    Nvidia AI剑走偏锋;MIT水泥破局出奇

    亲爱的朋友,欢迎收看河套IT WALK总第90期。 Nvidia的最新AI图像生成器Perfusion正在改变我们对图像生成的认知,而MIT
    的头像 发表于 08-02 19:50 281次阅读
    Nvidia AI剑走偏锋;<b class='flag-5'>MIT</b>水泥破局出奇

    基于扩散模型的图像生成过程

    近年来,扩散模型在文本到图像生成方面取得了巨大的成功,实现了更高图像生成质量,提高了推理性能,也可以激发扩展创作灵感。 不过仅凭文本来控制图像
    的头像 发表于 07-17 11:00 2108次阅读
    基于扩散模型的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>过程

    MIT的射频讲义

    大家好,这里是射频学堂。 今天分享一份MIT的射频讲义:Receivers, Antennas,and Signals,来自于MIT David H. Staelin 教授。 MIT讲义
    的头像 发表于 06-29 09:49 367次阅读
    <b class='flag-5'>MIT</b>的射频讲义

    虹软图像深度恢复技术与生成式AI的创新 生成式AI助力

    当前,生成式人工智能(AI)技术的快速发展令人瞩目。它能够理解人类的描述,并在短时间内生成逼真的图像和视频。在生成式AI的应用中,图像深度信
    发表于 06-21 09:06 309次阅读

    通过A2B更新软件—A2B如何给汽车应用中的SOTA带来变革

    无线软件升级(SOTA)正迅速成为汽车OEM须开发和部署的重要能力。更新模块、支持客户、和通过附加特性带来利润的能力,使得掌握SOTA成为一个有吸引力的主张。本文讨论SOTA为何出现在汽车环境中,如何部署
    的头像 发表于 06-15 16:02 1177次阅读
    通过A2B更新软件—A2B如何给汽车应用中的<b class='flag-5'>SOTA</b>带来变革