0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

何恺明新作RCG:无自条件图像生成新SOTA!与MIT首次合作!

CVer 来源:量子位 2023-12-10 10:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大佬何恺明还未正式入职MIT,但和MIT的第一篇合作研究已经出来了:

他和MIT师生一起开发了一个自条件图像生成框架,名叫RCG(代码已开源)。

这个框架结构非常简单但效果拔群,直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA。

968392de-96ac-11ee-8b88-92fbcf53809c.png

它生成的图像不需要任何人类注释(也就是提示词、类标签什么的),就能做到既保真又具有多样性。

968f3756-96ac-11ee-8b88-92fbcf53809c.png

这样的它不仅显著提高了无条件图像生成的水平,还能跟当前最好的条件生成方法一较高下。

用何恺明团队自己的话来说:

有条件和无条件生成任务之间长期存在的性能差距,终于在这一刻被弥补了。

那么,它究竟是如何做到的呢?

类似自监督学习的自条件生成

首先,所谓无条件生成,就是模型在没有输入信号帮助的情况下直接捕获数据分布生成内容。

这种方式比较难以训练,所以一直和条件生成有很大性能差距——就像无监督学习比不过监督学习一样。

但就像自监督学习的出现,扭转了这一局面一样。

在无条件图像生成领域,也有一个类似于自监督学习概念的自条件生成方法。

相比传统的无条件生成简单地将噪声分布映射到图像分布,这种方法主要将像素生成过程设置在从数据分布本身导出的表示分布上。

它有望超越条件图像生成,并推动诸如分子设计或药物发现这种不需要人类给注释的应用往前发展(这也是为什么条件生成图像发展得这么好,我们还要重视无条件生成)。

现在,基于这个自条件生成概念,何恺明团队首先开发了一个表示扩散模型RDM。

它主要用于生成低维自监督图像表示,方法是通过自监督图像编码器从图像中截取:

969c8794-96ac-11ee-8b88-92fbcf53809c.png

它的核心架构如下:

首先是输入层,它负责将表征投射到隐藏维度C,接着是N个全连接块,最后是一个输出层,负责把隐藏层的潜在特征重新投射(转换)到原始表征维度。

其中每一层都包含一个LayerNorm层、一个SiLU层以及一个线性层。

96aaccaa-96ac-11ee-8b88-92fbcf53809c.png

这样的RDM具有两个优点:

一是多样性强,二是计算开销小。

接着,利用RDM,团队就提出了今天的主角:表示条件图像生成架构RCG。

它是一个简单的自条件生成框架,由三个组件组成:

一个是SSL图像编码器,用于将图像分布转换为紧凑的表示分布。

一个是RDM,用于对该分布进行建模和采样。

最后是一个像素生成器MAGE,用于根据表示来处理图像像。

MAGE的工作方式主要是向token化的图像中添加随机掩码,并要求网络以从同一图像中提取的表示为条件来重建丢失的token。

96b8b810-96ac-11ee-8b88-92fbcf53809c.png

最终,测试表明,这个自条件生成框架虽结构简单但效果非凡:

在ImageNet 256×256上,RCG实现了3.56的FID和186.9的IS(Inception Score)得分。

相比之下,在它之前最厉害的无条件生成方法FID分数为7.04,IS得分为123.5。

96c3fdd8-96ac-11ee-8b88-92fbcf53809c.png

以及,相比条件生成,RCG也丝毫不逊色,可以达到相当甚至超过该领域基准模型的水平。

最后,在无分类器引导的情况下,RCG的成绩还能进一步提高到3.31(FID)和253.4(IS)。

团队表示:

这些结果表明,自条件图像生成模型拥有巨大潜力,可能预示这一领域新时代的到来。

团队介绍

本文一共三位作者:

96c8531a-96ac-11ee-8b88-92fbcf53809c.png

代码:https://github.com/LTH14/rcg

论文:https://arxiv.org/abs/2312.03701

一作是MIT博士生黎天鸿,本科毕业于清华姚班,研究方向为跨模态集成传感技术

他的主页很有意思,还专门放了一个菜谱合集——做研究和做饭是他最热爱的两件事。

96d25b26-96ac-11ee-8b88-92fbcf53809c.png

另一位作者是MIT电气工程与计算机科学系(EECS)教授、MIT无线网络和移动计算中心主任Dina Katabi,她是今年斯隆奖的获得者,并已当选美国国家科学院院士。

最后,通讯作者为何恺明,他将在明年正式回归学界、离开Meta加入MIT电气工程和计算机科学系,与Dina Katabi成为同事。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1097

    浏览量

    42526
  • MIT
    MIT
    +关注

    关注

    3

    文章

    255

    浏览量

    25090
  • 数据集
    +关注

    关注

    4

    文章

    1242

    浏览量

    26322

原文标题:何恺明新作RCG:无自条件图像生成新SOTA!与MIT首次合作!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    南京艺术学院与洲科技签署校企合作协议

    近日,南京艺术学院与洲科技校企合作签约仪式在学院行政楼举行。
    的头像 发表于 05-07 16:04 245次阅读

    实锤!比亚迪首次披露研激光雷达进度,已量产上车!(将全民普及)

      全球第一的新能源汽车企业比亚迪,研激光雷达来了!已实现量产上车!     此前,市场早已有比亚迪研激光雷达的传闻,如今,比亚迪官方首次确认研激光雷达产品的存在。   在3月2
    的头像 发表于 04-01 20:07 3245次阅读
    实锤!比亚迪<b class='flag-5'>首次</b>披露<b class='flag-5'>自</b>研激光雷达进度,已量产上车!(将全民普及)

    科技研山隐大模型完成双备案

    2026年3月17日,由洲集团旗下全资AI子公司——洲数字文化自主研发,“中华优秀传统文化大模型”(山隐大模型)成功完成生成合成类算法+生成式人工智能服务的“双备案”。
    的头像 发表于 03-18 16:07 446次阅读

    潇湘电影集团与洲集团达成战略合作

    12月10日,潇湘电影集团与洲集团战略合作签约仪式圆满举行。此次合作双方将在LED电影屏、光显系统及国产电影拍摄器材等核心领域展开深度合作,共同推动影视产业与光显科技的融合创新。
    的头像 发表于 12-18 13:52 689次阅读

    科技与沙特航空俱乐部稳步推进战略合作关系

    11月25至29日,洲科技作为独家数字合作伙伴,成功点亮沙特通用航空航展Sand & Fun 2025。
    的头像 发表于 12-08 10:46 914次阅读

    使用Firebase AI Logic生成图像模型的两种新功能

    为您的应用添加自定义图像,能够显著改善和个性化用户体验,有效提高用户参与度。本文将探讨使用 Firebase AI Logic 生成图像的两种新功能: 其一是 Imagen 专属编辑功能预览版;其二
    的头像 发表于 11-30 09:28 636次阅读

    华为与毛里求斯电信深化智网络战略合作

    第28届非洲通信展(AFRICA COM)期间,华为与毛里求斯电信(Mauritius Telecom)签署了IP智网络联合创新合作备忘录,双方深化智网络战略合作,聚焦AN L4(
    的头像 发表于 11-19 15:34 763次阅读

    科技与中建西南院科技公司达成战略合作

    近日,由中建西南院电气专委会、科技公司主办的“数字电气学术论坛暨生态合作伙伴大会”在成都圆满召开。大会期间,洲科技与中建西南院科技公司正式签署战略合作协议,携手推动LED光显领域的生态建设与创新发展。
    的头像 发表于 10-11 10:14 793次阅读

    科技与Dimension Studio签署合作备忘录

    近日,洲科技与Dimension Studio、Cambridge Picture Company及北京山慕影视文化传媒有限公司正式签署合作备忘录。
    的头像 发表于 09-28 18:20 1703次阅读

    AURIX tc367通过 MCU SOTA 更新逻辑 IC 闪存是否可行?

    你好专家:我的用例是 MCU 通过 SPI 连接到逻辑 IC,逻辑 IC 连接到 8MB 闪存,但 MCU PFLASH 大小为 2MB,通过 MCU SOTA 更新逻辑 IC 闪存是否可行?
    发表于 08-11 06:36

    求助,关于TC387使能以及配置SOTA 中一些问题求解

    你好, 之前我拿到贵司给一个demo,里面有一些使能以及配置SWAP的代码, 这里有些疑问 问题1. 判断SOTA功能是否生效,demo中使用的是 SCU_STMEM1中的bit位, 代码如下
    发表于 08-08 07:31

    福耀科技大学与洲科技达成战略合作

    2025年8月5日,福建福耀科技大学与洲科技正式签署校企战略合作协议。
    的头像 发表于 08-06 18:18 1845次阅读

    数字文化科技与中山大学旅游学院达成战略合作

    近日,洲集团旗下AI子公司——深圳市洲数字文化科技有限公司与中山大学旅游学院正式签署战略合作意向书。
    的头像 发表于 06-23 15:46 1202次阅读

    科技与易科公司达成战略合作

    近日,音视频领域头部企业“深圳易科声光科技股份有限公司”(以下简称易科公司)与洲科技在洲明大亚湾科技园正式签署战略合作协议。双方将在LED显示技术、声光系统集成等领域全面深化协作,携手探索智慧视听生态新未来。
    的头像 发表于 06-19 16:30 1309次阅读

    利用NVIDIA 3D引导生成式AI Blueprint控制图像生成

    AI 赋能的图像生成技术突飞猛进,从早期模型会生成手指过多的人类图像,到现在能创造出令人惊叹的逼真视觉效果。即使取得了如此飞跃,仍然存在一个挑战:实现创意掌控。
    的头像 发表于 06-05 09:24 1083次阅读