0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

不会PS还想做图?微软、京东出黑科技:说一句话就能生成图片!

DPVg_AI_era 来源:YXQ 2019-06-24 14:02 次阅读

微软和京东最近出了一个黑科技:说一句话就能生成图片!在这项研究中,研究人员提出了一种新的机器学习框架——ObjGAN,可以通过关注文本描述中最相关的单词和预先生成的语义布局(semantic layout)来合成显著对象。

不会PS还想做图?可以的!

近期,由纽约州立大学奥尔巴尼分校、微软研究院和京东AI研究院合作的一篇文章就可以实现这个需求:只需要输入一句话,就可以生成图片!

输入:

输出:

在这项研究中,研究人员提出了一种新的机器学习框架——ObjGAN,可以通过关注文本描述中最相关的单词和预先生成的语义布局(semantic layout)来合成显著对象。

此外,他们还提出了一种新的基于Fast R-CNN的关于对象(object-wise)鉴别器,用来提供关于合成对象是否与文本描述和预先生成的布局匹配的对象识别信号

论文地址:

https://www.microsoft.com/en-us/research/uploads/prod/2019/06/1902.10740.pdf

这项工作已经发表在计算机视觉和模式识别领域顶会CVPR 2019。

这篇论文的合著作者表示,与之前最先进的技术相比,他们的方法大大提高了图像质量:

我们的生成器能够利用细粒度的单词和对象级(object-level)信息逐步细化合成图像。

大量的实验证明了ObjGAN在复杂场景的文本到图像生成方面的有效性和泛化能力。

一句话秒生成图片!

根据文本的描述来生成图像,可以说是机器学习中一项非常重要的任务。

这项任务需要处理自然语言描述中模糊和不完整的信息,并且还需要跨视觉和语言模式来进行学习。

自从GAN提出后,这项任务在结果上取得了较好的成绩,但是目前这些基于GAN的方法有一个缺点:

大多数图像合成方法都是基于全局句子向量来合成图像,而全局句子向量可能会丢失单词级别(word-level)的重要细粒度信息,从而阻碍高质量图像的生成。

大多数方法都没有在图像中明确地建模对象及其关系,因此难以生成复杂的场景。

图1 顶部:AttnGAN及其网格注意力可视化;中部:修改前人工作的结果;底部:ObjGAN及其对象驱动的注意力可视化

举个例子,如果要根据“几个人穿滑雪服的人在雪地里”这句话生成一张图片,那么需要对不同的对象(人、滑雪服)及其交互(穿滑雪服的人)进行建模,还需要填充缺失的信息(例如背景中的岩石)。

图1的第一行是由AttnGAN生成的图像,虽然图像中包含了人和雪的纹理,但是人的形状是扭曲的,图像布局在语义上是没有意义的。

为了解决这个问题,首先从文本构造语义布局,然后通过反卷积图像生成器合成图像。

从图1的中间一行可知,虽然细粒度的word/objectlevel信息仍然没有很好的用于生成。因此,合成的图像没有包含足够的细节让它们看起来更加真实。

本研究的目标就是生成具有语义意义(semantically meaningful)的布局和现实对象的高质量复杂图像。

为此,研究人员提出了一种新颖的对象驱动的注意力生成对抗网络(Object-driven Attentive Generative Adversarial Networks,Obj-GAN),该网络能够有效地捕获和利用细粒度的word/objectlevel信息进行文本到图像的合成。

ObjGAN由一对儿对象驱动的注意力图像生成器和object-wise判别器组成,并采用了一种新的对象驱动注意机制。

图2 对象驱动的注意力图像生成器

图3 Object-wise判别器

该图像生成器以文本描述和预先生成的语义布局为输入,通过多阶段由粗到精的过程合成高分辨率图像。

在每个阶段,生成器通过关注与该边界框中的对象最相关的单词来合成边界框内的图像区域,如图1的底部行所示。

更具体地说,它使用一个新的对象驱动的注意层,使用类标签查询句子中的单词,形成一个单词上下文向量,如图4所示,然后根据类标签和单词上下文向量条件合成图像区域。

图4 对象驱动的注意力

Object-wise判别器会对每个边界框进行检查,确保生成的对象确实与预先生成的语义布局是匹配的。

同时,为了有效地计算所有边界框的识别损失,object-wise判别器基于一个Fast-RNN,并且每个边界框都有一个二院交叉熵损失。

实验结果

研究人员在实验过程中采用的数据集是COCO数据集。它包含80个对象类,其中每个图像与对象注释(即,边界框和形状)和5个文本描述相关联。

在评价指标方面,研究人员采用 Inception score(IS)和Frechet Inception distance(FID) score作为定量评价指标。结果如下表所示:

表1

接下来,是采用不同方法生成图像的结果与实际图像的对比结果:

图5 整体定性比较。所有图像都是在不使用任何ground-truth的情况下生成的。

图6 与P-AttnGAN w/ Lyt进行定性比较

图7 与P-AttnGAN的定性比较。 每个方法的注意力图显示在生成的图像旁边。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6145

    浏览量

    103011
  • 京东方
    +关注

    关注

    24

    文章

    1352

    浏览量

    59197

原文标题:CVPR 2019:微软最新提出ObjGAN,输入一句话秒生成图片

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    OpenAI又打出王炸!一句话生成60秒视频,马斯克:人类认输吧

    电子发烧友网报道(文/梁浩斌)在大年初七,春节假期的尾声,OpenAI突然发布的AI文字生成视频模型Sora被全网刷屏,马斯克甚至感叹“gg Humans”(gg是good game的缩写,在竞技
    的头像 发表于 02-19 09:02 3227次阅读
    OpenAI又打出王炸!<b class='flag-5'>一句话</b><b class='flag-5'>生成</b>60秒视频,马斯克:人类认输吧

    文生视频Pika 1.0爆火!一句话生成视频,普通人也能当“导演”

    几乎不需要任何门槛,用户只需要输入一句话,就可以生成想要的各种风格的视频,并通过简单的描述,更改视频中的形象和风格。   Pika labs官方宣传视频效果图相当惊艳   一句话生成
    的头像 发表于 12-01 01:08 2888次阅读
    文生视频Pika 1.0爆火!<b class='flag-5'>一句话</b><b class='flag-5'>生成</b>视频,普通人也能当“导演”

    NPN型三极管发射结电势和基极电流有关问题

    教材有一句话:发射结电势减小,导致基极电流减小 这句话如果单看三极管的输入特性曲线确实没问题,但是三极管实际工作的静态工作点Q是输入特性曲线和输入回路负载线的交点,这个时候减小,​​​​​​负载线
    发表于 03-23 09:36

    请问AD2428 TX crossbar是个什么功能?

    AD2428 TRM中,描述升采样功能的最后一句话时,提到了个TX crossbar功能,全文搜索crossbar只有这处,这是个什么功能?
    发表于 03-07 07:00

    STM32H750配置时ETH中有一句话‘the eth can work only when ram is pointing at 0x24000000’是什么意思?

    句话的意思是 TX和RX的描述符要在0x2400 0000(AXI-SRAM)的地址吗 ETH_DMADescTypeDefDMARxDscrTab[ETH_RX_DESC_CNT
    发表于 03-06 08:31

    一句话证明我是工程师?这不纯纯送分题

    晶振扬兴科技
    扬兴科技
    发布于 :2023年12月05日 18:57:33

    C语言中数字怎么转成指针?

    C语言中数字怎么转成指针,比如我要去内存地址为0x100的内容,用一句话表达,不如uchar a=?我要问号等于0x100地址的内容
    发表于 10-31 06:29

    串口流控的意义是什么?

    从来没用过,也不知道是怎么用的 现在有可能要用,有大神能用一句话讲的明白的么
    发表于 10-20 07:26

    今日话题一句话,别人听就知道你是个电子人

    电源电路PCB设计电子技术
    学习电子知识
    发布于 :2023年08月23日 22:22:32

    关于MCU200T的DDR3的配置和原理的问题

    MCU200T的DDR3在官方给的如下图两份文件中都没有详细的介绍。 在introduction文件中只有简略的如下图的一句话的介绍 在schematic文件中也没有明确表明每个接口的具体信息
    发表于 08-17 07:37

    怎么在波形仿真的时候查看汇编语言编译后的执行结果?

    文件(生成的.verilog文件如下);在该文件中没有找到lui x18,1; 这条指令(0x00001937);一句话说,就是把汇编语言编译了后在生成的.verilog文件中没找对应的汇编指令。
    发表于 08-17 06:55

    #硬声创作季 电子知识 一句话讲清零基础

    元器件电子知识
    Mr_haohao
    发布于 :2023年07月25日 22:48:31

    RT105x:SAI处于同步模式是什么意思?

    我在 Ref Man 中读到: 以第种情况为例:Tx是Async,Rx是Sync,所以都使用Tx时钟。 考虑以蓝色突出显示的最后一句话,让我们只考虑启用: 这意味着: 如果我打开 Tx
    发表于 06-08 06:12

    IPCF demo with FreeRTOS on CM7无法通过中断完全通信怎么解决?

    时,内核间通信无法正常工作,只收到这样一句话, FreeRTOS的配置及部分修改程序如下 由于硬件原因无法调试。
    发表于 06-01 06:07

    一句话概括EDA技术

    这些可用于生产的图形被制作成各种掩膜,通过光刻等工艺在不同的材料如半导体、金属导体、绝缘介质上制造出各种图形,并通过技术手段将这些图形组合在一起,就形成了芯片、封装、PCB等,进而制造出人们熟悉的手机、电脑等电子设备。
    的头像 发表于 05-12 15:08 546次阅读