0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

不会PS还想做图?微软、京东出黑科技:说一句话就能生成图片!

DPVg_AI_era 来源:YXQ 2019-06-24 14:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

微软和京东最近出了一个黑科技:说一句话就能生成图片!在这项研究中,研究人员提出了一种新的机器学习框架——ObjGAN,可以通过关注文本描述中最相关的单词和预先生成的语义布局(semantic layout)来合成显著对象。

不会PS还想做图?可以的!

近期,由纽约州立大学奥尔巴尼分校、微软研究院和京东AI研究院合作的一篇文章就可以实现这个需求:只需要输入一句话,就可以生成图片!

输入:

输出:

在这项研究中,研究人员提出了一种新的机器学习框架——ObjGAN,可以通过关注文本描述中最相关的单词和预先生成的语义布局(semantic layout)来合成显著对象。

此外,他们还提出了一种新的基于Fast R-CNN的关于对象(object-wise)鉴别器,用来提供关于合成对象是否与文本描述和预先生成的布局匹配的对象识别信号

论文地址:

https://www.microsoft.com/en-us/research/uploads/prod/2019/06/1902.10740.pdf

这项工作已经发表在计算机视觉和模式识别领域顶会CVPR 2019。

这篇论文的合著作者表示,与之前最先进的技术相比,他们的方法大大提高了图像质量:

我们的生成器能够利用细粒度的单词和对象级(object-level)信息逐步细化合成图像。

大量的实验证明了ObjGAN在复杂场景的文本到图像生成方面的有效性和泛化能力。

一句话秒生成图片!

根据文本的描述来生成图像,可以说是机器学习中一项非常重要的任务。

这项任务需要处理自然语言描述中模糊和不完整的信息,并且还需要跨视觉和语言模式来进行学习。

自从GAN提出后,这项任务在结果上取得了较好的成绩,但是目前这些基于GAN的方法有一个缺点:

大多数图像合成方法都是基于全局句子向量来合成图像,而全局句子向量可能会丢失单词级别(word-level)的重要细粒度信息,从而阻碍高质量图像的生成。

大多数方法都没有在图像中明确地建模对象及其关系,因此难以生成复杂的场景。

图1 顶部:AttnGAN及其网格注意力可视化;中部:修改前人工作的结果;底部:ObjGAN及其对象驱动的注意力可视化

举个例子,如果要根据“几个人穿滑雪服的人在雪地里”这句话生成一张图片,那么需要对不同的对象(人、滑雪服)及其交互(穿滑雪服的人)进行建模,还需要填充缺失的信息(例如背景中的岩石)。

图1的第一行是由AttnGAN生成的图像,虽然图像中包含了人和雪的纹理,但是人的形状是扭曲的,图像布局在语义上是没有意义的。

为了解决这个问题,首先从文本构造语义布局,然后通过反卷积图像生成器合成图像。

从图1的中间一行可知,虽然细粒度的word/objectlevel信息仍然没有很好的用于生成。因此,合成的图像没有包含足够的细节让它们看起来更加真实。

本研究的目标就是生成具有语义意义(semantically meaningful)的布局和现实对象的高质量复杂图像。

为此,研究人员提出了一种新颖的对象驱动的注意力生成对抗网络(Object-driven Attentive Generative Adversarial Networks,Obj-GAN),该网络能够有效地捕获和利用细粒度的word/objectlevel信息进行文本到图像的合成。

ObjGAN由一对儿对象驱动的注意力图像生成器和object-wise判别器组成,并采用了一种新的对象驱动注意机制。

图2 对象驱动的注意力图像生成器

图3 Object-wise判别器

该图像生成器以文本描述和预先生成的语义布局为输入,通过多阶段由粗到精的过程合成高分辨率图像。

在每个阶段,生成器通过关注与该边界框中的对象最相关的单词来合成边界框内的图像区域,如图1的底部行所示。

更具体地说,它使用一个新的对象驱动的注意层,使用类标签查询句子中的单词,形成一个单词上下文向量,如图4所示,然后根据类标签和单词上下文向量条件合成图像区域。

图4 对象驱动的注意力

Object-wise判别器会对每个边界框进行检查,确保生成的对象确实与预先生成的语义布局是匹配的。

同时,为了有效地计算所有边界框的识别损失,object-wise判别器基于一个Fast-RNN,并且每个边界框都有一个二院交叉熵损失。

实验结果

研究人员在实验过程中采用的数据集是COCO数据集。它包含80个对象类,其中每个图像与对象注释(即,边界框和形状)和5个文本描述相关联。

在评价指标方面,研究人员采用 Inception score(IS)和Frechet Inception distance(FID) score作为定量评价指标。结果如下表所示:

表1

接下来,是采用不同方法生成图像的结果与实际图像的对比结果:

图5 整体定性比较。所有图像都是在不使用任何ground-truth的情况下生成的。

图6 与P-AttnGAN w/ Lyt进行定性比较

图7 与P-AttnGAN的定性比较。 每个方法的注意力图显示在生成的图像旁边。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6719

    浏览量

    107341
  • 京东方
    +关注

    关注

    25

    文章

    1581

    浏览量

    61895

原文标题:CVPR 2019:微软最新提出ObjGAN,输入一句话秒生成图片

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    EMMI-InGaAs 与 OBIRCH:分钟教你看懂两款失效定位设备原理与应用

    一句话区别总结 EMMI 看光 → 漏电、击穿这类“会发光的异常” OBIRCH 看热 → 金属短路、高阻这类“无光但致命的问题”
    的头像 发表于 12-05 16:21 96次阅读
    EMMI-InGaAs 与 OBIRCH:<b class='flag-5'>一</b>分钟教你看懂两款失效定位设备原理与应用

    一句话,多个命令同时执行,AI语音模组也能多任务处理?

    、 Ai-WV02-32S   将语音识别、唤醒、语义理解等核心功能, 浓缩在颗小小的模组中。 安信可AI语音模组支持 MCP 协议(Multi Command Processing,多命令并行处理) ,让语音交互从“单线程”进化为真正的“多任务协同”! 一句话唤醒“
    的头像 发表于 10-31 14:45 241次阅读
    <b class='flag-5'>一句话</b>,多个命令同时执行,AI语音模组也能多任务处理?

    真正免费的AI生成PPT工具盘点:告别收费陷阱

    的战斗机",其他9款工具也各有绝活,保证让你告别收费陷阱,轻松做出专业级PPT! 、AiPPT:一句话生成PPT的"时间管理大师" 一句话生成
    的头像 发表于 10-30 15:43 5381次阅读
    真正免费的AI<b class='flag-5'>生成</b>PPT工具盘点:告别收费陷阱

    智多晶SA5T-200 FPGA开发板重磅发布

    在科技飞速发展的今天,硬件与软件的融合正不断重塑我们的世界。而在芯片领域,流传着这样一句话:“软件定义世界,FPGA定义未来”。
    的头像 发表于 10-11 11:45 581次阅读

    树莓派官方都没告诉你的散热科技!

    ED-CM5ACOOLER——专为树莓派ComputeModule5(CM5)量身打造的小钢炮级主动散热器,一句话总结:装上它,CM5就能“满血”跑在2.4GHz,不降频、不烫手。所以,它到底厉害
    的头像 发表于 08-07 18:19 999次阅读
    树莓派官方都没告诉你的散热<b class='flag-5'>黑</b>科技!

    一句话了解21种计算模式

    、智能化趋势、安全与可持续四个维度,梳理了21种计算模式,并尽量用通俗易懂的一句话向您介绍每种模式的定义。架构与资源维度并行计算:把大任务拆成多个小任务,让多颗处理器
    的头像 发表于 08-06 14:31 503次阅读
    <b class='flag-5'>一句话</b>了解21种计算模式

    2025 AI主战场,连锁门店“变形记”

    让业务驾驭AI,当大模型的价值通过“取汉堡更快”“一句话点咖啡”来实现,这场技术变革才算真正落地
    的头像 发表于 07-24 12:41 1081次阅读
    2025 AI主战场,连锁门店“变形记”

    一句话PPT“的荣耀YOYO,AI生产力有多强?

    释放AI生产力,荣耀让智能体告别发布会炫技
    的头像 发表于 07-14 14:15 2283次阅读
    “<b class='flag-5'>一句话</b>秒<b class='flag-5'>出</b>PPT“的荣耀YOYO,AI生产力有多强?

    CYW55513是否支持linux4.4?

    开始支持55513的驱动版本是Infineon Linux Wi-Fi驱动程序(FMAC)(v2024_1115) 但在发行说明中有一句话 从内核版本 4.14 到内核版本 6.1.97 的反向移植支持 说明backport是不支持4.4的,我想确认下是否有驱动能支持l
    发表于 06-05 07:26

    使用FX3 SDK发布源代码是否违反许可?

    使用 FX3 SDK 发布源代码是否违反许可? CYPRESS™EZ-USB™ FX3 SDK1.3licenselicense.txt ”4. 专有权利; 到“您同意对源代码保密。” 那里写着一句话,所以我想问下以确定。
    发表于 05-08 06:54

    树莓派遇上ChatGPT,魔法热线就此诞生!

    派上,拿起听筒、拨号,就能享受由AI驱动的对话,仿佛回到了传统的电话时代。树莓派负责语音识别、文本生成和语音播放,ChatGPT会记住通话中的每一句话。这意味着你
    的头像 发表于 04-13 09:04 1.1w次阅读
    树莓派遇上ChatGPT,魔法热线就此诞生!

    求助,关于ADS1232的PDWN问题求解

    各位专家好!请教个问题: 在ADS1232的数据手册中看到一句话,“AVDD must be powered up at least 10us before PDWN goes high
    发表于 02-13 08:20

    想读ADS1248寄存器写入的值,是否必须改变SPI工作模式?

    我在ADS1248手册的53页看到这样的一句话,It is not possible to use the full-duplex nature of the SPI interface when
    发表于 01-09 07:45

    使用ADS1220设计款电路用来采集个电阻桥式传感器,使用内部的2.048V基准作为基准电压?

    请教个问题。我使用ADS1220设计款电路用来采集个电阻桥式传感器。设计的时候我想使用内部的2.048V基准作为基准电压,以下为电路。 但是我在看技术手册的时候,有这么
    发表于 01-06 06:00

    ADS1232的XTAL1和XTAL2怎么接?

    打算用到外部时钟,这里该如何接了,我看到一句话 那么是不是需要单片机的I/O口要连到XTAL1上才行了?? 正确的接法是不是Xtal1和XTAL2间接个晶振,然后还需要单片机个口线接到XTAL1? 单片机给什么信号能让它用外部晶振了?给高?? 因为XTAL1接低的话
    发表于 12-20 12:35