0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

不会PS还想做图?微软、京东出黑科技:说一句话就能生成图片!

DPVg_AI_era 来源:YXQ 2019-06-24 14:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

微软和京东最近出了一个黑科技:说一句话就能生成图片!在这项研究中,研究人员提出了一种新的机器学习框架——ObjGAN,可以通过关注文本描述中最相关的单词和预先生成的语义布局(semantic layout)来合成显著对象。

不会PS还想做图?可以的!

近期,由纽约州立大学奥尔巴尼分校、微软研究院和京东AI研究院合作的一篇文章就可以实现这个需求:只需要输入一句话,就可以生成图片!

输入:

输出:

在这项研究中,研究人员提出了一种新的机器学习框架——ObjGAN,可以通过关注文本描述中最相关的单词和预先生成的语义布局(semantic layout)来合成显著对象。

此外,他们还提出了一种新的基于Fast R-CNN的关于对象(object-wise)鉴别器,用来提供关于合成对象是否与文本描述和预先生成的布局匹配的对象识别信号

论文地址:

https://www.microsoft.com/en-us/research/uploads/prod/2019/06/1902.10740.pdf

这项工作已经发表在计算机视觉和模式识别领域顶会CVPR 2019。

这篇论文的合著作者表示,与之前最先进的技术相比,他们的方法大大提高了图像质量:

我们的生成器能够利用细粒度的单词和对象级(object-level)信息逐步细化合成图像。

大量的实验证明了ObjGAN在复杂场景的文本到图像生成方面的有效性和泛化能力。

一句话秒生成图片!

根据文本的描述来生成图像,可以说是机器学习中一项非常重要的任务。

这项任务需要处理自然语言描述中模糊和不完整的信息,并且还需要跨视觉和语言模式来进行学习。

自从GAN提出后,这项任务在结果上取得了较好的成绩,但是目前这些基于GAN的方法有一个缺点:

大多数图像合成方法都是基于全局句子向量来合成图像,而全局句子向量可能会丢失单词级别(word-level)的重要细粒度信息,从而阻碍高质量图像的生成。

大多数方法都没有在图像中明确地建模对象及其关系,因此难以生成复杂的场景。

图1 顶部:AttnGAN及其网格注意力可视化;中部:修改前人工作的结果;底部:ObjGAN及其对象驱动的注意力可视化

举个例子,如果要根据“几个人穿滑雪服的人在雪地里”这句话生成一张图片,那么需要对不同的对象(人、滑雪服)及其交互(穿滑雪服的人)进行建模,还需要填充缺失的信息(例如背景中的岩石)。

图1的第一行是由AttnGAN生成的图像,虽然图像中包含了人和雪的纹理,但是人的形状是扭曲的,图像布局在语义上是没有意义的。

为了解决这个问题,首先从文本构造语义布局,然后通过反卷积图像生成器合成图像。

从图1的中间一行可知,虽然细粒度的word/objectlevel信息仍然没有很好的用于生成。因此,合成的图像没有包含足够的细节让它们看起来更加真实。

本研究的目标就是生成具有语义意义(semantically meaningful)的布局和现实对象的高质量复杂图像。

为此,研究人员提出了一种新颖的对象驱动的注意力生成对抗网络(Object-driven Attentive Generative Adversarial Networks,Obj-GAN),该网络能够有效地捕获和利用细粒度的word/objectlevel信息进行文本到图像的合成。

ObjGAN由一对儿对象驱动的注意力图像生成器和object-wise判别器组成,并采用了一种新的对象驱动注意机制。

图2 对象驱动的注意力图像生成器

图3 Object-wise判别器

该图像生成器以文本描述和预先生成的语义布局为输入,通过多阶段由粗到精的过程合成高分辨率图像。

在每个阶段,生成器通过关注与该边界框中的对象最相关的单词来合成边界框内的图像区域,如图1的底部行所示。

更具体地说,它使用一个新的对象驱动的注意层,使用类标签查询句子中的单词,形成一个单词上下文向量,如图4所示,然后根据类标签和单词上下文向量条件合成图像区域。

图4 对象驱动的注意力

Object-wise判别器会对每个边界框进行检查,确保生成的对象确实与预先生成的语义布局是匹配的。

同时,为了有效地计算所有边界框的识别损失,object-wise判别器基于一个Fast-RNN,并且每个边界框都有一个二院交叉熵损失。

实验结果

研究人员在实验过程中采用的数据集是COCO数据集。它包含80个对象类,其中每个图像与对象注释(即,边界框和形状)和5个文本描述相关联。

在评价指标方面,研究人员采用 Inception score(IS)和Frechet Inception distance(FID) score作为定量评价指标。结果如下表所示:

表1

接下来,是采用不同方法生成图像的结果与实际图像的对比结果:

图5 整体定性比较。所有图像都是在不使用任何ground-truth的情况下生成的。

图6 与P-AttnGAN w/ Lyt进行定性比较

图7 与P-AttnGAN的定性比较。 每个方法的注意力图显示在生成的图像旁边。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6754

    浏览量

    108089
  • 京东方
    +关注

    关注

    25

    文章

    1627

    浏览量

    62624

原文标题:CVPR 2019:微软最新提出ObjGAN,输入一句话秒生成图片

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    功率因数半夜乱跳?老电工一句话给你讲明白

    夜间空载功率因数波动属正常现象,不耗电、不伤设备,勿惊慌。
    的头像 发表于 04-27 18:55 165次阅读
    功率因数半夜乱跳?老电工<b class='flag-5'>一句话</b>给你讲明白

    海康云眸Claw正式亮相

    4月24日,在海康云眸成都用户沙龙上,海康云眸Claw正式亮相!只需一句话就能让它完成巡查、问题识别、整改推送、复盘的全链路闭环,还能精准适配不同岗位需求。
    的头像 发表于 04-27 17:06 849次阅读

    告别手忙脚乱!蜀瑞创新语音键顺控,一句话搞定开关柜

    语音键顺控,不是简单加个语音功能,而是可视化 + 语音 + 五防 + 自动顺控的体化升级 —— 让开关柜 “听得懂、做得准、看得见”,把电力运维从 “繁琐人工” 推向 “智能语音” 时代。一句话,搞定倒闸;
    的头像 发表于 04-24 09:16 294次阅读
    告别手忙脚乱!蜀瑞创新语音<b class='flag-5'>一</b>键顺控,<b class='flag-5'>一句话</b>搞定开关柜

    简单认识安信可VC系列离线语音识别模组

    VC系列是安信可基于云知声US516P6芯片推出的离线语音识别模组,支持中英文双语、150条指令词、98%识别率、100ms响应。不需联网、不需云端调用、个模组搞定本地语音控制,特别适合IoT设备、智能家居、工业控制场景。如果你做的产品需要"
    的头像 发表于 04-14 17:02 988次阅读

    一句话让大模型控制硬件:手把手教你给 EmbedClaw 添加自己的 Tool!

    很多人第次看到EmbedClaw会有种错觉:然而事实是:不能直接操作,但可以通过Tool去操作。这也是EmbedClaw很有意思的点。它不是把大模型硬塞进ESP32里当聊天机器人,而是把LLM
    的头像 发表于 04-01 18:32 153次阅读
    <b class='flag-5'>一句话</b>让大模型控制硬件:手把手教你给 EmbedClaw 添加自己的 Tool!

    逆天了!把OpenClaw装入ESP32-S3上是种什么体验

    最近小龙虾OpenClaw实在是太火了,相信你或多或少都刷到过。如果一句话解释什么是OpenClaw:款可以运行在任何系统上的A
    的头像 发表于 03-22 10:05 903次阅读
    逆天了!把OpenClaw装入ESP32-S3上是<b class='flag-5'>一</b>种什么体验

    小艺开放平台鸿蒙智能体开发智能体配置-基础信息

    创建智能体后,开发者可以进入智能体配置页面对智能体基础信息进行编辑。支持编辑智能体图标、智能体名称、智能体一句话描述、智能体支持的设备和系统、创建者昵称、智能体分类、智能体别名、AgentCard
    发表于 02-02 16:47

    EMMI-InGaAs 与 OBIRCH:分钟教你看懂两款失效定位设备原理与应用

    一句话区别总结 EMMI 看光 → 漏电、击穿这类“会发光的异常” OBIRCH 看热 → 金属短路、高阻这类“无光但致命的问题”
    的头像 发表于 12-05 16:21 1397次阅读
    EMMI-InGaAs 与 OBIRCH:<b class='flag-5'>一</b>分钟教你看懂两款失效定位设备原理与应用

    一句话,多个命令同时执行,AI语音模组也能多任务处理?

    、 Ai-WV02-32S   将语音识别、唤醒、语义理解等核心功能, 浓缩在颗小小的模组中。 安信可AI语音模组支持 MCP 协议(Multi Command Processing,多命令并行处理) ,让语音交互从“单线程”进化为真正的“多任务协同”! 一句话唤醒“
    的头像 发表于 10-31 14:45 690次阅读
    <b class='flag-5'>一句话</b>,多个命令同时执行,AI语音模组也能多任务处理?

    真正免费的AI生成PPT工具盘点:告别收费陷阱

    的战斗机",其他9款工具也各有绝活,保证让你告别收费陷阱,轻松做出专业级PPT! 、AiPPT:一句话生成PPT的"时间管理大师" 一句话生成
    的头像 发表于 10-30 15:43 6955次阅读
    真正免费的AI<b class='flag-5'>生成</b>PPT工具盘点:告别收费陷阱

    智多晶SA5T-200 FPGA开发板重磅发布

    在科技飞速发展的今天,硬件与软件的融合正不断重塑我们的世界。而在芯片领域,流传着这样一句话:“软件定义世界,FPGA定义未来”。
    的头像 发表于 10-11 11:45 1183次阅读

    一句话了解21种计算模式

    、智能化趋势、安全与可持续四个维度,梳理了21种计算模式,并尽量用通俗易懂的一句话向您介绍每种模式的定义。架构与资源维度并行计算:把大任务拆成多个小任务,让多颗处理器
    的头像 发表于 08-06 14:31 869次阅读
    <b class='flag-5'>一句话</b>了解21种计算模式

    2025 AI主战场,连锁门店“变形记”

    让业务驾驭AI,当大模型的价值通过“取汉堡更快”“一句话点咖啡”来实现,这场技术变革才算真正落地
    的头像 发表于 07-24 12:41 1401次阅读
    2025 AI主战场,连锁门店“变形记”

    一句话PPT“的荣耀YOYO,AI生产力有多强?

    释放AI生产力,荣耀让智能体告别发布会炫技
    的头像 发表于 07-14 14:15 2835次阅读
    “<b class='flag-5'>一句话</b>秒<b class='flag-5'>出</b>PPT“的荣耀YOYO,AI生产力有多强?

    CYW55513是否支持linux4.4?

    开始支持55513的驱动版本是Infineon Linux Wi-Fi驱动程序(FMAC)(v2024_1115) 但在发行说明中有一句话 从内核版本 4.14 到内核版本 6.1.97 的反向移植支持 说明backport是不支持4.4的,我想确认下是否有驱动能支持l
    发表于 06-05 07:26