0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AttnGAN可以生成任意图像,从普通的田园风光到抽象的场景

zhKF_jqr_AI 来源:未知 作者:李倩 2018-08-24 09:01 次阅读

机器学习发展至今,我们看到很多AI模型经过大量数据能画画、能作曲。但是现在一个“神奇”的网站可以通过你的文字生成意想不到的图像。事情还要从大半年前的一篇论文说起。

在今年一月份发表的一篇论文中,微软研究院的实习生们训练了一个机器学习算法,称为AttnGAN。这是GAN的一种变体,可以根据写下的文字生成图像,图像质量是之前技术生成的图像质量的三倍。

这项技术可以生成任意图像,从普通的田园风光到抽象的场景,每幅图都能将文字描述详细地表示出来。

论文简介

最近很多文本生成图像的方法都是基于生成对抗网络(GAN)的,常用方法是将完整的文本描述编写进整个句子向量中作为图片生成的条件。虽然已经能生成质量不错的图像了,但是由于句子向量缺少在词语层面上的微调信息,GAN无法生成更高质量的图像。这一问题在生成复杂场景时更严重。

为了解决这一问题,作者提出了注意力生成对抗网络(AttnGAN),用注意力驱动、多阶段的方法对文本生成图像的问题进行微调。AttnGAN的整体结构如图:

模型有两个创新元素。首先是注意力生成网络,其中的注意力机制是通过观察与该区域最相关的文字,生成器画出图像的不同部分。

更具体地说,除了将自然语言描述编码到全局句子向量中,句中的每个单词同样有对应的向量。在第一阶段,生成网络利用全局句子向量生成一个低分辨率的图像。接着,它会通过注意力层用每个区域的图片向量查询词向量,从而形成一个词-语境向量。之后,它会将区域图像向量和对应的词-语境向量相结合,形成一个多模态的语境向量。这就能够在各个阶段生成细节更丰富的高分辨率图像。

该结构中的另一个重要组成部分是深度注意力多模态相似模型(DAMSM)。由于有注意力机制,DAMSM可以计算生成图像和句子之间的相似性。所以,DAMSM对训练生成器提供了额外的调整损失函数。

模型试验

与此前的方法相同,这篇论文提出的方法也在CUB和COCO两个数据集上测试。最终训练的结果如下:

每个场景的第一张图片都是AttnGAN的第一阶段(G0),仅仅描绘出了场景的原始轮廓,图像分辨率很低。基于词向量,接下来的两个阶段(G1和G2)学习纠正前面的结果。

在CUB数据集上的生成结果

经过COCO数据集训练的模型生成的结果,图中的描述几乎是不可能在现实中出现的

奇怪的方向

总的来说,AttnGAN的表现还是不错的。但是国外一些研究者逐渐找到了新的玩法。研究者Cristóbal Valenzuela根据论文搭建了一个网站,用户可以尝试AttnGAN,但不同的是,训练数据换成了更大的数据集。机器学习爱好者Janelle Shane在博客中写道:“当把这个算法在另一个更大的、内容更多样的数据集上训练后,生成的图片难以符合文字描述(并且变得非常奇怪)。”例如下面这个例子,同样的一句话,用原始模型生成的图片是这样的:

然而换了训练数据集后:

这是……什么?由于在更大的数据集上训练过,所以当GAN要画出我要求的内容时,它要搜索的图像就更多,问题也变得广泛。不仅仅在小鸟的生成上有限制,在生成人像上也会出现bug,例如下图:

这个表现得就很糟了,根本分不清哪里是人脸。其他类似的还有很多,完全就是超现实主义作品。

Janelle Shane表示:“这个demo非常有趣,它也体现了目前先进的图像识别算法是如何理解图像和文字的。它们如何理解’狗’或’人类’?在2D图像中,算法看到的人指向前方和侧面是完全不同的。”

对于这一结果,AttnGAN论文的作者Tao Xu也给予了回复。Xu目前是美国理海大学一名研究生,她认为这是对论文结果的重要改进:

“随着深度学习的快速发展,计算机视觉系统非常强大。例如它们可以从医学影像中诊断疾病、在自动驾驶系统中定位行人和汽车。但是,我们仍然不能认为这些系统完全理解了它们所看到的东西。因为,如果机器真的拥有了智慧,它们不会仅识别图像,而是可以生成图像。

我们的AttnGAN将注意力机制和生成对抗网络结合了起来,大大提高了文本生成图像的模型性能。由于注意力是人类特有的概念,我们的AttnGAN就能学习这种”智慧“,像人类一样画画,即注意相关词语以及相关图像区域。

虽然AttnGAN比之前的文本到图像的模型表现得更好,但是生成多种“现实画风”的物体对整个领域还是待解决的问题。我们希望未来在这一方向进行更多研究。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130556
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24349
  • 自然语言
    +关注

    关注

    1

    文章

    269

    浏览量

    13203

原文标题:虽然很惊悚,但这个AI灵魂画手真的很努力了

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于扩散模型的图像生成过程

    近年来,扩散模型在文本到图像生成方面取得了巨大的成功,实现了更高图像生成质量,提高了推理性能,也可以激发扩展创作灵感。 不过仅凭文本来控制
    的头像 发表于 07-17 11:00 2106次阅读
    基于扩散模型的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>过程

    鲁班,视觉生成引擎的应用

    is to create.”。三、使用场景视觉生成引擎的使用场景大致可抽象成下图。以显式输入而言,用户可以输入标签需要的风格、色彩、构图等
    发表于 04-28 15:36

    六月,带你品味合心镇的合心瓜,享受田园采摘生活

    六月的绿园热情似火,六月的合心瓜果飘香,在这喜人的季节里,迎来了又一次“瓜熟蒂落”。合心镇地处上风上水,是绿园区农业发展主战场,是长春市现代都市农业示范区。这里有美丽的田园风光、有淳朴的民风民俗,有
    发表于 06-21 10:57

    LabVIEW和VDM提取色彩和生成灰度图像

    能够提供灰度图像准确表达的唯一颜色平面。 如何使用LabVIEW和VDM提取色彩和生成灰度图像以及IMAQ:彩色图像灰度图中包含可重复使用
    发表于 05-26 20:39

    MAX4455 任意图形随屏显示视频发生器

    MAX4455 任意图形随屏显示视频发生器   MAX4455是一款8通道的任意图形OSD视频发生器,可以任意灰度级位图嵌入到8路异步复合视频信号源中。MAX4455能
    发表于 12-26 08:15 989次阅读

    红外场景仿真在导引头图像实时生成中的应用

    描述了利用Vega Prime生成红外场景的方法,针对该方法在成像制导仿真系统应用中出现的问题进行了讨论。介绍了地形场景模型的建立方法;分析了制导仿真图像
    发表于 05-19 18:25 0次下载
    红外<b class='flag-5'>场景</b>仿真在导引头<b class='flag-5'>图像</b>实时<b class='flag-5'>生成</b>中的应用

    DMD实现动态红外场景生成系统

    利用Visual C++6.0和Vega API开发了交互式红外图像生成软件,实时生成不同地域各种环境下目标和背景的红外图像,模拟真实场景
    发表于 11-11 14:49 28次下载
    DMD实现动态红外<b class='flag-5'>场景</b><b class='flag-5'>生成</b>系统

    基于形式概念分析的图像场景语义标注模型

    生成有效表示图像场景语义的视觉词典,提高场景语义标注性能,提出一种基于形式概念分析( FCA)的图像
    发表于 01-12 15:49 1次下载
    基于形式概念分析的<b class='flag-5'>图像</b><b class='flag-5'>场景</b>语义标注模型

    GAN在图像生成应用综述

    GAN 可以任意的分布作为输入,这里的 Z 就是输入,在实验中我们多取Z∼N(0,1),也多取 [−1,1] 的均匀分布作为输入。生成器 G 的参数为 θ,输入 Z 在生成器下得到
    的头像 发表于 02-13 13:59 5288次阅读
    GAN在<b class='flag-5'>图像</b><b class='flag-5'>生成</b>应用综述

    融合施工场景及空间关系的图像描述生成模型

    为解决施工场景中缺少空间关系图像描述的问题,提出一种融合施工场景及空间关系的图像描述生成模型。采用YoLoⅴ3网络进行目标检测,以 Tran
    发表于 04-02 14:15 0次下载
    融合施工<b class='flag-5'>场景</b>及空间关系的<b class='flag-5'>图像</b>描述<b class='flag-5'>生成</b>模型

    一种结合回复生成的对话意图预测模型

    ,但是,在很多场景下回复可能并没有生成。因此,文中提出了一种结合回复生成的对话意图预测模型。在生成部分,使用Seq2Seq结构,根据对话历史
    发表于 04-14 14:02 5次下载
    一种结合回复<b class='flag-5'>生成</b>的对话<b class='flag-5'>意图</b>预测模型

    一种基于改进的DCGAN生成SAR图像的方法

    的方法。为测试和验证多个同类图像识别软件,并进行择优,需要自行设计不同于训练用的图像来对测软件进行测试。此方法可以为择优测试提供一个公平的基准测试集。实验分别使用原 DCGAN模型和改进的 DCGAN模型
    发表于 04-23 11:01 21次下载
    一种基于改进的DCGAN<b class='flag-5'>生成</b>SAR<b class='flag-5'>图像</b>的方法

    生成任意量级偏置电流网络(一)

    正如上一篇系列文章所述,利用运放反馈与基准电压生成任意大小的直流电流是一个简单、直接的过程。但是,假设须要生成一些任意数量(以N为例)的电流沉/源(current sink/sourc
    发表于 11-10 09:40 327次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>任意</b>量级偏置电流网络(一)

    java抽象可以普通方法吗

    Java中的抽象可以普通方法,但它也可以抽象方法。抽象类是一种中间状态,介于
    的头像 发表于 11-21 10:22 587次阅读

    一键解锁:将任意图像设备秒变GigE Vision设备的终极秘诀

    ​物联网发展正在走向轻便和低成本。友思特eBUS Edge软件方案,可将任意图像设备一键升级为GigE Vision设备,让机器视觉便捷处理更进一步。
    的头像 发表于 03-13 17:20 231次阅读
    一键解锁:将<b class='flag-5'>任意图像</b>设备秒变GigE Vision设备的终极秘诀