微软AI可以根据详细的文本描述来绘制对象-电子发烧友网

谷歌可能教过人工智能如何涂鸦，但绘制一些更复杂的东西对于电脑来说很难。想象一下，让一台电脑画一只“黑色的翅膀和一个短喙的黄色的鸟”;这听起来有点棘手。不过，微软的研究人员已经开发了一种基于人工智能的技术来做到这一点。根据团队发布的最新文章，它以惊人的准确性从文本描述生成图像。

系统根据您的输入找不到现有的图像，但会创建真实的图形。首席研究员何晓东在一份声明中表示：“如果你去了Bing并且寻找一只鸟，你就会得到一张鸟的照片，但是这里的照片是由计算机逐个像素地从头开始制作的。 “这些鸟可能不存在于现实世界中 - 它们只是我们计算机对鸟类想像力的一个方面。”

虽然这种绘画技术的当前形式并不完美，但不难想象，未来它可以作为画家和室内设计师的素描助手，或者是基于语音输入来精炼照片的工具。更远的是，研究人员他想象从书面脚本生成的动画电影。

该团队开始研究计算机视觉和自然语言处理与CaptionBot，一个人工智能系统，自动为照片写字幕，然后创建一个系统回答人们问的图像称为SeeingAI的问题，如果你是盲人。目前的技术由两部分组成：一个是产生被称为生成对抗网络（GAN）的图像，另一个是判断所产生的图像的质量，称为鉴别器。绘图机器人接受了一系列图像和标题的训练，教导人工智能学习使用哪些图像处理哪些单词。团队还创建了一个人类关注的数学表示，当我们从复杂的描述中绘制图片时，我们都使用这个表示：一个红色的翅膀，一个尖锐的喙，一个黄色的翅膀。他说：“注意力是一个人的概念，我们用数学来计算注意力。”

这个绘图机器人完成了围绕计算机视觉和自然语言处理交叉部分的研究循环，何晓东和他的同事在过去五年中一直在这个领域内摸索。他们一开始研究的是一项能够自动为照片编写标题的技术——CaptionBot，然后转向能够回答人类关于图像问题（例如语音对象的位置和属性）的技术，这种技术对于盲人来说特别有用。

这些研究工作需要训练机器学习模型来识别对象、解释行为并用自然语言进行交谈。

微软研究院研究员Pengchuan Zhang补充表示，图像生成是一项比图像字幕更具挑战性的任务，因为这个过程需要绘图机器人想象出标题中没有包含的细节。“这意味着，你需要让运行人工智能的机器学习算法想象出这个图像中缺失的部分。”

会集中注意力的图像生成

微软绘画机器人的核心是生成式对抗网络（Generative Adversarial Network，或者称为GAN）技术。该网络包含了两个机器学习模型，一个根据文字描述生成图形；另一个则作为鉴别器（discriminator），使用文本描述来判断所生成的图像的真实性。这两个模型组合既矛盾又融合，生成器试图让假的图片通过鉴别器的鉴定，鉴定器决定了自己不被愚弄，两者一起工作，鉴定器会推动生成器变得完美。

传统生成式对抗网络（GAN）在根据简单文字（例如蓝色的鸟或者常青树）描述生成图像方面做得非常好，但是当文字描述变得更复杂的时候，例如绿色的头、黄色的翅膀、红色的肚皮的鸟，质量就会停滞不前。这是因为整个句子对于生成器来说是一个单一输入，这些描述中的详细信息丢失了，结果生成的图像是一只模模糊糊的、有点绿、有点黄也有点红的鸟，而不是严格按照句子中的描述进行着色的鸟。但是，微软的该项技术尤其擅长根据复杂的句子绘制图像，而且，在标题的描述中没有提到的具体细节方面，机器人也可以填补这些空白。

这是因为，它有一点自己的常识和想象力，这要感谢它的训练数据。在鸟的例子中，机器人画的鸟通常是站在枝头上的，即使是文本内容中并没有提到这一细节也是如此，这是因为最初提供给它的图像经常出现类似的内容。

微软的绘图机器人使用了标题和图像匹配好了的数据集进行训练，这让这些模型能够学会如何将文字内容和这些内容的可视化表达相匹配。例如，这个生成式对抗网络（GAN）学会了在标题是鸟的时候生成一个鸟的图像，而且也学到了鸟的图像应该是什么样子。何晓东表示：“这是我们相信机器可以学习的根本原因。”

在人类画画的过程中，会反复查看下一步画什么，并且十分专注于正在描绘的这一部分内容当中。为了捕捉这一人类特质，微软研究人员创建了他们称之为注意力生成式对抗网络或AttnGAN的技术，它从数学上代表了人类的注意的概念。它是通过将输入的文本内容分解为单个的词语，并将其同图像中特定的区域进行匹配来完成这一任务的。

何晓东解释说：“注意力是一个人类的概念；我们把注意力的问题变成了一个计算的问题。”

该模型还会从训练数据中学习人类称之为常识的东西，并且利用这些学到的概念来填补图像中可供想象的空白部分。例如，由于训练数据中的很多图像里的鸟都是站在枝头之上的，所以除非文本内容另有详细说明，AttnGAN通常画出的鸟也都是站在枝头之上的。

Pengchuan Zhang表示：“从数据来看，机器学习算法学到了鸟应该在哪里这一常识。”作为难度测试，该团队给这个绘图机器人一些荒谬的题目，例如“漂浮在湖面上的红色双层巴士。”结果它生成了一个模糊的、湿漉漉的图像，既有点像一艘有双层甲板的船，又有点像一辆双层巴士，漂浮在群山环绕的湖面上。这个图像表明，该机器人内部产生了斗争，它知道船是漂浮在湖面上的，而文本内容却详细指定了对象是一辆巴士车。

何晓东解释说：“我们的描述可以天花乱坠，看看机器会如何反应。这台机器有一些背景知识的常识，但它仍然服从你的要求，尽管有时这些要求听起来有点荒谬。”

当然，这不是第一项将艺术和人工智能结合在一起的技术案例。

这两者的交叉有时会产生奇妙的结果。比如谷歌的人工智能绘制的这些梦幻般的图像就有了自己的艺术展，谷歌还有一个神经网络可以猜测你正在画的是什么，还有一个自动绘图机器人等等。

Facebook也一直在教导神经网络绘制一些小图形，例如飞机、汽车和动物等，甚至从照片中创建自己的Bitmoji风格的化身形象。

英伟达的研究人员使用人工智能（A.I）创建了计算机生成的名人。

实际应用

从文本到图像的生成技术可以找到很多实际应用，可以作为画家和室内设计师的草图助理，或者作为语音激活照片的细化工具。何晓东认为，如果有更多的计算能力，这项技术能够根据电影剧本生成动画电影，通过消除一些手工劳动来改善动画电影制片人的工作。

然而目前来看，微软的这项技术还不完善。如果你仔细检查图像就能找到瑕疵，例如鸟的喙是蓝色的而不是黑色的，以及水果摊位上有突变的香蕉。这些缺陷清楚地表明，创造这幅画的是电脑而不是人类。尽管如此，何晓东认为，这个AttnGAN生成的图像的质量比之前最好的GAN生成的图像质量提高了接近三倍，已经成为了通往类人类智能道路上的一个里程碑，这些类人类智能能够增强人类的能力。
何晓东进一步解释说，“对于生活在同一个世界里的人工智能和人类来说，他们必须有一种彼此交流的方式。而语言和视觉是人类和机器互相交流的两种最重要的方式。”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

原文标题：微软AI可以根据详细的文本描述来绘制对象

文章出处：【微信号：IEEE_China，微信公众号：IEEE电气电子工程师】欢迎添加关注！文章转载请注明出处。

传微软计划在年底前囤积180万个AI芯片

根据海外一份文件显示，微软内部设立目标，在2024年底前囤积180万个人工智能（AI）芯片。

发表于 04-22 11:34 •335次阅读

OpenAI劲敌Inflection AI官宣“加盟”微软

OpenAI的强劲对手Inflection AI近期宣布，将与科技巨头微软展开深度技术合作。这次合作意味着Inflection AI将其尖端技术授权给微软，标志着这家初创公司正式转向与

发表于 03-21 11:33 •300次阅读

探索OpenAI Sora视频AI生成技术及其应用如何使用指南

的应用范围从娱乐和教育到营销和内容创作等各个领域都有巨大潜力。 Sora视频AI的介绍 Sora视频AI是一种先进的人工智能工具，它利用深度学习算法根据用户提供的文本

发表于 02-20 12:01 •819次阅读

Native Drawing开发指导，实现HarmonyOS基本图形和字体的绘制

场景介绍 Native Drawing 模块提供了一系列的接口用于基本图形和字体的绘制。常见的应用场景举例： ● 2D 图形绘制。 ● 文本绘制。接口说明

发表于 12-07 09:30

微软AI自研芯片与H100、特斯拉D1性能对比

微软的多年投资显示，芯片对于在AI和云计算领域取得优势至关重要。自研芯片可以让微软从硬件中获得性能和价格优势，还可以避免

发表于 11-22 15:38 •226次阅读

<b class='flag-5'>微软</b><b class='flag-5'>AI</b>自研芯片与H100、特斯拉D1性能对比

DiscoArt 如何自动绘制艺术画

DiscoArt 是一个很牛逼的开源模块，它能根据你给定的关键词自动绘画。绘制过程是完全可见的，你可以在 jupyter 页面上看见这个绘制的过程： 1.准备开始之前，你要确保Py

发表于 10-17 10:44 •206次阅读

DiscoArt 如何自动<b class='flag-5'>绘制</b>艺术画

SD详细命令描述

电子发烧友网站提供《SD详细命令描述.doc》资料免费下载

发表于 10-13 10:22 •1次下载

SD<b class='flag-5'>详细</b>命令<b class='flag-5'>描述</b>

【KV260视觉入门套件试用体验】七、VITis AI字符和文本检测（OCR&Textmountain）

vitis::ai::OCR::create(model); }, process_result, 2); } 3.2、文本检测源码 #include #include #include

发表于 09-26 16:31

Objects：为对象类提供对象技术

的缩写。这里，全部大写的项目是参数，以百分号开头的项目是方法。在典型的基于类的应用程序中，可以根据这些类（以及专门的系统子类）定义类。所有对象都直接或间接继承自这些类之一，并且每个

发表于 09-20 14:14 •179次阅读

Objects：为<b class='flag-5'>对象</b>类提供<b class='flag-5'>对象</b>技术

AI可以根据声音进行信息解码

根据杜伦大学、萨里大学和伦敦大学的研究人员最近发表的一篇论文显示，输入的信息可以通过手指敲击按键的声音来进行解码。

发表于 09-04 16:33 •701次阅读

M480使用emWin的API绘制图形

界面( HMI) 很简单。这个示例代码使用 M480 MCU , 并使用 emWin 的 API 来绘制图形, 可以用作更改面板文字编辑值的按钮。 emWin 可以轻松地执行如何使用

发表于 08-30 08:58

伯克利AI实验室开源图像编辑模型InstructPix2Pix，简化生成图像编辑并提供一致结果

具有挑战性。最近，InfoQ 报道了微软的 Visual ChatGPT，它可以调用外部工具来编辑图像，前提是提供编辑操作的文本描述。

发表于 08-28 15:45 •474次阅读

伯克利<b class='flag-5'>AI</b>实验室开源图像编辑模型InstructPix2Pix，简化生成图像编辑并提供一致结果

如何使用emWin的API绘制图形

界面( HMI) 很简单。这个示例代码使用 M480 MCU , 并使用 emWin 的 API 来绘制图形, 可以用作更改面板文字编辑值的按钮。 emWin 可以轻松地执行如何使用

发表于 08-23 07:37

基于文本到图像模型的可控文本到视频生成

的文本到视频模型需要大量高质量的视频和计算资源，这限制了相关社区进一步的研究和应用。为了减少过度的训练要求，我们研究了一种新的高效形式：基于文本到图像模型的可控文本到视频生成。这个任务旨在根据

发表于 06-14 10:39 •581次阅读

微软发布 Azure Linux 正式版

服务（AKS）的一个开源容器主机操作系统，它针对 Azure 进行了优化，旨在使开发人员更容易使用微软的工具来部署和管理容器工作负载。Azure Linux 源于微软的 CBL-Mariner 项目，是“自我独立的 Linux

发表于 05-28 08:34

搜索历史

微软AI可以根据详细的文本描述来绘制对象

评论