0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPT-3引发公众的遐想 能根据文字产生图片的AI!

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2020-10-09 18:30 次阅读

在全球所有 AI 模型中,OpenAI 的 GPT-3 最能引发公众的遐想。

虽然它可以仅凭很少的文本来输出诗歌、短篇小说和歌曲,并且成功地让人们相信这是人类的创作。但是,它在同人类对话时还是显得非常“幼稚”。可尽管如此,技术人员依然认为,创造了 GPT-3 的技术可能是通往更高级 AI 的必经之路。

GPT-3 使用大量文本数据进行了训练,那么,假如同时使用文本和图像数据进行训练,会发生什么呢?

艾伦人工智能研究所(AI2)在这个问题上取得了进展,技术人员开发了一种新的视觉语言模型,可以根据给定的文本生成对应图像。

不同于 GAN 所生成的超现实主义作品,AI2 生成的这些图像看起来非常怪异,但它的确可能是一个实现通用人工智能的新路径。

AI“做题家”

GPT-3 在分类上属于 “Transformer” 模型,随着 Google BERT 的成功,该模型开始流行。而在 BERT 之前,语言模型可用性不佳。

它们虽然具备一定的预测能力,但并不足以生成符合语法和常识的长句子。BERT 通过引入一种称为 “masking(遮罩)” 的新技术,使模型这方面的能力得到了大幅加强。

模型会被要求完成类似下面的填空题:

这位女士去___锻炼。

他们买了一个___面包做三明治。

这个想法初衷是,如果强迫模型进行数百万次的这类练习,它是否可能学会如何将单词组合成句子以及如何将句子组合成段落。测试结果表明,模型确实获得了更好地生成和解释文本的能力(Google 正在使用 BERT 帮助在其搜索引擎中提供更多相关的搜索结果)。

在证明遮罩行之有效之后,技术人员试图通过将文本中的单词隐藏,将其应用于视觉语言模型,例如:

一只站立在树木旁的___。(来源:MIT TR)

通过数百万次的训练,它不仅可以发现单词之间的组合模式,还可以发现单词与图像中元素之间的关联。

这样的结果就是模型拥有了将文字描述与视觉图像相关联的能力,就像人类的婴儿可以在他们所学的单词同所见事物之间建立联系一样。

举个例子,当模型读取到下面的图片,便可以给出一个较为贴切标题,如 “打曲棍球的女人”。或者它们可以回答诸如“球是什么颜色?” 之类的问题,因为模型可以将单词 “球” 与图像中的圆形物体关联。

图 | 女子曲棍球比赛 (来源:MIT TR)

一图胜千言

技术人员想知道这些模型是否真的像婴儿一样 “学会” 了认识这个世界。

孩子不仅可以在看到图像时联想到单词,还可以在看到单词时在头脑中浮现出对应的图像,哪怕这个图像是真实和想象的混合体。

技术人员尝试让模型做同样的事情:根据文本生成图像。然后模型吐出了无意义的像素图案。

得到这样的结果是有原因的,将文本转换为图像的任务相比其他要困难得多。AI2 的计算机视觉团队负责人 Ani Kembhavi 说,文本并未指定图像中包含的所有内容。因此,模型需要 “联想” 许多现实世界的常识来填充细节。

例如,假设 AI 被要求绘制“在道路上行走的长颈鹿”,它需要推断出这条道路更可能是灰色而不是粉色,并且更可能毗邻草地而不是海洋——尽管这些信息都不明确。

因此 Kembhavi 和他的同事 Jaemin Cho、Jiasen Lu 和 Hannaneh Hajishirzi 决定看看他们是否可以通过调整遮罩的方式,来教授 AI 所有这些隐式视觉知识。他们训练模型不是为了从对应图片中预测被遮盖的单词,而是为了让它能从文本中 “脑补” 图片中的缺失部分。

虽然模型最终生成的图像并不完全真实,但这不是重点。重要的是这预示着模型已经包含了正确的高级视觉概念,即 AI 一定程度上具备了儿童的根据文本画图的能力。

图 | AI2 模型根据文本生成的图像示例 (来源:MIT TR)

视觉语言模型获得此类图像生成的能力代表了 AI 研究的重要一步,这表明该模型实际上具有一定程度的抽象能力,而这是理解世界的基本技能。

未来,这项技术很可能对机器人领域产生极大影响。机器人可以使用语言进行交流,当它们对视觉信息的理解越好,就越能够执行复杂的任务。

Hajishirzi 说,从短期来看,这种可视化还可以帮助技术人员更好地理解 AI 模型的学习过程。之后,AI2 团队计划展开更多实验,以提高图像生成的质量,并拓宽模型的视觉和语言。

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26356

    浏览量

    263945
  • 人工智能
    +关注

    关注

    1775

    文章

    43710

    浏览量

    230488

原文标题:这些令人不安的照片,表明AI越来越聪明了!它正在学习根据文字生成图片

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    为什么GPU适用于AIAI服务器产业链格局分析

    GPT模型对比BERT模型、T5模型的参数量有明显提升。GPT-3是目前最大的知名语言模型之一,包含了1750亿(175B)个参数。在GPT-3发布之前,最大的语言模型是微软的Turing NLG模型,大小为170亿(17B)个
    发表于 04-09 10:38 90次阅读
    为什么GPU适用于<b class='flag-5'>AI</b>?<b class='flag-5'>AI</b>服务器产业链格局分析

    OpenAI推出ChatGPT新功能:朗读,支持37种语言,兼容GPT-4和GPT-3

    据悉,“朗读”功能支持37种语言,且能够自主识别文本类型并对应相应的发音。值得关注的是,该功能对GPT-4以及GPT-3.5版本的ChatGPT均适用。此举彰显了OpenAI致力于“多模态交互”(multimodal capabilities)的方向
    的头像 发表于 03-05 15:48 255次阅读

    MB91530_590 EVB板添加字库,显示图片但是没有文字显示是为什么?

    我的 MB91530_590EVB板在应用例程中添加字库 显示图片但是没有文字显示。 我是在开发板的例程中修改的。 我是按照文档一步一步做的,为什么显示不出文字,有知道原因的请尽快回
    发表于 02-22 08:19

    AI芯片、光模块和光芯片的发展趋势

    根据 OpenAI 官网,AI 模型训练计算量自 2012 年起每 3.4 个月就增长一倍。以 GPT-3 模型为例,根据 lambdalabs 数据,该模型参数规模达 1750 亿,
    的头像 发表于 12-29 10:07 572次阅读
    <b class='flag-5'>AI</b>芯片、光模块和光芯片的发展趋势

    【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

    和1750亿参数的GPT-3都是非常由有竞争力的 MetaAI研究人员认为,当前大模型的高成本阻碍了学术研究,因此,开发出这个更小更强的模型将有利于学术研究的发展。使用较少参数的模型,在更多的tokens上
    发表于 12-22 10:18

    ChatGPT Plus怎么支付 GPT4得订阅吗?

    自去年年底 OpenAI 转型发布 ChatGPT 以来,生成式 AI 成为许多硅谷投资者关注的焦点。该聊天机器人使用从互联网和其他地方抓取的大量数据来对人类提示产生预测响应。GPT-4 的许多方面
    的头像 发表于 10-10 12:16 1384次阅读
    ChatGPT Plus怎么支付 <b class='flag-5'>GPT</b>4得订阅吗?

    盘古大模型和GPT3有哪些不同

    盘古大模型和GPT3有哪些不同 盘古大模型和GPT-3都是人工智能领域迈出的重要一步,它们的发展对于人工智能领域的发展都起到了重要的推动作用。但是,盘古大模型和GPT-3在一些方面存在差异,下面将从
    的头像 发表于 08-30 18:28 1333次阅读

    chatGPT和GPT4有什么区别

    。它的前身是GPT-1,随后的版本有GPT-2、GPT-3和最新的GPT-4。 GPT-4与之前的版本相比,预计将会有很多改进和变化。尽管该
    的头像 发表于 08-09 15:18 1757次阅读

    态势感知与GPT

    社会事件发生后,可以使用GPT对相关新闻报道和社交媒体上的评论进行情感分析,判断公众对该事件的态度和情感倾向。
    的头像 发表于 07-07 11:23 346次阅读

    AI提取图片里包含的文字信息-解决文字无法复制的痛点

    这个文字识别接口里不仅仅有通用文字识别功能,还支持很多其他功能:比如身份证、驾驶证、保险单、手写文本、火车票,行驶证.......等等功能。还支持用户自定义识别模板,指定需要识别的关键字段,实现用户特定格式图片的自动识别和结构化
    的头像 发表于 07-07 09:37 1019次阅读
    <b class='flag-5'>AI</b>提取<b class='flag-5'>图片</b>里包含的<b class='flag-5'>文字</b>信息-解决<b class='flag-5'>文字</b>无法复制的痛点

    MEANEST家庭自动化AI(使用GPT-3

    电子发烧友网站提供《MEANEST家庭自动化AI(使用GPT-3).zip》资料免费下载
    发表于 06-15 11:33 0次下载
    MEANEST家庭自动化<b class='flag-5'>AI</b>(使用<b class='flag-5'>GPT-3</b>)

    技术与市场:AI大模型的“Linux时刻”降临

    LLaMA 包括四个不同的参数版本(70 亿/130 亿/330 亿/650 亿),不支持商用,指令数 据集基于 OpenAI,模型表现可与 GPT-3 持平或优于 GPT-3。其中,70 亿和 130 亿参数 版拥有包含 1 万亿个标识符(Token)的预训练数据集;
    的头像 发表于 06-01 16:43 1152次阅读
    技术与市场:<b class='flag-5'>AI</b>大模型的“Linux时刻”降临

    GPT-4 的模型结构和训练方法

    GPT-4 的发布报道上,GPT-4 的多模态能力让人印象深刻,它可以理解图片内容给出图片描述,甚至能在图片内容的基础上理解其中的隐喻或
    的头像 发表于 05-22 15:21 1957次阅读
    <b class='flag-5'>GPT</b>-4 的模型结构和训练方法

    图片文字识别:揭开数字世界的神秘面纱

    随着数字化时代的到来,我们生活中的大部分数据都以图片的形式存在。然而,这些图片中蕴含的信息往往比文字更丰富,如何从这些图片中提取有价值的信息,是数字世界中一个十分重要的问题。这时,
    的头像 发表于 05-11 18:20 403次阅读

    深度:构建GPT-4模型,如何商业落地?

    GPT-4引发海量算力需求,把握算力产业链机会。根据测算,我们认为,在中性假设下,ChatGPT一年产生的API调用费用约为6.2亿美元,与此同时,ChatGPT将在训练和推理层面对G
    的头像 发表于 05-06 11:24 972次阅读
    深度:构建<b class='flag-5'>GPT</b>-4模型,如何商业落地?