0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenAI重磅推出语言模型DALL·E和图像识别系统CLIP

454398 来源:控制工程网 作者:控制工程网 2021-01-15 11:27 次阅读

人工智能AI)研究组织OpenAI重磅推出了最新的语言模型DALL·E和图像识别系统CLIP。

这两个模型是OpenAI第三代语言生成器的一个分支。两种神经网络都旨在生成能够理解图像和相关文本的模型。OpenAI希望这些升级后的语言模型能够以接近人类解释世界的方式来解读图像。

2020年5月,OpenAI发布了迄今为止全球规模最大的预训练语言模型GPT-3。GPT-3具有1750亿参数,训练所用的数据量达到45TB。对于所有任务,应用GPT-3无需进行任何梯度更新或微调,仅需要与模型文本交互为其指定任务和展示少量演示即可使其完成任务。

GPT-3在许多自然语言处理数据集上均具有出色的性能,包括翻译、问答和文本填空任务,还包括一些需要即时推理或领域适应的任务等,已在很多实际任务上大幅接近人类水平。

新发布的语言模型DALL·E,是GPT-3的120亿参数版本,可以按照自然语言文字描述直接生成对应图片!

这个新系统的名称DALL·E,来源于艺术家萨尔瓦多·达利(Salvador Dali)和皮克斯的机器人英雄瓦力(WALL-E)的结合。新系统展示了“为一系列广泛的概念”创造图像的能力,可从文字标题直接创建图像以表达概念。通过从文本描述而不是标签数据生成图像,可以为模型提供了更多有关含义的上下文。

开发人员将DALL·E称为“转换语言模型”(transformer language model),能够将文本和图像作为单个数据流接收。这种训练程序使得DALL·E不仅可以从零开始生成图像,而且还可以重新生成现有图像的任何矩形区域……。以一种与文本提示一致的方式。

这种语言模型能够反映人类语言的微妙之处,包括 “将不同的想法结合起来合成物体的能力”。例如,在DALL·E模型中输入“牛油果形状的扶手椅”,它就可以生成这样的图片:

DALL·E还扩展了被称为“零样本推理”(zero-shotreasoning)的GPT-3功能,这是一种强大的常识性机器学习形式。DALL·E将这一功能扩展到了视觉领域,并且在以正确的方式提示时能够执行多种图像到图像的翻译任务。

图像识别系统CLIP的通用性比当前针对单个任务的系统更好,可以用网上公开的文字图像配对数据集来训练。CLIP系统可用于对比语言-图像预训练,通过从网络图像中收集的自然语言监督学习视觉概念。OpenAI表示CLIP的工作方式是提供要识别的视觉类别的名称。

当将其应用于图像分类基准时,可以指示模型执行一系列基准,而无需针对每个测试进行优化。OpenAI表示:“通过不直接针对基准进行优化,我们证明它变得更具代表性。” CLIP方法可将“稳健性差距”缩小多达75%。

OpenAI 联合创始人、首席科学家 Ilya Sutskever认为,人工智能的长期目标是构建多模态神经网络,即AI能够学习不同模态之间的概念(文本和视觉领域为主),从而更好地理解世界,而 DALL·E 和 CLIP 使我们更接近“多模态 AI 系统”这一目标。

未来,我们将拥有同时理解文本和图像的模型。人工智能将能够更好地理解语言,因为它可以看到单词和句子的含义。
编辑:hfy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4578

    浏览量

    98909
  • 图像识别
    +关注

    关注

    8

    文章

    447

    浏览量

    37942
  • 人工智能
    +关注

    关注

    1777

    文章

    43956

    浏览量

    230948
  • Clip
    +关注

    关注

    0

    文章

    29

    浏览量

    6574
  • OpenAI
    +关注

    关注

    8

    文章

    771

    浏览量

    5928
收藏 人收藏

    评论

    相关推荐

    微软封禁员工讨论OpenAI DALL-E 3模型漏洞

    琼斯去年底在进行自主研究时,发现OpenAI图像生成模型DALL-E 3存在一个漏洞,漏洞利用者可以越过AI保护墙来制作色情内容。他将此情况报告给微软和
    的头像 发表于 02-02 14:38 256次阅读

    图像识别技术原理 图像识别技术的应用领域

    图像识别技术是一种通过计算机对图像进行分析和理解的技术。它借助计算机视觉、模式识别、人工智能等相关技术,通过对图像进行特征提取和匹配,找出图像
    的头像 发表于 02-02 11:01 714次阅读

    基于TensorFlow和Keras的图像识别

    TensorFlow和Keras最常见的用途之一是图像识别/分类。通过本文,您将了解如何使用Keras达到这一目的。定义如果您不了解图像识别的基本概念,将很难完全理解本文的内容。因此在正文开始之前
    的头像 发表于 01-13 08:27 396次阅读
    基于TensorFlow和Keras的<b class='flag-5'>图像识别</b>

    如何使用Python进行图像识别的自动学习自动训练?

    图像识别的自动学习和自动训练。 首先,让我们了解一下图像识别的基本概念。图像识别是指通过计算机程序识别和理解图像内容的过程。自动学习和自动训
    的头像 发表于 01-12 16:06 226次阅读

    基于AX650N+CLIP的以文搜图展示

    能否有一种“识别万物”的图像识别模型呢?今天就借此机会,通过实操来重温下由OpenAI在2021年初发布的Zero-Shot视觉分类模型
    的头像 发表于 11-01 16:44 710次阅读
    基于AX650N+<b class='flag-5'>CLIP</b>的以文搜图展示

    如何用单片机实现图像识别

    如何用单片机实现图像识别
    发表于 10-25 06:43

    【AI简报20231020期】出自华人之手:DALL-E 3论文公布、上线ChatGPT!超火迷你GPT-4

    ・E 3 相关论文后,一位网友感叹说。DALL・E 3 是 OpenAI 在 2023 年 9 月份发布的一个文生图模型。与上一代模型 DALL
    的头像 发表于 10-21 16:35 712次阅读
    【AI简报20231020期】出自华人之手:<b class='flag-5'>DALL</b>-E 3论文公布、上线ChatGPT!超火迷你GPT-4

    基于DSP的人耳图像识别系统的设计

    电子发烧友网站提供《基于DSP的人耳图像识别系统的设计.pdf》资料免费下载
    发表于 10-07 11:11 0次下载

    OpenAI发布第三版DALL-E

    DALL-E于2021年1月首次发布,先于Stability AI和Midtravel的其他文本到图像生成AI艺术平台。到2022年DALL-E 2发布时,OpenAI打开了一个等待名
    的头像 发表于 09-25 16:39 453次阅读

    arduino哪个开发板可以做图像识别

    arduino哪个开发板可以做图像识别
    发表于 09-22 06:49

    模拟矩阵在图像识别中的应用

    讯维模拟矩阵在图像识别中的应用主要是通过构建一个包含多种图像数据的模拟矩阵,来训练和测试深度学习模型,从而提高图像识别的准确性和效率。 在图像识别
    的头像 发表于 09-04 14:17 337次阅读
    模拟矩阵在<b class='flag-5'>图像识别</b>中的应用

    图像识别卷积神经网络模型

    图像识别卷积神经网络模型 随着计算机技术的快速发展和深度学习的迅速普及,图像识别卷积神经网络模型已经成为当今最受欢迎和广泛使用的模型之一。卷
    的头像 发表于 08-21 17:11 550次阅读

    深度学习视角下的猫狗图像识别实现

    包括数据集的准备、模型构建和训练过程,并探讨了该技术在实际应用中的潜在价值。 随着深度学习技术的不断发展,图像识别已经成为其中的一个重要应用领域。猫狗图像识别是计算机视觉领域中的一个经典问题,它对于理解和区分不
    的头像 发表于 08-15 10:38 1996次阅读
    深度学习视角下的猫狗<b class='flag-5'>图像识别</b>实现

    图像识别技术原理 深度学习的图像识别应用研究

      图像识别是人工智能领域的一个重要方向。经过多年的研究,图像识别技术取得了一定的研究进展。图像识别主要包含特征提取和分类识别,而其中的特征 提取是
    发表于 07-19 10:27 2次下载

    关于图像识别的三大要点

    图像识别识别图像或视频中的目标或特征的过程。这项技术已应用于多个领域,如缺陷检测、医学成像和安全监控。
    的头像 发表于 07-13 10:00 1159次阅读
    关于<b class='flag-5'>图像识别</b>的三大要点