0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenAI重磅推出语言模型DALL·E和图像识别系统CLIP

454398 来源:控制工程网 作者:控制工程网 2021-01-15 11:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能AI)研究组织OpenAI重磅推出了最新的语言模型DALL·E和图像识别系统CLIP。

这两个模型是OpenAI第三代语言生成器的一个分支。两种神经网络都旨在生成能够理解图像和相关文本的模型。OpenAI希望这些升级后的语言模型能够以接近人类解释世界的方式来解读图像。

2020年5月,OpenAI发布了迄今为止全球规模最大的预训练语言模型GPT-3。GPT-3具有1750亿参数,训练所用的数据量达到45TB。对于所有任务,应用GPT-3无需进行任何梯度更新或微调,仅需要与模型文本交互为其指定任务和展示少量演示即可使其完成任务。

GPT-3在许多自然语言处理数据集上均具有出色的性能,包括翻译、问答和文本填空任务,还包括一些需要即时推理或领域适应的任务等,已在很多实际任务上大幅接近人类水平。

新发布的语言模型DALL·E,是GPT-3的120亿参数版本,可以按照自然语言文字描述直接生成对应图片!

这个新系统的名称DALL·E,来源于艺术家萨尔瓦多·达利(Salvador Dali)和皮克斯的机器人英雄瓦力(WALL-E)的结合。新系统展示了“为一系列广泛的概念”创造图像的能力,可从文字标题直接创建图像以表达概念。通过从文本描述而不是标签数据生成图像,可以为模型提供了更多有关含义的上下文。

开发人员将DALL·E称为“转换语言模型”(transformer language model),能够将文本和图像作为单个数据流接收。这种训练程序使得DALL·E不仅可以从零开始生成图像,而且还可以重新生成现有图像的任何矩形区域……。以一种与文本提示一致的方式。

这种语言模型能够反映人类语言的微妙之处,包括 “将不同的想法结合起来合成物体的能力”。例如,在DALL·E模型中输入“牛油果形状的扶手椅”,它就可以生成这样的图片:

DALL·E还扩展了被称为“零样本推理”(zero-shotreasoning)的GPT-3功能,这是一种强大的常识性机器学习形式。DALL·E将这一功能扩展到了视觉领域,并且在以正确的方式提示时能够执行多种图像到图像的翻译任务。

图像识别系统CLIP的通用性比当前针对单个任务的系统更好,可以用网上公开的文字图像配对数据集来训练。CLIP系统可用于对比语言-图像预训练,通过从网络图像中收集的自然语言监督学习视觉概念。OpenAI表示CLIP的工作方式是提供要识别的视觉类别的名称。

当将其应用于图像分类基准时,可以指示模型执行一系列基准,而无需针对每个测试进行优化。OpenAI表示:“通过不直接针对基准进行优化,我们证明它变得更具代表性。” CLIP方法可将“稳健性差距”缩小多达75%。

OpenAI 联合创始人、首席科学家 Ilya Sutskever认为,人工智能的长期目标是构建多模态神经网络,即AI能够学习不同模态之间的概念(文本和视觉领域为主),从而更好地理解世界,而 DALL·E 和 CLIP 使我们更接近“多模态 AI 系统”这一目标。

未来,我们将拥有同时理解文本和图像的模型。人工智能将能够更好地理解语言,因为它可以看到单词和句子的含义。
编辑:hfy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106800
  • 图像识别
    +关注

    关注

    9

    文章

    529

    浏览量

    39842
  • 人工智能
    +关注

    关注

    1813

    文章

    49741

    浏览量

    261555
  • Clip
    +关注

    关注

    0

    文章

    34

    浏览量

    7206
  • OpenAI
    +关注

    关注

    9

    文章

    1238

    浏览量

    9815
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于米尔MYC-YM90X安路飞龙DR1开发板仪表图像识别系统开发

    资源,具备强大计算能力与灵活定制特性,为构建高性能仪表图像识别系统带来新机遇。通过合理利用其异构架构,可实现图像识别算法的高效执行,提升系统实时性与准确性。 二、安路飞龙 FPSOC 架构分析
    发表于 08-17 21:29

    华怡丰推出ISC-B/C系列图像识别传感器

    在工业自动化领域,精准、高效的视觉检测是提升生产效率的关键。华怡丰全新推出的ISC-B/C系列图像识别传感器集高精度定位、测量算法与先进图像处理技术于一体,为各类工业场景提供稳定、可靠的解决方案!
    的头像 发表于 08-15 11:36 1463次阅读
    华怡丰<b class='flag-5'>推出</b>ISC-B/C系列<b class='flag-5'>图像识别</b>传感器

    基于FPGA的数字识别系统设计

    图像处理领域,图像识别是较为困难而关键的技术。这项技术被广泛的应用到娱乐、工业、军事等领域。本次设计数字识别系统已经在车牌识别、运动员号码识别
    的头像 发表于 07-16 14:28 1112次阅读
    基于FPGA的数字<b class='flag-5'>识别系统</b>设计

    火车车号图像识别系统如何应对不同光照条件下的识别问题?

    在铁路运输管理中,准确识别火车车号是实现自动化车辆管理的关键环节。然而,实际应用场景中复杂多变的光照条件给车号识别带来了巨大挑战。现代火车车号图像识别系统通过多项技术创新,有效解决了这一难题。 多
    的头像 发表于 07-15 11:37 531次阅读
    火车车号<b class='flag-5'>图像识别系统</b>如何应对不同光照条件下的<b class='flag-5'>识别</b>问题?

    景区AI行为识别系统作用

    景区AI行为识别系统作用 景区AI行为识别系统是什么? 景区AI行为识别系统是利用人工智能技术(如视频分析、人脸识别)构建的智能管理方案。通过部署摄像头+AI算法,实时监控游客行为,自
    的头像 发表于 05-07 15:32 660次阅读
    景区AI行为<b class='flag-5'>识别系统</b>作用

    手持终端集装箱识别系统图像识别技术

    行业提供了更灵活、精准的管理工具。 一、技术核心:OCR+AI深度融合 现代手持终端系统采用多模态图像识别技术,结合深度学习算法,可快速捕捉并解析集装箱号码。其技术优势体现在: 1. 复杂环境适应性:通过动态曝光补偿和图像增强算
    的头像 发表于 04-03 10:49 551次阅读

    岸桥箱号识别系统如何工作?揭秘AI图像识别技术!

    在港口自动化升级的浪潮中,AI岸桥识别系统凭借前沿的图像识别技术,成为提升码头作业效率的“智慧之眼”。那么,这套系统如何实现集装箱信息的精准捕捉?又是如何通过AI技术替代传统人工理货?让我们一探
    的头像 发表于 04-02 09:45 536次阅读

    岸桥箱号识别系统的工作原理 #人工智能 #识别系统

    识别系统
    jf_60141436
    发布于 :2025年03月24日 09:28:11

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能模型
    的头像 发表于 03-17 15:32 7597次阅读
    ​VLM(视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>)​详细解析

    #新年新气象,大家新年快乐!#AIGC入门及鸿蒙入门

    开发的语言模型工具,支持文本生成、代码编写等。 MidJourney:一个用于图像生成的工具,允许用户输入文本描述以生成相应的图像DALL
    发表于 01-13 10:46

    AIGC入门及鸿蒙入门

    开发的语言模型工具,支持文本生成、代码编写等。 MidJourney:一个用于图像生成的工具,允许用户输入文本描述以生成相应的图像DALL
    发表于 01-13 10:32

    一文说清楚什么是AI大模型

    DALL-E)、科学计算模型(如 AlphaFold)以及多模态模型。这些模型通过海量数据训练,展现出高度的泛用性。 比较有代表性的大语言
    的头像 发表于 01-02 09:53 3959次阅读
    一文说清楚什么是AI大<b class='flag-5'>模型</b>

    OpenAI暂不推出Sora视频生成模型API

    OpenAI近日宣布,目前暂无推出其视频生成模型Sora的应用程序接口(API)的计划。Sora模型能够基于文本和图像生成视频,引发了广泛关
    的头像 发表于 12-20 14:23 972次阅读

    OpenAI推出AI视频生成模型Sora

    近日,备受期待的OpenAI再次推出了其创新之作——AI视频生成模型Sora。这一新品的发布,无疑为AI技术注入了新的活力。 据悉,Sora与OpenAI旗下的AI工具
    的头像 发表于 12-12 09:40 1063次阅读