0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

精准图片搜索 OpenAI最新技术 CLIP

工程师邓生 来源:凹非寺 作者:金磊 2021-02-11 09:13 次阅读

别再怕图片搜索结果牛头不对马嘴了,你可以试试这个 精准图片搜索,来自 OpenAI最新的技术 CLIP。

只需一句 “大白话”描述,便能给出想要的图片。

例如输入:

The word love written on the wall

就会得到这样的结果:

可以说是相当的 精准了!这就是今天在Reddit上爆火的一个项目。

这个项目利用到的,便是 OpenAI前不久频频刷屏的DALL·E 中的核心模块—— CLIP,一个负责重排序 (rerank)的模型。

这个项目使用谷歌Colab Notebook,而且在线、免费,包含200万图片数据集,最重要的是效果还非常的精准。

不禁引得网友直呼“ Amazing”。

简单几步,“大白话”在线精准搜图

这个项目之所以如此火爆, 操作简单是很重要的一个原因之一。

首先要做的,就是点开该项目在Colab Notebook中的地址 (见文末链接),登陆自己的账号。

至于环境配置、包或库的调用,这个项目非常贴心的已经做好了,只需要依次点击cell左侧的小三角,等待运行完成即可。

最后,来到包含如下代码的cell:

search_query = “Two dogs playing inthe snow”

点击运行这个cell,便可得到搜索图片的结果,例如:

当然,这个程序似乎很懂人,若是输入“当你的代码跑通时的情绪”:

The feeling when your program finallyworks

得到的结果,和正常人想象中的应该是一致的:

为什么CLIP搜图能如此精准?

OpenAI前不久推出的DALL·E,主要能实现的功能就是 可以按照文字描述、生成对应图片。

而其呈现给我们的最终作品,其实是它生成大量图片中的一部分。

在中间过程中,其实也有排名、打分的帅选过程。

这部分的任务,便是由 CLIP来完成:

越是它看得懂、匹配度最高的作品,分数就会越高,排名也会越靠前。

这种结构,有点像是利用生成对抗文本,以合成图像的 GAN。

不过,相比于利用GAN扩大图像分辨率、匹配图像-文本特征等方法,CLIP则选择了直接对输出进行排名。

据研究人员表示,CLIP网络的 最大意义在于,它缓解了深度学习在视觉任务中,最大的两个问题。

首先,它 降低了深度学习需要的数据标注量。

相比于手动在ImageNet上,用文字描述1400万张图像,CLIP直接从网上已有的“文字描述图像”数据中进行学习。

此外,CLIP还能“身兼多职”,在各种数据集上的表现都很好 (包括没见过的数据集)。

但此前的大部分视觉神经网络,只能在训练的数据集上有不错的表现。

例如,CLIP与ResNet101相比,在各项数据集上都有不错的检测精度,然而ResNet101在除了ImageNet以外的检测精度上,表现都不太好。

具体来说,CLIP用到了零样本学习 (zero-shot learning)、自然语言理解和多模态学习等技术,来完成图像的理解。

例如,描述一只斑马,可以用“马的轮廓+虎的皮毛+熊猫的黑白”。这样,网络就能从没见过的数据中,找出“斑马”的图像。

最后,CLIP将文本和图像理解结合起来,预测哪些图像,与数据集中的哪些文本能完成最好的配对。

网友:机器人(bot)可能不太高兴

在惊叹CLIP用“大白话”搜索图片效果之余,一位Reddit网友还发现了一个比较有意思的搜索结果。

他在文本描述的代码部分输入:

What image best represents how you feel right now?

这句话在我们人类眼中,应当是询问AI的语气了,然后出来的图片结果是这样的:

还有这样的:

嗯,看来是被“玩多了”,AI宝宝有点小脾气了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 搜索
    +关注

    关注

    0

    文章

    67

    浏览量

    16622
  • OpenAT
    +关注

    关注

    0

    文章

    5

    浏览量

    8616
  • 图片
    +关注

    关注

    0

    文章

    203

    浏览量

    15790
  • Clip
    +关注

    关注

    0

    文章

    29

    浏览量

    6570
  • OpenAI
    +关注

    关注

    8

    文章

    757

    浏览量

    5913
收藏 人收藏

    评论

    相关推荐

    TPAK SiC优选解决方案:有压烧结银+铜夹Clip无压烧结银

    TPAK SiC优选解决方案:有压烧结银+铜夹Clip无压烧结银
    的头像 发表于 04-25 20:27 34次阅读
    TPAK SiC优选解决方案:有压烧结银+铜夹<b class='flag-5'>Clip</b>无压烧结银

    马斯克控告OpenAI违约、要求恢复开源;OpenAI否认三连

    、总裁格雷格·布罗克曼(Greg Brockman)以及 OpenAI 的若干实体,指控他们违反了OpenAI成立时达成的一项协议,即开发技术以造福人类而不是追逐利润。
    的头像 发表于 03-04 13:59 244次阅读
    马斯克控告<b class='flag-5'>OpenAI</b>违约、要求恢复开源;<b class='flag-5'>OpenAI</b>否认三连

    谷歌AI Gemini1.5评OpenAI Sora生成视频:评价负面

    此前,两家科技巨头分别推出自家创新技术: Google Gemini 1.5 Pro与OpenAI文本视频转换工具Sora。Sora的发布时间备受瞩目,有人质疑OpenAI有意分散公众对Google Gemini 1.5的关注度
    的头像 发表于 02-19 14:18 302次阅读

    OpenAI要约收购协议已完成 OpenAI估值超800亿美元

    OpenAI要约收购协议已完成 OpenAI估值超800亿美元 目前OpenAI要约收购协议已完成,公司估值高达800亿美元。AI的火爆使得OpenAI的估值在不到10 个月的时间内估
    的头像 发表于 02-18 18:19 913次阅读

    新火种AI|这家“中国OpenAI”,能赶超OpenAI吗?

    全面对标OpenAI,智谱AI能成为“中国的OpenAI”吗?
    的头像 发表于 01-18 17:56 333次阅读
    新火种AI|这家“中国<b class='flag-5'>OpenAI</b>”,能赶超<b class='flag-5'>OpenAI</b>吗?

    PIGEON:借助OpenAICLIP神经网络,精准预测图像地理位置

    借助 PIGEON APP,仅需一张街景照,就能有效确定位置,精确度高达 92%。更有逾 40%的时间,可以将定位结果精准至离实际位置 25 公里之内。
    的头像 发表于 01-05 10:44 363次阅读
    PIGEON:借助<b class='flag-5'>OpenAI</b>的<b class='flag-5'>CLIP</b>神经网络,<b class='flag-5'>精准</b>预测图像地理位置

    新技术在生物样本冷冻中的应用案例分析

      一、冷冻样本的新技术应用   1. 低温离心   低温离心是一种比较先进的生物样本冷冻处理技术,它可以在较低温度下将样本进行离心,从而有效地分离和保存其中的细胞和分子。相比传统的液氮冷冻方法
    发表于 12-26 13:30

    更强!Alpha-CLIP:让CLIP关注你想要的任何地方!

    然而CLIP必须以整张图片作为输入并进行特征提取,无法关注到指定的任意区域。然而,自然的2D图片中往往包含不同的物体,part和thing。如果能由用户或检测模型指定需要关注的区域,在图像编码的过程就确定需要关注的对象,将会提升
    的头像 发表于 12-10 10:28 486次阅读
    更强!Alpha-<b class='flag-5'>CLIP</b>:让<b class='flag-5'>CLIP</b>关注你想要的任何地方!

    马里兰&amp;NYU合力解剖神经网络,CLIP模型神经元形似骷髅头

    对于大多数图像生成模型来说,会输出正面的图像。但是优化算法,可以让模型生成更多诡异、恐怖的图像。 就拿CLIP模型来说,可以衡量一段文本和一张图片的匹配程度。 给定一段描述怪诞场景的文本,使用优化算法通过最小化CLIP的损失,来
    的头像 发表于 11-23 17:29 298次阅读
    马里兰&amp;NYU合力解剖神经网络,<b class='flag-5'>CLIP</b>模型神经元形似骷髅头

    基于AX650N+CLIP的以文搜图展示

    能否有一种“识别万物”的图像识别大模型呢?今天就借此机会,通过实操来重温下由OpenAI在2021年初发布的Zero-Shot视觉分类模型CLIP,并移植到爱芯派Pro上实现简单的以图搜文示例。
    的头像 发表于 11-01 16:44 688次阅读
    基于AX650N+<b class='flag-5'>CLIP</b>的以文搜图展示

    Cu-Clip互连技术有哪些特点呢?

    Cu-Clip技术,它可以应用在很多模块封装形式当中。它的特点有:降低寄生电感和电阻,增加载流能力,相应地提高可靠性,以及灵活的形状设计。
    的头像 发表于 10-07 18:18 907次阅读
    Cu-<b class='flag-5'>Clip</b>互连<b class='flag-5'>技术</b>有哪些特点呢?

    车规模块系列(四):Cu-Clip互连技术简析

    在上篇讨论TPAK封装时,我们聊到了Cu-Clip技术,当然它可以应用在很多模块封装形式当中
    的头像 发表于 10-07 14:30 909次阅读
    车规模块系列(四):Cu-<b class='flag-5'>Clip</b>互连<b class='flag-5'>技术</b>简析

    OpenAI到底做对了什么?OpenAI发展的5大技术路线

    为什么AGI这样史诗级的革命,背后的核心推手竟然是OpenAI这样的创业公司?OpenAI到底做对了什么?
    发表于 07-24 10:50 1405次阅读
    <b class='flag-5'>OpenAI</b>到底做对了什么?<b class='flag-5'>OpenAI</b>发展的5大<b class='flag-5'>技术</b>路线

    OpenAI震撼登陆iOS,可精准识别中文

    能在搜索引擎或浏览器之外的移动设备上直接访问ChatGPT,无疑具有革命性的意义。OpenAI此举,可能会创造又一个奇点,永远改变人们使用手机搜索和信息互联的方式。
    的头像 发表于 05-25 16:28 999次阅读
    <b class='flag-5'>OpenAI</b>震撼登陆iOS,可<b class='flag-5'>精准</b>识别中文

    微软GPT-4搜索引擎重大升级 新Bing开放AI能力

    微软GPT-4搜索引擎重大升级 新Bing开放AI能力 微软和OpenAI合作将人工智能技术应用于必应搜索带来了更多不一样的搜索体验。 此前
    的头像 发表于 05-05 17:15 2239次阅读