0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

精准图片搜索 OpenAI最新技术 CLIP

工程师邓生 来源:凹非寺 作者:金磊 2021-02-11 09:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

别再怕图片搜索结果牛头不对马嘴了,你可以试试这个 精准图片搜索,来自 OpenAI最新的技术 CLIP。

只需一句 “大白话”描述,便能给出想要的图片。

例如输入:

The word love written on the wall

就会得到这样的结果:

可以说是相当的 精准了!这就是今天在Reddit上爆火的一个项目。

这个项目利用到的,便是 OpenAI前不久频频刷屏的DALL·E 中的核心模块—— CLIP,一个负责重排序 (rerank)的模型。

这个项目使用谷歌Colab Notebook,而且在线、免费,包含200万图片数据集,最重要的是效果还非常的精准。

不禁引得网友直呼“ Amazing”。

简单几步,“大白话”在线精准搜图

这个项目之所以如此火爆, 操作简单是很重要的一个原因之一。

首先要做的,就是点开该项目在Colab Notebook中的地址 (见文末链接),登陆自己的账号。

至于环境配置、包或库的调用,这个项目非常贴心的已经做好了,只需要依次点击cell左侧的小三角,等待运行完成即可。

最后,来到包含如下代码的cell:

search_query = “Two dogs playing inthe snow”

点击运行这个cell,便可得到搜索图片的结果,例如:

当然,这个程序似乎很懂人,若是输入“当你的代码跑通时的情绪”:

The feeling when your program finallyworks

得到的结果,和正常人想象中的应该是一致的:

为什么CLIP搜图能如此精准?

OpenAI前不久推出的DALL·E,主要能实现的功能就是 可以按照文字描述、生成对应图片。

而其呈现给我们的最终作品,其实是它生成大量图片中的一部分。

在中间过程中,其实也有排名、打分的帅选过程。

这部分的任务,便是由 CLIP来完成:

越是它看得懂、匹配度最高的作品,分数就会越高,排名也会越靠前。

这种结构,有点像是利用生成对抗文本,以合成图像的 GAN。

不过,相比于利用GAN扩大图像分辨率、匹配图像-文本特征等方法,CLIP则选择了直接对输出进行排名。

据研究人员表示,CLIP网络的 最大意义在于,它缓解了深度学习在视觉任务中,最大的两个问题。

首先,它 降低了深度学习需要的数据标注量。

相比于手动在ImageNet上,用文字描述1400万张图像,CLIP直接从网上已有的“文字描述图像”数据中进行学习。

此外,CLIP还能“身兼多职”,在各种数据集上的表现都很好 (包括没见过的数据集)。

但此前的大部分视觉神经网络,只能在训练的数据集上有不错的表现。

例如,CLIP与ResNet101相比,在各项数据集上都有不错的检测精度,然而ResNet101在除了ImageNet以外的检测精度上,表现都不太好。

具体来说,CLIP用到了零样本学习 (zero-shot learning)、自然语言理解和多模态学习等技术,来完成图像的理解。

例如,描述一只斑马,可以用“马的轮廓+虎的皮毛+熊猫的黑白”。这样,网络就能从没见过的数据中,找出“斑马”的图像。

最后,CLIP将文本和图像理解结合起来,预测哪些图像,与数据集中的哪些文本能完成最好的配对。

网友:机器人(bot)可能不太高兴

在惊叹CLIP用“大白话”搜索图片效果之余,一位Reddit网友还发现了一个比较有意思的搜索结果。

他在文本描述的代码部分输入:

What image best represents how you feel right now?

这句话在我们人类眼中,应当是询问AI的语气了,然后出来的图片结果是这样的:

还有这样的:

嗯,看来是被“玩多了”,AI宝宝有点小脾气了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 搜索
    +关注

    关注

    0

    文章

    70

    浏览量

    16946
  • OpenAT
    +关注

    关注

    0

    文章

    5

    浏览量

    8845
  • 图片
    +关注

    关注

    0

    文章

    203

    浏览量

    16460
  • Clip
    +关注

    关注

    0

    文章

    34

    浏览量

    7206
  • OpenAI
    +关注

    关注

    9

    文章

    1238

    浏览量

    9813
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    按图搜索1688商品API接口技术实现指南

    ​ 一、接口原理 1688的按图搜索功能基于图像特征匹配技术,核心流程如下: 用户上传商品图片 系统提取图像特征向量 在商品库中进行相似度匹配 返回相似商品列表 匹配算法通常采用: $$ text
    的头像 发表于 11-11 14:18 198次阅读
    按图<b class='flag-5'>搜索</b>1688商品API接口<b class='flag-5'>技术</b>实现指南

    京东拍立淘API开发指南:从零开始构建图像搜索应用

    京东图片识别搜索API(拍立淘)是基于深度学习的视觉搜索服务,通过卷积神经网络提取图像特征向量,结合近似最近邻搜索算法实现商品精准匹配‌。该
    的头像 发表于 11-09 17:40 1948次阅读

    TE Connectivity CROWN CLIP Sr. 420A电源连接器技术解析与应用指南

    TE Connectivity (TE) CROWN CLIP Sr. 420A电源连接器采用紧凑、大电流、盲插设计,易于安装和使用。由于采用带角度的浮动式设计,该连接器的盲插能力可最大限度地减少
    的头像 发表于 11-07 11:24 251次阅读

    苏宁搜索接口深析:全品类智能分轨如何解决 O2O 电商的搜索痛点?

    本文深度解析苏宁全品类O2O搜索接口核心技术,涵盖智能分轨引擎、库存联动系统与高并发架构设计,解决多品类参数识别、线上线下库存同步等电商搜索痛点,助力构建高效精准的现代电商
    的头像 发表于 10-28 16:20 680次阅读
    苏宁<b class='flag-5'>搜索</b>接口深析:全品类智能分轨如何解决 O2O 电商的<b class='flag-5'>搜索</b>痛点?

    按图搜索1688商品的API接口

    ​  在电商场景中,按图搜索商品功能(即通过上传图片查找相似商品)极大提升了用户体验和效率。1688作为阿里巴巴旗下的批发平台,虽然没有直接公开的“按图搜索”API,但我们可以借助阿里云的图像
    的头像 发表于 10-22 15:05 230次阅读
    按图<b class='flag-5'>搜索</b>1688商品的API接口

    淘宝图片搜索接口开发实战:从 CNN 特征提取到商品匹配(附避坑手册 + 可复用代码)

    本文详解淘宝图片搜索接口开发全流程,涵盖CNN特征提取、商品匹配、参数配置及400/429等高频报错解决方案,附合规避坑指南与可复用代码,助你高效实现图像搜商品功能。
    的头像 发表于 10-21 10:03 260次阅读

    1688 多模态搜索从 0 到 1:逆向接口解析与 CLIP 特征匹配实践

    本文分享基于CLIP模型与逆向工程实现1688图片搜同款的实战方案。通过抓包分析破解接口签名,结合CLIP多模态特征提取与Faiss向量检索,提升搜索准确率至91%,单次响应低于80m
    的头像 发表于 10-17 10:00 196次阅读

    格灵深瞳三项成果获得国际顶级学术会议认可

    OpenAI CLIP为代表的多模态预训练模型,为安防、电商等应用场景提供了强大的跨模态理解基础,但也存在多种技术局限性。
    的头像 发表于 09-15 14:43 1179次阅读

    无刷直流电机电流检测新技术

    开关管通态压降的表现形式及电流波形重构原理,实验结果表明该技术具有实现简单、经济实用的特点,值得推广。 纯分享帖,点击下方附件免费获取完整资料~~~ *附件:无刷直流电机电流检测新技术.pdf 【免责
    发表于 06-26 13:47

    揭秘Cu Clip封装:如何助力半导体芯片飞跃

    在半导体行业中,封装技术对于功率芯片的性能发挥起着至关重要的作用。随着电子技术的飞速发展,特别是在大功率场合下,传统的封装技术已经难以满足日益增长的性能需求。因此,Cu Clip封装
    的头像 发表于 02-19 11:32 4351次阅读
    揭秘Cu <b class='flag-5'>Clip</b>封装:如何助力半导体芯片飞跃

    百度搜索与文心智能体平台接入DeepSeek及文心大模型深度搜索

    够免费使用DeepSeek和文心大模型的深度搜索功能。这一功能不仅融合了先进的搜索算法,还借助文心大模型的强大能力,实现了对信息的深度挖掘和精准匹配。用户在进行搜索时,将能够获得更加全
    的头像 发表于 02-17 09:14 969次阅读

    OpenAI免费开放ChatGPT搜索功能

    近日,OpenAI宣布了一项重大决策:向所有用户免费开放ChatGPT搜索功能。这一举措无疑将为用户带来更加高效、智能的搜索体验。 与谷歌等传统搜索引擎的收录模式相比,ChatGPT
    的头像 发表于 02-06 14:35 810次阅读

    OpenAI提交新商标的申请

    的前沿。2024 年,OpenAI 发布首个视频生成模型 Sora,展示了其在多模态领域的技术实力。此次申请新商标
    的头像 发表于 02-05 16:38 947次阅读

    ChatGPT新增实时搜索与高级语音功能

    OpenAI的第八天技术分享直播中,ChatGPT的搜索功能迎来了重大更新。此次更新不仅丰富了ChatGPT的功能体系,更提升了其实用性和竞争力。 新增的实时搜索功能,是此次更新的亮
    的头像 发表于 12-17 14:08 921次阅读

    OpenAI考虑取消AGI条款

    近日,据英国《金融时报》报道,OpenAI正在与微软就一项重要条款进行磋商,该条款涉及未来通用人工智能(AGI)技术的使用权。 据了解,OpenAI与微软此前签订的合同中,包含了一项关于通用
    的头像 发表于 12-09 14:35 944次阅读