0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌发布查找在线数据的搜索引擎Dataset Search

KIyT_gh_211d74f 来源:未知 作者:胡薇 2018-09-11 16:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

9 月 5 日,谷歌发布了一个帮助研究者查找在线数据的免费搜索引擎 Dataset Search。谷歌表示,该引擎面向「科学家、数据记者、数据极客等人群」。该引擎有助于促进数据的开放利用和重复利用。

Dataset Search 与谷歌的其他专用搜索引擎(如用于搜索新闻和图像的引擎,以及 Google Scholar 和 Google Books)一样可以免费使用,它基于拥有者对文件和数据库的分类方式来查找文件和数据集。该引擎读取文件内容的方式与搜索引擎搜索网页的方式不同。有专家表示,该引擎填补了这一领域的空白,可以极大地促进开放数据运动的发展,这一运动旨在实现数据的开放利用和重复利用。

政府机构、科学出版社、研究机构甚至是个人研究者在全世界维护着成千上万的开源数据资源库,包含了数百万个数据集。

但那些想知道哪些类型的数据可用,或者那些希望定位已经存在的数据的研究者,通常依赖于口耳相传的信息。来自加州山景城的 Google AI 计算机科学家 Natasha Noy 说。

对于那些处于研究生涯早期阶段且还没有建立专业联系网络的研究者而言,这个问题尤其严重,Noy 说。这对于那些做交叉学科研究的人而言也是个严重的缺陷。例如,流行病学家需要访问气候数据,其可能与某种病毒的传播相关。

分类搜索

2017 年 1 月,Noy 及其谷歌同事 Dan Brickley 在一篇谷歌博客(https://ai.googleblog.com/2017/01/facilitating-discovery-of-public.html)中首次介绍了解决该问题的策略。

典型的搜索引擎分两个阶段运行。第一个阶段是通过在互联网上持续搜索来索引可用网页。第二个阶段是对索引网页进行排序,以使用户输入搜索词时,搜索引擎能够按相关度排序来提供搜索结果。

Noy 和 Brickley 写道,为了帮助搜索引擎索引现有数据集,拥有数据集的人应该使用一个叫作 Schema.org 的标准化词汇表来「标记」数据集,Schema.org 是谷歌和另外三个搜索引擎巨头(微软、雅虎和 Yandex)一起发起的项目,由 Brickley 管理。谷歌团队还开发了一种特殊算法来对搜索结果中的数据集进行排序。

由于谷歌在网页搜索中的主导地位,谷歌正在快速转入数据生态系统的消息刺激主要搜索引擎巨头进入该战场,对元数据进行标准化处理,伦敦数据共享公司 Figshare CEO Mark Hahnel 说道。(Figshare 由霍尔茨布林克出版集团管理,该集团也对 Nature 的出版公司持有大量股份。)

「到 11 月,我们接触的所有大学的数据都已经标记完成。我认为这对学界的开放数据而言是一项重要变革。」Hahnel 说道。

Hahnel 认为,融资机构有时强制要求研究数据必须可获取,而只要信息能够高效获取,他们就能达到其最终目的。「这使得投资机构一直尝试做的事合法化。」

谷歌为用户提供了能够同时搜索多个存储区的单个界面,希望借此改变用户发布和运用数据的方式。谷歌表示这个项目能够带来下列好处:

形成数据共享生态系统,鼓励数据发布者依照最佳做法来存储和发布数据;

为科学家提供相应平台,方便大众引用他们创建的数据集,展现他们的研究成果所带来的影响力。

搜索试验

目前谷歌已经正式对外测试开源数据集搜索引擎,用户在键入数据集名称或关键信息后,该搜索引擎会给出一系列数据源列表,每一个数据源都会有简要的介绍,例如更新日期、作者、版权和内容说明等。值得注意的是,除了数据集资源,该搜索引擎还能检索到很多 Kaggle 上的预训练模型。在机器之心的尝试中,我们分别以 CIFAR-10、Object Detection 和 SQuAD 为关键词搜索数据集,发现了一些很有意思的结果。

首先我们检索了十分常用的图像分类数据集 CIFAR-10,该数据集包含 10 个类别共 60000 张 32x32 的彩色图像,且分为 50000 张训练图像和 10000 张测试图像。搜索结果共给出了 9 项来源,包括数据集、预训练模型和对比结果。

例如在排名第一的搜索结果中,数据集来自 Kaggle 的 CIFAR-10 Python。在搜索引擎的简介页中,除了给出该数据集的简要信息(包括引用此数据集的论文),它甚至还展示了该数据集的使用指南。例如,如下展示页介绍了该数据集在 Keras 的使用方法:

fromosimportlistdir,makedirsfromos.pathimportjoin,exists,expandusercache_dir=expanduser(join('~','.keras'))ifnotexists(cache_dir):makedirs(cache_dir)datasets_dir=join(cache_dir,'datasets')#/cifar-10-batches-pyifnotexists(datasets_dir):makedirs(datasets_dir)#Ifyouhavemultipleinputdatasets,changethebelowcpcommandaccordingly,typically:#!cp../input/cifar10-python/cifar-10-python.tar.gz~/.keras/datasets/!cp../input/cifar-10-python.tar.gz~/.keras/datasets/!ln-s~/.keras/datasets/cifar-10-python.tar.gz~/.keras/datasets/cifar-10-batches-py.tar.gz!tarxzvf~/.keras/datasets/cifar-10-python.tar.gz-C~/.keras/datasets/

点击第一条数据源就能跳转到对应的 Kaggle 页面,下载和额外信息都展示在原页面中。

在采用关键词「Object Detection」进行搜索的过程中,我们会发现搜索结果远远要比上面多得多,大约会有上百条数据来源。依靠关键词同样检索到了非常多流行的开源数据集,它们都适用于目标检测这一领域。例如 Microsoft COCO、Face Detection 和 Vehicle Number Plate Detection 等。

从「Object Detection」的搜索结果来看,来自 Kaggle 的数据集占了一小半,它们都会在 Kaggle 上提供下载与使用指南。其实浏览这么多数据源,搜索引擎给出的简介页面就显得非常重要了。我们不需要跳转到每一个数据集的原地址,仅根据简介就能了解该数据集的大概应用领域与内容。如下展示了 COCO 数据集的简介页面:

最后我们检索了斯坦福的问答数据集「SQuAD」,搜索结果不仅给出了挑战赛地址和数据集地址,同时还提供了相似数据集和挑战赛的地址。但是在我们检索「SQuAD 2.0」的时候,并没有搜索到斯坦福大学发布的机器阅读理解问答数据集 SQuAD 2.0,也可能是该数据集太新,还没有被搜索引擎收录。

合作机构

谷歌这一尝试的早期支持者是美国国家海洋和大气管理局(NOAA)。该机构的职权范围从渔业到日冕,其档案包含近 7 万个数据集,包括 19 世纪的船舶日志。这些数据的总容量超过 35 PB,相当于 35000 个典型硬盘的容量。

谷歌这一工具 Dataset Search 将帮助 NOAA 完成数据开放的使命,NOAA 首席数据官 Edward Kearns 表示。「我们想探索新的方法,使其他人也能使用这些数据。」

与数据拥有者展开合作是运行 Dataset Search 的关键步骤。尽管这一系统未来可能变得更加复杂,谷歌目前不打算像处理网页和图像那样读取或分析数据。Noy 表示,「只有数据发布者提供的元数据足够好,这种搜索工具才能够好。」

和 Google Scholar 一样,Dataset Search 目前不提供自动化查询或应用程序编程接口(API),尽管谷歌表示将来可能会增加这一功能。

Noy 表示当研究人员开始使用 Dataset Search 时,谷歌将会观察他们如何与其交互,并利用这些信息来改进搜索结果。她还表示,公司尚未打算把该服务商业化。

随着 Dataset Search 的不断改进,未来它也许会跟 Google Scholar 整合,将特定研究领域的搜索结果关联到相关数据集。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6258

    浏览量

    111956
  • 搜索引擎
    +关注

    关注

    0

    文章

    120

    浏览量

    13875

原文标题:AI研发者福利!谷歌推出数据集搜索专用引擎Dataset Search

文章出处:【微信号:gh_211d74f707ff,微信公众号:重庆人工智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    存储芯片闪崩!谷歌发布新算法,AI内存占用只需原来1/6?

    电子发烧友网报道(文/梁浩斌)又一“Deepseek时刻”来了?谷歌在3月24日发布了一项名为TurboQuant的先进向量量化压缩算法,旨在解决大语言模型和向量搜索引擎中的内存瓶颈问题,令KV
    的头像 发表于 03-27 13:50 7013次阅读
    存储芯片闪崩!<b class='flag-5'>谷歌</b><b class='flag-5'>发布</b>新算法,AI内存占用只需原来1/6?

    OpenAI要求谷歌将ChatGPT列为默认搜索引擎之一

    行业芯事行业资讯
    电子发烧友网官方
    发布于 :2026年03月24日 13:37:11

    Oracle和NVIDIA合作加速向量搜索和企业数据处理

    旨在支持 NVIDIA GPU 和 NVIDIA cuVS 开源库,用于向量搜索索引生成。本公告基于在 Oracle AI World 2025 大会上推出的 Oracle AI Database 26ai 和 Oracle Private AI Services Co
    的头像 发表于 03-23 15:26 419次阅读

    如何快速查找工业部件的 3D CAD 模型

    上,通常位于规格、图片或功能描述下方。这是您最有可能找到该产品 CAD 的地方。 3.在传统搜索引擎中按零件编号搜索简要说明:零件编号是最快的捷径。 如果您有零件编号,这就是最好的捷径。将其输入
    发表于 03-04 16:22

    淘宝图片搜索API(taobao.item_search_img)

    一、前言 在电商数字化深度发展的当下,视觉化检索已成为连接用户需求与商品资源的核心链路,相较于传统文字搜索,以图搜物能有效解决商品特征描述模糊、同款货源查找效率低、跨平台品类匹配难等行业痛点,成为电
    的头像 发表于 01-29 11:54 317次阅读

    API数据分析:淘宝流量来源分析,渠道优化!

    优化渠道策略。我们将使用Python作为工具,结合数据分析和统计方法,确保过程真实可靠。 1. 理解淘宝流量来源 淘宝流量主要来自多个渠道,包括: 直接访问 :用户直接输入淘宝网址或从收藏夹访问。 搜索引擎 :如百度或淘宝内搜索
    的头像 发表于 01-23 13:42 375次阅读
    API<b class='flag-5'>数据</b>分析:淘宝流量来源分析,渠道优化!

    迈富时GEO服务:技术驱动AI搜索时代的企业增长新引擎

    导语: 随着DeepSeek、豆包、文心一言等生成式AI搜索引擎的快速普及,用户获取信息的方式正从传统"链接点击"转向"AI直接对话"。在这场深刻的信息检索范式变革中,企业如何让品牌内容被AI系统
    的头像 发表于 01-17 21:20 452次阅读

    京东关键词item_search-按关键字搜索京东商品

    京东关键词搜索(item_search)技术实现指南:合规 API 调用 + 数据运营实战 京东商品关键词搜索(item_search)是电
    的头像 发表于 01-06 09:27 1272次阅读

    京东按关键字搜索商品 API接口item_search Pro

    京东搜索商品 API(item_search Pro)赋能电商运营全指南 item_search Pro 是京东商品搜索接口的增强版(第三方封装或官方增强能力),核心用于按关键词 /
    的头像 发表于 01-05 11:03 698次阅读

    二进制查找(Binary Search)介绍

    二进制查找(Binary Search)用于在已排序的数组中执行二进制查找的函数。 int binary_search(int arr[], int size, int targ
    发表于 12-12 06:54

    5分钟了解SEO优化服务器对网站加载速度的影响

    一个为SEO优化过的服务器,能显著提升网站性能,从而在搜索引擎排名中占据有利位置。
    的头像 发表于 12-02 10:27 437次阅读

    线性搜索与二分搜索介绍

    线性搜索(Linear Search):从数组的第一个元素开始,依次将当前元素与目标值进行比较,直到找到目标值或搜索完整个数组。 二分搜索(Binary
    发表于 12-01 07:36

    根据标题获取商品链接评论接口的技术实现

    [调用评论API] F -- > G[数据清洗存储]   关键组件说明: 搜索引擎接口 :通过电商平台开放API实现标题搜索 $$ text{API}_{search} = text{
    的头像 发表于 10-20 16:03 802次阅读
    根据标题获取商品链接评论接口的技术实现

    谷歌查找我的设备配件(Google Find My Device Accessory)详解和应用

    谷歌查找我的设备配件(Google Find My Device Accessory)介绍 谷歌查找我的设备配件是与谷歌
    发表于 08-31 21:10

    地平线余凯谈AI时代产品方法论

    互联网时代,商业逻辑始终围绕“连接”与“理解人”展开。从搜索引擎、社交平台再到短视频应用,都在通过用户行为数据揣摩人类偏好,优化服务体验。
    的头像 发表于 06-03 11:44 1057次阅读