0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌推出数据集搜索黑科技,再也不用发愁找数据!

ExMh_zhishexues 来源:未知 作者:胡薇 2018-09-14 14:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

旨在整合全球互联网信息的谷歌,其首要目标本来是林林总总的商业网站。但最近,它推出了一种新型的数据集搜索引擎,将服务目标延展到了科研社群。这就是属于科研工作者等数据狂的黑科技——Google Dataset Search(谷歌数据集搜索)。

谷歌数据集搜索发起了一次数据搜索的革命,它让人们能够迅速获取分散在全互联网的各式数据集。无论是网站、数字图书馆还是专业数据库,只要是存在于线上的共享数据集,就能够被引擎找到。用户键入搜索信息后,谷歌会分析比对相同数据集的不同版本,并尽可能地检索有价值的相关信息。

实际上,这次革命的核心工具非常纯粹,就是一个可以将各式数据集集中在一起加以描述检索的开放标准(http://schema.org)。数据发布者按照这个标准所定义的标签框架,对发布的数据内容进行标签式的描述。定义的标签包括发布时间、发布方、数据收集方式等等。而引擎随后会将这些标签信息编入索引,并与谷歌知识谱图结合使用,从而使本来分布零散的数据集成为一个能够统一检索的强大系统。

Figure.1Google Dataset Search使用实例

Figure.2Google Dataset Search使用实例

谷歌的人工智能科学家娜塔莎·诺伊(Natasha Noy)接受采访时表示,创建数据集搜索的目标是将数以万计的在线数据集统合展示,并非自行建立数据库收集数据,她说:“我们只是希望这些数据能够被人们轻松获取,并不是想将其收集挪动到其他地方。“

目前,互联网上的数据集资料分布极其零散。不同的学科领域各自拥有自己的首选资源库,各政府机构和地方当局更是如此。诺伊说:“科学家们当然知道能在哪些专业数据库找到他们自己领域的数据,但他们有时想要的并不是这一类数据。而一旦他们将视野拓展到专业领域之外,数据搜寻就会变得十分困难。”

诺伊举了一个她亲历亲闻的例子,一位气象学家在为即将开展的研究寻找海洋温度的特定数据集,但怎么也找不到。她没有继续追踪,直到她在遇到了相关方面的同事,在同事的帮助下她才找到那个数据库。然后她的研究工作才得以继续。诺伊说:“虽然保存数据的地方算是很显见,数据描述也写得很清晰,但仍然很难被找到。”

该搜索引擎的初始版本主要包括来自ProPublica等新闻机构以及政府机构的数据和数据集。 但是,如果这项搜索服务最终流行起来,那么随着机构和科学家争相开放数据的访问权限,它所囊括的数据量肯定会呈现滚雪球式的成长。

而近年来,世界各地关于数据开放共享的倡议正在蓬勃发展,这将有助于数据集搜索引擎的实现。诺伊认为,在过去的几年里,可共享数据的存量已经爆炸,她将此归功于科学文献中数据的重要性在日益增长——因为期刊会要求作者将数据集发布出来。而除此之外,美国政府和欧洲政府的法律法规也在进一步引导数据开放共享。

开放数据研究所(ODI)首席执行官Jeni Tennison表示,Google参与到开放数据行动中来,将更有利于这项运动获得成功。数据集搜索一直是一个很困难的事情,希望谷歌能让它变得更加容易。她进一步说,要创建一个像样的搜索引擎,你需要知道如何构建对用户友好的系统,并了解人们在键入某些短语时的真实所想。而谷歌对这些了如指掌。事实上,对于搜索引擎来说,最重要的是用户所产生的行为数据,这才是促进引擎快速成长的活力源泉。所以,虽然搜索引擎赖以抓取数据集的元数据标签是一个开放标准,任何竞争对手(如Bing或Yandex等)都可以使用它来构建自己的竞争服务,但谷歌从没有丧失自己的真正优势。Tennison也表示:“直观地了解人们的搜索方式很重要,譬如,他们在检索时会使用什么样的术语,又会如何表述这些术语。从了解人们如何搜索数据,并据此进一步推进数据开放的角度说,如果谷歌能够开放自己的用户行为数据,将会大有裨益。”

总而言之,更多的数据开放共享是值得期待的潮流,而谷歌无疑又一次扛起了领头的大旗。当然,在谷歌完全回归中国之前,我们距离便利还会多一个梯子的距离。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6259

    浏览量

    111992
  • 搜索引擎
    +关注

    关注

    0

    文章

    120

    浏览量

    13877

原文标题:谷歌新推数据搜索,科学研究还爬楼么?

文章出处:【微信号:zhishexueshuquan,微信公众号:知社学术圈】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    用 OpenClaw 对接 1688 接口,快速实现图片选品妈妈再也不用担心了

    数据,要么被封IP,要么拿到的信息残缺不全,连一件代发标识都查不到…… 以前我也被这些问题折腾得头大,直到发现了 Open Claw 对接 1688 接口的神仙操作——不用复杂开发,不用懂代码(新手也能上手),
    的头像 发表于 04-13 13:32 160次阅读

    不用原厂也能做门禁卡吗?

    不用原厂也能做门禁卡吗?能。通过选择通用协议门禁卡(如M1卡、CPU卡)并匹配门禁系统参数,无需依赖原厂即可定制。广州杰众智能科技有限公司提供符合国际标准的门禁卡定制服务,支持跨品牌适配,帮助用户
    的头像 发表于 02-28 14:20 337次阅读
    <b class='flag-5'>不用</b><b class='flag-5'>找</b>原厂也能做门禁卡吗?

    使用dp123电天下平台的获取电天下列表搜索数据API接口

    ​ 在电子元件数据管理领域,dp123电天下平台提供了一套强大的API接口,用于高效获取和搜索电天下列表数据。本技术帖将逐步介绍如何调用其“获取电天下列表搜索
    的头像 发表于 02-27 14:26 361次阅读
    使用dp123电天下平台的获取电天下列表<b class='flag-5'>搜索</b><b class='flag-5'>数据</b>API接口

    ​​​​​​​使用 DMM Web API 获取搜索列表数据

    ​  DMM 平台提供了丰富的 Web API 接口,允许开发者获取其平台上的各种数据。其中一个常用的接口是用于获取搜索列表结果的 API。本文将介绍如何调用此 API 来获取商品或内容的列表信息
    的头像 发表于 02-09 15:34 389次阅读
    ​​​​​​​使用 DMM Web API 获取<b class='flag-5'>搜索</b>列表<b class='flag-5'>数据</b>

    Linux新手必看!3个命令搞定所有“求助”,再也不用到处查文档

    其实根本不用慌——Linux 早就自带了 “说明书”,学会 3 个核心帮助命令,就能解决 90% 的操作疑问,比百度还快!
    的头像 发表于 02-03 15:28 855次阅读
    Linux新手必看!3个命令搞定所有“求助”,<b class='flag-5'>再也不用</b>到处查文档

    如何通过API获取贝壳房二手房详情数据

    ​  在房产数据应用开发中,获取精准的房源信息是关键。贝壳房作为国内领先的房产平台,其数据接口为开发者提供了丰富的房源详情信息。本文将从技术角度分析如何调用贝壳房的二手房详情API
    的头像 发表于 01-28 17:09 600次阅读
    如何通过API获取贝壳<b class='flag-5'>找</b>房二手房详情<b class='flag-5'>数据</b>

    惠海H6843落地扇3V升12V1.5A降压稳压芯片IC方案

    H6843 高性能升压恒压驱动芯片来报到!从 2.7V 到 25V 宽电压覆盖,连 2.5V 低电压都能轻松启动,锂电池、适配器等多种供电场景全兼容,再也不用为电源匹配发愁~ 它的 \"智能功耗
    发表于 12-04 09:46

    SimData:基于aiSim的高保真虚拟数据生成方案

    01前言在自动驾驶感知系统的研发过程中,模型的性能高度依赖于大规模、高质量的感知数据。目前业界常用的数据包括KITTI、nuScenes、WaymoOpenDataset等,它们为
    的头像 发表于 11-07 17:35 5513次阅读
    SimData:基于aiSim的高保真虚拟<b class='flag-5'>数据</b><b class='flag-5'>集</b>生成方案

    深度解析淘宝拍立淘按图搜索API接口与JSON数据示例参考

    引言 淘宝拍立淘是淘宝推出的一项基于图像识别的搜索功能,用户可以通过上传图片来搜索相似商品。淘宝开放平台提供了拍立淘按图搜索API接口,帮助开发者实现图像
    的头像 发表于 11-06 13:43 434次阅读

    AIcube1.4目标检测模型导入yolotxt格式数据后一直显示数据正在解析,为什么?

    AIcube1.4目标检测模型导入yolotxt格式数据后一直显示数据正在解析 数据有问题,把数据情况说的详细点
    发表于 08-13 07:16

    AI Cube如何导入数据

    我从在线平台标注完并且下载了数据,也按照ai cube的要求修改了文件夹名称,但是导入提示 不知道是什么原因,我该怎么办? 以下是我修改后的文件夹目录
    发表于 08-11 08:12

    请问AICube所需的目标检测数据标注可以使用什么工具?

    请问AICube所需的目标检测数据标注可以使用什么工具? 我使用labelimg进行标注,标注后的数据改好文件名后导入不进去。一直卡在数据
    发表于 08-11 08:07

    云训练平台数据过大无法下载数据至本地怎么解决?

    起因是现在平台限制了图片数量,想要本地训练下载数据时发现只会跳出网络异常的错误,请问这有什么解决办法?
    发表于 07-22 06:03

    使用AICube导入数据点创建后提示数据不合法怎么处理?

    重现步骤 data目录下 labels.txt只有英文 **错误日志** 但是使用示例的数据可以完成训练并部署
    发表于 06-24 06:07

    数据下载失败的原因?

    数据下载失败什么原因太大了吗,小的可以下载,想把大的下载去本地训练报错网络错误 大的数据多大?数据量有多少?
    发表于 06-18 07:04