0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌推出数据集搜索黑科技,再也不用发愁找数据!

ExMh_zhishexues 来源:未知 作者:胡薇 2018-09-14 14:09 次阅读

旨在整合全球互联网信息的谷歌,其首要目标本来是林林总总的商业网站。但最近,它推出了一种新型的数据集搜索引擎,将服务目标延展到了科研社群。这就是属于科研工作者等数据狂的黑科技——Google Dataset Search(谷歌数据集搜索)。

谷歌数据集搜索发起了一次数据搜索的革命,它让人们能够迅速获取分散在全互联网的各式数据集。无论是网站、数字图书馆还是专业数据库,只要是存在于线上的共享数据集,就能够被引擎找到。用户键入搜索信息后,谷歌会分析比对相同数据集的不同版本,并尽可能地检索有价值的相关信息。

实际上,这次革命的核心工具非常纯粹,就是一个可以将各式数据集集中在一起加以描述检索的开放标准(http://schema.org)。数据发布者按照这个标准所定义的标签框架,对发布的数据内容进行标签式的描述。定义的标签包括发布时间、发布方、数据收集方式等等。而引擎随后会将这些标签信息编入索引,并与谷歌知识谱图结合使用,从而使本来分布零散的数据集成为一个能够统一检索的强大系统。

Figure.1Google Dataset Search使用实例

Figure.2Google Dataset Search使用实例

谷歌的人工智能科学家娜塔莎·诺伊(Natasha Noy)接受采访时表示,创建数据集搜索的目标是将数以万计的在线数据集统合展示,并非自行建立数据库收集数据,她说:“我们只是希望这些数据能够被人们轻松获取,并不是想将其收集挪动到其他地方。“

目前,互联网上的数据集资料分布极其零散。不同的学科领域各自拥有自己的首选资源库,各政府机构和地方当局更是如此。诺伊说:“科学家们当然知道能在哪些专业数据库找到他们自己领域的数据,但他们有时想要的并不是这一类数据。而一旦他们将视野拓展到专业领域之外,数据搜寻就会变得十分困难。”

诺伊举了一个她亲历亲闻的例子,一位气象学家在为即将开展的研究寻找海洋温度的特定数据集,但怎么也找不到。她没有继续追踪,直到她在遇到了相关方面的同事,在同事的帮助下她才找到那个数据库。然后她的研究工作才得以继续。诺伊说:“虽然保存数据的地方算是很显见,数据描述也写得很清晰,但仍然很难被找到。”

该搜索引擎的初始版本主要包括来自ProPublica等新闻机构以及政府机构的数据和数据集。 但是,如果这项搜索服务最终流行起来,那么随着机构和科学家争相开放数据的访问权限,它所囊括的数据量肯定会呈现滚雪球式的成长。

而近年来,世界各地关于数据开放共享的倡议正在蓬勃发展,这将有助于数据集搜索引擎的实现。诺伊认为,在过去的几年里,可共享数据的存量已经爆炸,她将此归功于科学文献中数据的重要性在日益增长——因为期刊会要求作者将数据集发布出来。而除此之外,美国政府和欧洲政府的法律法规也在进一步引导数据开放共享。

开放数据研究所(ODI)首席执行官Jeni Tennison表示,Google参与到开放数据行动中来,将更有利于这项运动获得成功。数据集搜索一直是一个很困难的事情,希望谷歌能让它变得更加容易。她进一步说,要创建一个像样的搜索引擎,你需要知道如何构建对用户友好的系统,并了解人们在键入某些短语时的真实所想。而谷歌对这些了如指掌。事实上,对于搜索引擎来说,最重要的是用户所产生的行为数据,这才是促进引擎快速成长的活力源泉。所以,虽然搜索引擎赖以抓取数据集的元数据标签是一个开放标准,任何竞争对手(如Bing或Yandex等)都可以使用它来构建自己的竞争服务,但谷歌从没有丧失自己的真正优势。Tennison也表示:“直观地了解人们的搜索方式很重要,譬如,他们在检索时会使用什么样的术语,又会如何表述这些术语。从了解人们如何搜索数据,并据此进一步推进数据开放的角度说,如果谷歌能够开放自己的用户行为数据,将会大有裨益。”

总而言之,更多的数据开放共享是值得期待的潮流,而谷歌无疑又一次扛起了领头的大旗。当然,在谷歌完全回归中国之前,我们距离便利还会多一个梯子的距离。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5855

    浏览量

    103250
  • 搜索引擎
    +关注

    关注

    0

    文章

    107

    浏览量

    13306

原文标题:谷歌新推数据搜索,科学研究还爬楼么?

文章出处:【微信号:zhishexueshuquan,微信公众号:知社学术圈】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    从今往后,谷歌搜索AI为王

    电子发烧友网报道(文/黄山明)近日,美国加利福利亚山景城,谷歌在今年I/O开发者大会上,没有过多展示Android及手机硬件技术,反而将人工智能技术放在了重点。不仅推出了全新的大语言模型,还如微软
    的头像 发表于 05-12 01:31 1432次阅读
    从今往后,<b class='flag-5'>谷歌</b><b class='flag-5'>搜索</b>AI为王

    谷歌Vertex AI搜索在医疗保健领域正式推出

    谷歌公司近日宣布,其Vertex AI搜索功能在医疗保健领域正式亮相,并已成功与MedLM以及医疗保健数据引擎(HDE)完成集成。这一创新功能专为医护人员设计,旨在从繁杂的医疗记录中快速且精准地提取出关键的临床信息。
    的头像 发表于 03-22 14:08 162次阅读

    苹果微软曾洽购必应,因谷歌搜索质量未果

    CNBC及其他媒体引述的美国司法部反垄断公诉书详细列举了谷歌搜索领域所持的垄断角色。诉状中透露,尽管微软多次试图将必应用户作为Safari浏览器的默认搜索引擎,但每一次均因搜索结果质
    的头像 发表于 02-25 10:39 267次阅读

    谷歌搜索引擎优化的各个方面和步骤

    谷歌搜索引擎是最受欢迎和广泛使用的搜索引擎之一,为了使你的网站在谷歌上更好地排名并提高曝光度,你可以采取一些谷歌
    的头像 发表于 01-25 10:29 291次阅读

    语音数据集在智能语音搜索中的应用与挑战

    一、引言 随着互联网的普及和移动设备的兴起,智能语音搜索已经成为人们获取信息的重要方式之一。智能语音搜索通过语音交互的方式,为用户提供更加便捷、高效的信息查询服务。语音数据集在智能语音搜索
    的头像 发表于 01-18 15:09 205次阅读

    再也不用手动关灯了,用安信可的小安派做一个智能家居中控

    本作品由安信可社区用户 noonezero 制作 以下是我的项目之再也不用手动关灯系列,为了方便小伙伴们看效果,大家可以先点击看视频。 https://www.bilibili.com/video
    的头像 发表于 01-08 17:26 213次阅读
    <b class='flag-5'>再也不用</b>手动关灯了,用安信可的小安派做一个智能家居中控

    蜂窝物联4G DTU数据采集传输终端

    蜂窝物联4G DTU数据采集终端,帮您实现远程作业,数据采集无忧,再也不担心人不在场无法进行数据工作!
    的头像 发表于 10-23 16:23 322次阅读
    蜂窝物联4G DTU<b class='flag-5'>数据</b>采集传输终端

    实用的单片机接反电路,再也不怕电源接反了

    实用的单片机接反电路,再也不怕电源接反了
    的头像 发表于 10-17 17:32 637次阅读
    实用的单片机接反电路,<b class='flag-5'>再也不</b>怕电源接反了

    keras制作mnist数据的流程

    第5讲讲解了keras制作mnist数据的流程,进一步的,有时候我们需要构建自己的数据。 以flower分类为例,见参考3(这里直接用别人的数据
    发表于 08-18 06:38

    如何利用keras打包制作mnist数据

    keras提供了内置的7个数据,直接调用用keras.datasets.xxx.load_data()函数即可下载并返回numpy格式数据,比较方便。但是有些时候我们希望加入自己的训练
    发表于 08-18 06:12

    谷歌允许查看并请求从搜索中删除私人信息

    谷歌正在使从搜索结果中查找和删除您的联系信息变得更加容易。该公司现在将在网络上发现您的地址、电话号码或电子邮件时发出通知,允许您查看并请求从搜索中删除这些信息。 所有这些都发生在谷歌
    的头像 发表于 08-07 17:02 908次阅读

    再也不用害怕SQL断点调试了

    数据SQL
    学习电子知识
    发布于 :2023年07月26日 21:54:22

    开源免费的数据转换库,再也不用担心数据转换了

    数据服务器
    学习电子知识
    发布于 :2023年07月26日 21:40:26

    医疗废物在线监管系统医院再也不怕医废丢失了

    医疗废物在线监管系统医院再也不怕医废丢失了 《医疗废物分类目录》将医疗废物分为六类:感染性废物、病理性废物、损伤性废物、药物性废物和化学性废物。医疗机构和医疗废物集中处置单位在收集和处置医疗废物
    的头像 发表于 06-01 17:09 330次阅读
    医疗废物在线监管系统医院<b class='flag-5'>再也不</b>怕医废丢失了

    谷歌计划推出全新安全功能 更好保护谷歌产品和服务用户

    近日的谷歌I/O上,这家搜索巨头谷歌近日宣布计划推出一项全新的安全功能,旨在更好地保护那些使用谷歌产品和服务的用户,包括针对
    的头像 发表于 05-16 11:28 602次阅读