0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

还在愁到哪里找到需要的机器学习数据集吗?

DPVg_AI_era 来源:lp 2019-03-29 11:45 次阅读

本文介绍一个机器学习大型数据集的汇总网站,网站目前提供约 70 个最新数据集,涵盖了计算机视觉、自然语言理解和音频三大领域。

还在愁到哪里找到需要的机器学习数据集吗?

每年都有很多大型、高质量的数据集发布,其中大多数数据集都发布在各自的网站上,通过谷歌搜索很难找到所有这些数据集。

现在,一位名叫Nikola Pleša的开发人员做了一个项目,将所有机器学习的大型数据集收集在一个网站上,方便大家取用。

网站一经发布,好评如潮。网站目前提供约70个数据集,涵盖了计算机视觉、自然语言理解和音频三大领域,包括每个数据集的链接、简介、许可类型、论文等,并且作者表示将继续增加数据集数量。

传送门:

https://www.datasetlist.com/

下面,我们分别介绍CV、NLP的最新10大数据集,以及4个音频数据集。

计算机视觉(46个)

1. IBM人脸多样性数据集

IBM的人脸多样性(DiF)数据集是一个庞大而多样化的数据集,旨在促进人脸识别技术中公平性和准确性的研究。DiF是第一个此类数据集,包含100万张带注释的人脸图像。

2. GQA

GQA数据集包含2200万个关于各种日常图像的问题。每个图像都与图像的对象、属性和关系的场景图相关联,这是一个基于Visual Genome的新的清晰版本数据集。

3. NVIDIA Flickr-Faces-HQ数据集

该数据集由70000张分辨率为1024×1024的高质量PNG图像组成,并且在人物的年龄、种族和图像背景方面差异很大。数据集也很好地覆盖了人脸的附件,如眼镜,太阳镜,帽子等。

4. Google Open Images V4

Open Images是一个包含约900万个URL图像的数据集,这些图像具有包含数千个类别的图像级标签和边界框注释。

5. Youtube-8M 2018

YouTube- 8M是一个大型的带标签的视频数据集,由数百万个YouTube视频ID和来自4700多个视觉实体的不同词汇表的相关标签组成,包含大量的视频画面信息、音频信息、标签信息。

6. Berkeley Deep Drive (BDD100K)

该数据集包含超过100k个驾驶体验视频,每个视频长度为40秒,帧数为每秒30帧。总图像数比百度ApolloScape(2018年3月发布)大800倍,比Mapillary大4800倍,比KITTI大8000倍。

7. ApolloScape

ApolloScape是一个此前的类似数据集如KITTI和CityScapes更大、更复杂的数据集。ApolloScape提供了高分辨率高10倍以上的图像,并逐像素标注,包括26种不同的可识别对象,如汽车、自行车、行人和建筑物。随着行人和车辆数量的增加,数据集提供了多个级别的场景复杂性,在给定场景中最多多达100辆车辆,以及更广泛的具有挑战性的环境,如恶劣天气或极端光照条件。

8. Tencent ML - Images

腾讯发布的Tencent ML - Images是目前最大的开源多标签图像数据集,包括17,609,752个训练图像和88739个验证图像URL,注释多达11,166个类别。

9. Fashion MNIST

Fashion-MNIST是Zalando文章图像的一个数据集,包括60,000个示例的训练集和10,000个示例的测试集。每个示例都是一个28x28的灰度图像,与10个类别的标签相关联。

10. MegaFace

MF2训练数据集是身份数量上最大的公开可用的面部识别数据集,有470万张面部图像,672K个身份,以及各自的边界框。所有图片均来自Flickr,并在知识共享协议下许可。

自然语言理解(18个)

1. 斯坦福问答数据集(SQuAD)

斯坦福问答数据集(Stanford Question answer Dataset, SQuAD)是一个全新的阅读理解数据集,由众包工作者根据维基百科文章提出的问题组成,其中每个问题的答案都对应阅读文章的一段文本。SQuAD包含500多篇文章的10万对以上的问答对,因此规模明显大于之前的阅读理解数据集。SQuAD2.0将SQuAD1.1中的10万个问题与5万多个新的、无法回答的问题(由众包工作者提出)结合起来,使之看起来与可回答的问题相似。

2. MultiNLI

多体裁自然语言推理语料库(Multi-Genre Natural Language Inference, MultiNLI)是一个由433k个句子对组成的源文本集合语料库,这些句子对都带有文本蕴涵信息。MultiNLI语料库是在SNLI语料库的基础上建立的,但不同之处在于它涵盖了一系列口语和书面文本的体裁,并支持独特的跨体裁评估。

3. CoQA

CoQA是一个用于构建会话问答系统的大型数据集。CoQA包含127k个问题和答案,来自7个不同领域的8k个文本段落的对话。

4. Spider 1.0

Spider是一个大型复杂的跨域语义分析和text-to-SQL的数据集。Spider由10181个问题和5693个独特的复杂SQL查询组成,这些查询来自200个数据库,覆盖138个不同的域。

5. HotpotQA

HotpotQA是一个以自然的、multi-hop的问题为特征的问答数据集,具有强大的支持事实的监督,以实现更易于解释的问答系统。该数据集由113,000对基于Wikipedia的QA对组成。

6. Question Pairs (Quora)

包含超过400,000行潜在的问题对。

7. Yelp open dataset

Yelp数据集是用于个人、教育和学术目的的业务、评论和用户数据的子集。可在JSON和SQL文件中使用。

8. Facebook bAbI

一个用于自动文本理解和推理的数据集。

9. MS MARCO

微软机器阅读理解数据集(MS MARCO)是一个用于阅读理解和问题回答的新型大型数据集。在MS MARCO中,所有问题都是从真实的匿名用户查询中提取的。数据集中的答案来自上下文段落,这些段落使用Bing搜索引擎从真实的web文档中提取。如果他们能够总结出答案,那么查询的答案就是人工生成的。

10. NewsQA

NewsQA数据集的目的是帮助研究社区构建能够回答需要人类水平理解和推理技能的问题的算法。该数据集包含来自众包的120K阅读理解Q&A对。

音频(4个)

1. Mozilla Common Voice

Mozilla拥有可供使用的最大的人类语音数据集,包括18种不同的语言,从4.2万多名贡献者那里收集了近1400小时的录音语音数据。

2. NSynth

这是一个大规模、高质量的注释音符数据集。NSynth数据集是一个音频数据集,包含~300k个音符,每个音符都有一个独特的音调、音色和包络。

3. Google Audioset

AudioSet由632个音频事件类的扩展本体和来自YouTube视频的2084320个带有人类标记的10秒声音片段组成。本体被指定为事件类别的层次图,涵盖广泛的人类和动物声音、乐器和流派,以及常见的日常环境声音。

4. LibriSpeech

LibriSpeech是一个有声图书数据集,包含文本和语音。数据集包含多位讲者朗读的各类有声读物,时长近500小时。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    8

    文章

    1600

    浏览量

    45616
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130562
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24351

原文标题:收藏:全网最大机器学习数据集,视觉、NLP、音频都在这了

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    学习protel了,不知道该学习是99还是***,更不知道在哪里找

    学习protel了,不知道该学习是99还是***,更不知道在哪里找到适合win7的版本,高手 大虾帮忙啊
    发表于 03-15 02:07

    _cror_ 在INTRINS.H 哪里找代码?

    比如有个库函数_cror_在INTRINS.H文件中,但是它并没有写它怎么实现的啊,如果我想参考库函数怎么写的该到哪里找呢。谢谢
    发表于 01-06 16:09

    求各位大神帮我看一下这个图标在哪里找到

    谢谢各位大神,帮着小弟点一下这个图标哪里找到
    发表于 08-26 19:31

    这个是什么。在哪里找到???拜托,告诉我一下行吗。

    这是个温度采集的程序框图,其中有这个我不知道从哪里找到
    发表于 04-05 15:38

    谁用PIC做过FFT方面的处理,FFT的函数库在哪里找到

    谁用PIC做过FFT方面的处理,FFT的函数库在哪里找到
    发表于 04-29 16:46

    请问这个图标是真么意思 在哪里找到

    请问这个图标是真么意思 在哪里找到
    发表于 05-20 20:22

    新手求问,下面右边的图标是什么,在哪里找到

    新手求问,下面右边的图标是什么,在哪里找到
    发表于 05-27 09:50

    刚刚开始学Altium,不知道这个封装要到哪里找

    `别人给了一个原理图给我,但有一个二极管的封装找不到,哪位大神能告诉我应该到哪里找这个封装`
    发表于 12-07 21:58

    3D Curve 是什么,在哪里找到

    求问,这个是什么?在哪里找到的。谢谢。
    发表于 04-21 15:31

    tdms文件输出控件 在哪里找到

    `哪位大神知道这个控件在哪里找到`
    发表于 04-14 10:12

    请问SDP-H1控制板的JTAG下载线在哪里找到

    我买了AD7768评估板和SDP-H1控制板。但一次只能输出13万个点,所以我想重新编译这个SDP-H1控制板,所以想问一下控制板的JTAG下载线在哪里找到
    发表于 07-31 07:02

    哪里找到中断向量名称?

    嗨,Noob问题:在哪里找到中断向量名?到目前为止,我一直依赖于数据表中的演示代码,但是我找不到ADC向量。他们在某个文件里吗?我猜:没用。谢谢!
    发表于 10-31 13:43

    想使用S32R45和DDR3,你能帮我在哪里找到示例项目或用例吗?

    你好 : 专家,我们想使用S32R45和DDR3,你能帮我在哪里找到示例项目或用例吗?
    发表于 05-17 08:13

    在网上下载的TD软件,安装后没有License文件到哪里找

    网上下载的TD软件,安装后没有License文件,到哪里找
    发表于 08-11 06:58

    PLC网关采集PLC数据之后数据都放到哪里去了呢

    PLC网关采集PLC数据之后,数据都放到哪里去了呢
    发表于 11-06 16:01 1908次阅读
    PLC网关采集PLC<b class='flag-5'>数据</b>之后<b class='flag-5'>数据</b>都放<b class='flag-5'>到哪里</b>去了呢