0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

八大机器学习数据集

DPVg_AI_era 来源:lq 2019-01-18 09:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,Medium上的一位用户整理了一份机器学习大型数据集清单,包括八大数据集资源库。总有一款适合你,快来收藏吧!

下面的ML大型数据集,总有一款适合你。

就目前来看,找到一个特定的数据集来解决各种机器学习问题,甚至进行实验还是比较困难的。

本文作者Will Badr便列举了八大机器学习数据集。

不仅包含用于实验的大型数据集,还附带对数据集的描述以及使用示例。有的还包含用于解决与该数据集相关机器学习问题的算法代码。

话不多说,上数据集!

1、Kaggle数据集

数据集地址:

https://www.kaggle.com/datasets

这是作者最喜欢的数据集之一。

每个数据集都是一个小型社区,用户可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。包含各式各样的真实数据集。

用户还可以看到与每个数据集相关的“内核”,许多数据科学家还提供了相关手册来分析数据集。

2、Amazon数据集

数据集地址:

https://registry.opendata.aws/

该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。

网页中也有一个搜索框来帮助用户寻找想要的数据集,还有所有数据集的描述和使用示例,这些数据集信息丰富且易于使用!

数据集存储在Amazon Web Services (AWS)资源中,比如Amazon S3——云中的一个高度可伸缩的对象存储服务。

如果用户正在使用AWS进行机器学习实验和开发,这将非常方便,由于它是AWS网络的本地数据,因此数据集的传输将非常快。

3、UCI机器学习资源库

数据集地址:

https://archive.ics.uci.edu/ml/datasets.html

另一个来自加州大学信息与计算机科学学院的大型资源库,包含100多个数据集。

用户可以找到单变量和多变量时间序列数据集,分类、回归或推荐系统的数据集。

有些UCI的数据集已经是被清洗过的。

4、谷歌数据集搜索引

数据集地址:

https://toolbox.google.com/datasetsearch

在2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务——它是一个可以按名称搜索数据集的工具箱。

他们的目标是统一成千上万个不同的数据集存储库,使这些数据能够且易被发现。

5、微软数据集

数据集地址:

https://msropendata.com/

2018年7月,微软与外部研究社区共同宣布推出“Microsoft Research Open Data”。

它在云中包含一个数据存储库,用于促进全球研究社区之间的协作。它提供了一系列用于已发表研究的、经过处理的数据集。

6、Awesome Public Datasets Collection

数据集地址:

https://github.com/awesomedata/awesome-public-datasets

这是一个按“主题”组织的数据集,比如生物学、经济学、教育学等。

这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,用户需要检查一下许可要求。

7、政府数据集

政府相关数据集也很容易找到的。

许多国家为了提高透明度,向公众分享了各种数据集。以下是一些例子:

欧盟开放数据门户:欧洲政府数据集。

数据集地址:

https://data.europa.eu/euodp/data/dataset

美国政府数据:目前由于一些非政治性原因,暂时无法访问。

数据集地址:

https://www.data.gov/

新西兰政府数据集:

数据集地址:

https://catalogue.data.govt.nz/dataset

印度政府数据集:

数据集地址:

https://data.gov.in/

8、计算机视觉数据集

数据集地址:

https://www.visualdata.io/

Visual Data包含一些可以用来构建计算机视觉(CV)模型的大型数据集。

用户可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。

总结

从上述作者所观察到数据集情况来看,似乎是涵盖各个方向和领域。

这些新数据集的社区将继续发展,使数据更容易被获取,使众包和计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4761

    浏览量

    97154
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26047

原文标题:【收藏】8款大型机器学习数据集顶级资源

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    从原理到场景:工业光电传感器八大检测原理

    在工业自动化的世界里,光电传感器如同机器的“眼睛”,时刻感知环境、检测物体,让自动化成为可能。作为深耕光电传感多年的传感器专家,本期小明将带大家深入了解工业光电传感器的经典八大检测原理,揭秘它们
    的头像 发表于 11-18 07:33 777次阅读
    从原理到场景:工业光电传感器<b class='flag-5'>八大</b>检测原理

    RK3576机器人核心:三屏异显+路摄像头,重塑机器人交互与感知

    瑞芯微RK3576 AIoT处理器处理器凭借其卓越的多屏异显与8路摄像头接入能力,为机器人领域带来革新。米尔电子MYD-LR3576开发板实测数据显示,在高负载下CPU占用仅34%,完美实现多路视觉
    发表于 10-29 16:41

    江智原创性老人八大关键时光点全覆盖 康养生态软件系统

    深圳市江智工业技术有限公司从2016年开始专注康养机器人10年来的努力,专注老人穿戴,饮食,居住,出行,作息,文旅,健康,内心八大关键时光节点全覆盖的全球原创性的康养软件系统于2025年6月正式发布
    的头像 发表于 06-29 20:54 816次阅读
    江智原创性老人<b class='flag-5'>八大</b>关键时光点全覆盖 康养生态软件系统

    数据下载失败的原因?

    数据下载失败什么原因太大了吗,小的可以下载,想把大的下载去本地训练报错网络错误 大的数据多大?数据量有多少?
    发表于 06-18 07:04

    **【技术干货】Nordic nRF54系列芯片:传感器数据采集与AI机器学习的完美结合**

    【技术干货】nRF54系列芯片:传感器数据采集与AI机器学习的完美结合 近期收到不少伙伴咨询nRF54系列芯片的应用与技术细节,今天我们整理几个核心问题与解答,带你快速掌握如何在nRF54上部署AI
    发表于 04-01 00:00

    NVIDIA推出开源物理AI数据

    标准化合成数据的初始版本预计将成为世界上最大的此类数据,目前已作为开源版本提供给机器人开发人员。
    的头像 发表于 03-24 17:52 895次阅读

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习模型市场
    的头像 发表于 02-13 09:39 627次阅读

    碳化硅SiC MOSFET:八大技术难题全解析!

    详细探讨SiCMOSFET的八大技术问题,并给出相应的解决方案或研究方向。一、SiCMOSFET的栅极氧化层可靠性问题问题概述:SiCMOSFET的栅极氧化层是其核
    的头像 发表于 02-06 11:33 2590次阅读
    碳化硅SiC MOSFET:<b class='flag-5'>八大</b>技术难题全解析!

    最新!智慧灯杆八大应用场景案例独家汇总

    最新!智慧灯杆八大应用场景案例独家汇总
    的头像 发表于 01-14 12:47 1175次阅读
    最新!智慧灯杆<b class='flag-5'>八大</b>应用场景案例独家汇总

    传统机器学习方法和应用指导

    用于开发生物学数据机器学习方法。尽管深度学习(一般指神经网络算法)是一个强大的工具,目前也非常流行,但它的应用领域仍然有限。与深度学习相比
    的头像 发表于 12-30 09:16 1982次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器
    的头像 发表于 12-25 11:54 701次阅读

    【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

    嵌入式人工智能(EAI)将人工智能集成到机器人等物理实体中,使它们能够感知、学习环境并与之动态交互。这种能力使此类机器人能够在人类社会中有效地提供商品及服务。 数据是一种货币化工具
    发表于 12-24 00:33

    特智能两款飞腾D2000主板对比测评

    买国产计算机,找特智能 主板作为电脑八大硬件之一,承载着连接各种硬件设备,确保电脑长期稳定运行的重要任务。在电脑的八大件硬件中,相信主板一定是最特殊的。主板身为连接点,需要考虑的事情太多了。比如
    的头像 发表于 12-18 14:46 1953次阅读
    <b class='flag-5'>集</b>特智能两款飞腾D2000主板对比测评

    2025年全球半导体八大趋势,万年芯蓄势待发

    近日,国际数据公司(IDC)发布了2025年全球半导体市场的八大趋势预测,显示出对半导体市场回暖的信心,为业界提供了宝贵的市场洞察。在全球范围内,特别是在人工智能(AI)和高性能运算(HPC)需求
    的头像 发表于 12-17 16:53 2836次阅读
    2025年全球半导体<b class='flag-5'>八大</b>趋势,万年芯蓄势待发

    cmp在机器学习中的作用 如何使用cmp进行数据对比

    机器学习领域,"cmp"这个术语可能并不是一个常见的术语,它可能是指"比较"(comparison)的缩写。 比较在机器学习中的作用 模型评估 :比较不同模型的性能是
    的头像 发表于 12-17 09:35 1326次阅读