📜  如何获取用于机器学习的数据集

📅  最后修改于: 2020-09-27 00:52:12             🧑  作者: Mango

如何获取用于机器学习的数据集

在机器学习领域取得成功或成为一名出色的数据科学家的关键是要练习不同类型的数据集。但是,为每种机器学习项目找到合适的数据集是一项艰巨的任务。因此,在本主题中,我们将提供源的详细信息,您可以从中轻松根据项目获取数据集。

在了解机器学习数据集的来源之前,让我们讨论一下数据集。

什么是数据集?

数据集是数据的集合,其中数据以某种顺序排列。数据集可以包含从一系列数组到数据库表的任何数据。下表显示了数据集的示例:

Country Age Salary Purchased
India 38 48000 No
France 43 45000 Yes
Germany 30 54000 No
France 48 65000 No
Germany 40 Yes
India 35 58000 Yes

表格数据集可以理解为数据库表或矩阵,其中每一列对应一个特定变量,每一行对应于数据集的字段。表格数据集最受支持的文件类型是“逗号分隔文件”或CSV。但是,要存储“树状数据”,我们可以更有效地使用JSON文件。

数据集中的数据类型

  • 数值数据:如房价,温度等
  • 分类数据:例如是/否,对/错,蓝/绿等。
  • 顺序数据:这些数据类似于分类数据,但可以在比较的基础上进行测量。

注意:现实世界的数据集规模巨大,很难在初始级别进行管理和处理。因此,要练习机器学习算法,我们可以使用任何虚拟数据集。

需要数据集

要进行机器学习项目,我们需要大量数据,因为没有这些数据,就无法训练ML / AI模型。在创建ML / AI项目时,收集和准备数据集是最关键的部分之一。

如果数据集没有充分准备和预处理,则任何ML项目背后应用的技术都无法正常工作。

在ML项目的开发过程中,开发人员完全依赖数据集。在构建ML应用程序时,数据集分为两部分:

  • 训练数据集:
  • 测试数据集


注意:这些数据集很大,因此要下载这些数据集,您的计算机上必须具有快速的Internet连接。

机器学习数据集的热门资源

以下是可供公众免费使用的数据集列表:

1. Kaggle数据集

Kaggle是为数据科学家和机器学习者提供数据集的最佳来源之一。它使用户可以轻松地查找,下载和发布数据集。它还提供了与其他机器学习工程师合作并解决与数据科学相关的难题的机会。

Kaggle提供了各种格式的高质量数据集,我们可以轻松找到并下载。

Kaggle数据集的链接为https://www.kaggle.com/datasets

2. UCI机器学习存储库

UCI机器学习存储库是机器学习数据集的重要来源之一。该存储库包含数据库,领域理论和数据生成器,它们被机器学习社区广泛用于ML算法分析。

自1987年以来,它已被学生,教授,研究人员广泛用作机器学习数据集的主要来源。

它根据机器学习的问题和任务对数据集进行分类,例如回归,分类,聚类等。它还包含一些受欢迎的数据集,例如虹膜数据集,汽车评估数据集,扑克手数据集等。

UCI机器学习存储库的链接是https://archive.ics.uci.edu/ml/index.php。

3.通过AWS的数据集

我们可以搜索,下载,访问和共享通过AWS资源公开可用的数据集。这些数据集可以通过AWS资源进行访问,但由不同的政府组织,研究,企业或个人提供和维护。

任何人都可以通过AWS资源使用共享数据来分析和构建各种服务。云上的共享数据集可帮助用户将更多时间花费在数据分析上,而不是花费在数据获取上。

该资源为各种类型的数据集提供示例和使用数据集的方式。它还提供了搜索框,我们可以使用该搜索框搜索所需的数据集。任何人都可以将任何数据集或示例添加到AWS上的开放数据注册表中。

资源的链接为https://registry.opendata.aws/。

4. Google的数据集搜索引擎

Google数据集搜索引擎是Google于2018年9月5日推出的搜索引擎。此资源可帮助研究人员获取可免费使用的在线数据集。

Google数据集搜索引擎的链接为https://toolbox.google.com/datasetsearch。

5. Microsoft数据集

Microsoft已启动“ Microsoft研究开放数据”存储库,其中收集了各个领域的免费数据集,例如自然语言处理,计算机视觉和特定领域的科学。

使用此资源,我们可以下载数据集以在当前设备上使用,也可以直接在云基础架构上使用它。

从此资源下载或使用数据集的链接是https://msropendata.com/。

6.很棒的公共数据集集合

很棒的公共数据集提供了高质量的数据集,这些数据集根据农业,生物学,气候,复杂网络等主题以合理的方式排列在列表中。大多数数据集都是免费提供的,但有些可能不是,因此最好在下载数据集之前检查许可证。

从Awesome公共数据集集合下载数据集的链接是https://github.com/awesomedata/awesome-public-datasets。

7.政府数据集

有不同的来源来获取与政府相关的数据。各个国家/地区会发布它们从不同部门收集的供公众使用的政府数据。

提供这些数据集的目的是提高人民之间政府工作的透明度,并以创新的方式使用数据。以下是政府数据集的一些链接:

  • 印度政府数据集
  • 美国政府数据集
  • 北爱尔兰公共部门数据集
  • 欧盟开放数据门户

8.计算机视觉数据集

视觉数据提供了许多特定于计算机视觉的出色数据集,例如图像分类,视频分类,图像分割等。因此,如果您要基于深度学习或图像处理构建项目,则可以参考此资源。

从此源下载数据集的链接为https://www.visualdata.io/。

9. Scikit学习数据集

Scikit学习对于机器学习爱好者来说是一个很好的来源。此源同时提供玩具和真实数据集。这些数据集可从sklearn.datasets包中获取,并使用常规数据集API获取。

可以使用一些预定义的函数来加载scikit-learn上可用的玩具数据集,例如load_boston([return_X_y]),load_iris([return_X_y])等,而不是从外部源导入任何文件。但是这些数据集不适合实际项目。

从此源下载数据集的链接为https://scikit-learn.org/stable/datasets/index.html。