您是否认为数据仅供大公司和大公司分析和获取业务洞察力?不,数据也很有趣!没有什么比分析数据集以找到数据之间的相关性并获得独特见解更有趣的了。这几乎就像一个神秘游戏,其中数据是您必须解决的难题!当您必须为您想要制作的数据科学项目找到最佳数据集时,它会更加令人兴奋。毕竟,如果数据不好,你的项目也没有机会好。
幸运的是,有许多在线数据源,您可以获得免费的数据集以在您的项目中使用。在本文中,我们提到了其中一些可以免费下载和使用的数据源。因此,无论您是想做数据可视化、数据清理、机器学习还是任何其他类型的项目,都有一个数据集供您使用!
1. 谷歌云公共数据集
谷歌不仅仅是一个搜索引擎,它还有更多!您可以在 Google 云上访问和分析许多公共数据集,以从这些数据中获得新的见解。有 100 多个数据集,所有数据集都由 BigQuery 和 Cloud Storage 托管。您还可以使用 Google 的机器学习功能来分析 BigQuery ML、Vision AI、Cloud AutoML 等数据集。您还可以使用 Google Data Studio 创建数据可视化和交互式仪表板,以便您获得更好的洞察力和发现模式在数据中。 Google Cloud Public Datasets 拥有来自 GitHub、美国人口普查局、NASA、BitCoin、美国交通部等各种数据提供商的数据。您可以免费访问这些数据集,并获得每人约 1 TB 数据的免费查询访问权限BigQuery 中的月份。
2. 亚马逊网络服务开放数据注册
Amazon Web Services 在其开放数据注册处拥有大量数据集。您可以下载这些数据集并在您自己的系统上使用它们,也可以在 Amazon Elastic Compute Cloud (Amazon EC2) 上分析数据。 Amazon 还提供了各种工具供您使用,例如 Apache Spark、Apache Hive等。这个 AWS 开放数据注册表是 AWS 公共数据集计划的一部分,旨在使数据访问民主化,因此每个人都可以免费使用它创建新的数据分析技术和工具,以最大限度地降低处理数据的成本。您可以免费访问数据集,但在执行任何其他操作之前,您需要一个免费的 AWS 账户。
3. Data.gov
美国是技术的先驱和世界领先者。如今,大多数顶级科技公司都起源于硅谷,美国政府也非常参与数据科学是理所当然的。 Data.gov 是美国政府开放数据集的主要存储库,您可以将其用于研究、开发数据可视化、创建 Web 和移动应用程序等。这是政府为了更加透明而做出的尝试,因此您可以访问直接在网站上注册数据集。但是,某些数据集可能需要您同意许可协议和其他技术细节才能下载。 Data.giv 上有各种各样的数据集,涉及不同领域,如气候、能源、农业、生态系统、海洋等,所以一定要检查一下!
4. Kaggle
Kaggle 上有大约 23,000 个公共数据集可以免费下载。事实上,其中许多数据集已经被下载了数百万次。您可以使用搜索框搜索您想要的任何主题的公共数据集,从健康到科学再到流行卡通!您还可以在 Kaggle 上创建新的公共数据集,这些数据集可能会为您赢得奖牌,并引导您获得高级 Kaggle 头衔,如专家、大师和特级大师。您还可以在参加这些比赛时从 Kaggle 下载比赛数据集。与 Kaggle 上可用的公共数据集相比,竞争激烈的 Kaggle 数据集更加详细、精心策划和清理得更好,因此您可能需要对它们进行分类。但总而言之,如果您对数据科学感兴趣,那么 Kaggle 就是您的最佳选择!
5. UCI 机器学习库
UCI 机器学习存储库是寻找有趣数据集的好地方,因为它是互联网上最早也是最古老的数据源之一(它创建于 1987 年!)。这些数据集非常适合机器学习,您无需注册即可轻松从存储库下载数据集。 UCI Machine Learning Repository 上的所有数据集都是由不同的用户贡献的,所以它们恰好有点小,具有不同级别的数据清洁度。但是大多数数据集都得到了很好的维护,您可以轻松地将它们用于机器学习算法。
6. 国家环境信息中心
如果您想访问有关天气和环境条件的数据,那么国家环境信息中心是最佳选择!这早先被称为国家气候数据中心,但后来他们合并了国家海洋和大气管理局 (NOAA) 的数据中心,并创建了国家环境信息中心 (NCEI)。 NCEI 拥有许多与美国各地的气候和天气状况相关的数据集。事实上,它是世界上最大的环境数据存储库。它包括海洋数据、气象数据、气候条件、地球物理数据、大气信息等。如果你想了解地球,这个数据档案库是最好的去处。在此处查看一些数据集。
7. 全球卫生观察站
如果您在医学领域并对健康数据感兴趣,或者您只是在创建一个关于全球卫生系统和疾病的项目,那么全球健康观察站是获取大量健康数据的最佳场所。世界卫生组织已在全球卫生观察站公开其所有数据,以便在世界任何地方发现卫生紧急情况并从中恢复时,可在全球范围内免费获得高质量的卫生信息。健康数据根据传染病和非传染性疾病、心理健康、死亡率、药物和疫苗、烟草控制、妇女与健康、健康风险、免疫接种等各种特征进行划分。 目前,它们非常关注COVID-19 数据,以便尽快阻止这种大流行。
8.地球数据
如果您需要与地球和空间相关的数据,Earthdata 是您的理想之选。毕竟它是由 NASA 创建的! Earthdata 是由 NASA 创建的地球科学数据系统计划的一部分,该计划提供基于地球大气、海洋、太阳耀斑、冰冻圈、地磁、构造等的数据集。 Earthdata 是地球观测系统数据和信息的一部分收集和处理来自不同 NASA 飞机、卫星和从地面获得的现场数据的数据的系统 (EOSDIS)。虽然 Earthdata 提供了许多这样的数据集,但它们也有用于搜索、处理、排序、映射和可视化数据的数据工具。