📜  什么是 Google 数据集搜索以及如何使用它?

📅  最后修改于: 2021-10-22 02:40:46             🧑  作者: Mango

您是一名数据科学家,正在寻找有关美国就业市场的详细信息吗?您可以在美国就业市场或全球职位列表中找到数据集。您是研究 DNA 的生物学家吗?好吧,你可以找到关于人类 DNA 序列、DNA 修复率等的数据集。或者你只是一个爱猫的人?即便如此,您也可以找到每个家庭的猫的数据集或可爱的猫图像的数据集。换句话说,你想找到任何可能的主题的数据,你可以在互联网上找到数据集!即使是猫!!!

什么是 Google-Dataset-Search-and-How-to-Use-It

查找这些数据集的最佳方法是Google 数据集搜索,它为许多数据集提供了一个单一平台,因此您可以在一个地方搜索和查找您的数据。在本文中,您将详细了解 Google 数据集搜索以及如何在其上查找数据集。但首先,让我们解决最基本的问题,即“什么是数据集?”以便在继续前进时没有疑问。

什么是数据集?

简单来说,Dataset 就是数据的集合!但是如果你想要更复杂的解释,Dataset 可以是单个数据库表、一组表、一个数据矩阵等,其中 Dataset 中的每一列对应一个数据变量,每一行提供一个数据集的实例.现在,您是否想知道为什么数据集如此重要?

数据集在数据科学机器学习中必不可少。如果你的数据集不够好,无论用例或你的数据科学家有多好,机器学习模型都会失败!事实上,数据集在整个 ML 项目开发过程中都被使用,从训练 ML 模型到调整它再到测试它。使用的三个数据集是训练集、验证集和测试集。训练数据集训练 ML 算法以应用人工神经网络等概念来学习某些内容并产生所需的输出。此数据集包含输入数据和 ML 算法预期的输出。在训练数据集之后,测试数据集用于检查使用训练数据集训练 ML 算法的程度。测试数据集包含输入数据和输出被验证是正确的,通常是通过人工验证。最后,验证数据集用于微调最终的 ML 算法,以便它可以使用。

现在您已经了解数据集对于数据科学和机器学习的重要性。事实上,没有数据集,就没有机器学习算法!因此,拥有可用于训练 ML 模型的高质量和可靠的数据集非常重要。但是在哪里可以找到这些数据集?这就是 Google 数据集搜索的用武之地!现在让我们了解那是什么。

什么是 Google 数据集搜索?

世界上许多政府和其他私人机构在网上发布他们的数据。事实上,美国有超过 200 万个开放的政府数据集可供人们访问和使用。 Google 数据集搜索可帮助您找到这些数据集!

谷歌数据集搜索是谷歌搜索引擎的一个版本,可以专门用于搜索来自世界各地的机器学习、社会科学、政府数据、地球科学、生物学、生命科学、农业等领域的数据集。据谷歌称,他们的数据集搜索已经索引了大约 2500 万个数据集,您可以访问它们以获得有用的数据。谷歌还相信数据集搜索将有助于创建一个数据共享生态系统,其中拥有数据集的政府和私营公司将能够使用数据存储和发布的最佳实践来共享它们。大多数公开可用的数据集使用 schema.org,这是一个开放标准。这意味着任何人都可以免费下载和使用这些数据集进行研究、业务分析、训练 ML 模型等。

因此,Google 数据集搜索使用 schema.org 和其他元数据标准在其搜索结果中查找这些数据集。如果您的数据集不是公开可用的,您甚至可以通过添加 schema.org 描述来确保其他人可以在 Google 数据集搜索中看到您的数据集。

谷歌数据集搜索还提供了一些关于什么可以成为数据集的条件。这包括

  • 包含数据的表
  • 有组织形式的表格集合
  • 包含专有格式数据的文件
  • 以有组织的形式创建数据集的文件集合
  • 捕获某种形式数据的图像
  • 带有机器学习训练参数或神经网络结构定义的文件
  • 任何不在此列表中但对您来说看起来像数据集的内容

    如何在 Google Dataset Search 上搜索数据集?

    在 Google Dataset Search 上搜索 Datasets 就像在 Google Search 上搜索任何东西一样简单!您只需输入您需要在 Google 数据集搜索中查找数据集的主题,然后单击搜索。例如,如果您想在 COVID-19 上查找数据集,只需输入“COVID 19”并搜索即可。您将获得与 COVID-19 相关的最相关数据集,您还可以根据数据集上次更新的时间、下载格式、是否允许用于商业用途、是否免费等自定义搜索.

    谷歌数据集 COVID 19

    正如您在此屏幕截图中看到的,搜索中的第一个数据集由世界卫生组织提供,其中包含有关 COVID-19 在全球范围内传播的图像和表格数据。

    Google 数据集搜索还允许您轻松查找由不同政府发布的关于该国人口普查、国家财务报告、天气报告和其他统计数据等主题的公共数据集。您可以将这些数据集用于研究、业务分析、完成论文等。例如,如果您想查找与加拿大政府相关的数据集,您可以输入“加拿大政府”并搜索!您将获得可用于 Google 数据集搜索并与加拿大政府相关的各种数据集。

    谷歌数据集加拿大政府

    正如您在屏幕截图中看到的,搜索中的第一个数据集是加拿大政府部门和机构提交的所有咨询。第二个数据集是加拿大政府雇员联系信息等。

    另一个值得提及的重要事情是 Google 数据集搜索,您可以查看所有引用数据集或以其他方式与 Google Scholar 数据集相关联的学术文章。正如您在上面的屏幕截图中看到的那样,为所有 12 篇学术文章提供了一个链接,引用了加拿大政府 – 咨询数据集。单击此链接,您可以查看 Google Scholar 上的所有学术文章。

    Canada-government-Google-Scholar