📌  相关文章
📜  Google Cloud Platform – 在 BigQuery 中处理外部数据(1)

📅  最后修改于: 2023-12-03 15:31:02.390000             🧑  作者: Mango

Google Cloud Platform – 在 BigQuery 中处理外部数据

Google Cloud Platform (GCP) 是一个云计算平台,它提供了一系列的云服务,包括计算、存储、数据库、网络、人工智能等。其中,BigQuery 是一个数据仓库,它可以存储、分析和可视化大规模、复杂、多结构化数据。本文将介绍如何在 BigQuery 中处理外部数据。

导入外部数据到 BigQuery

BigQuery 支持多种外部数据源,包括 Google Drive、Cloud Storage、Cloud Bigtable 等。下面以导入一个 CSV 文件为例。

  1. 创建一个 Cloud Storage Bucket

在 Google Cloud Console 中打开 Cloud Storage,创建一个 Bucket,并上传一个 csv 文件到该 Bucket。

  1. 创建一个 BigQuery 表

在 Google Cloud Console 中打开 BigQuery,选择目标数据集,在该数据集下创建一个新的表。选择“Create table in the Cloud Console”。在 “Create table” 页面中填写表信息,选择数据来源为 Google Cloud Storage,填写上传 csv 文件所在的 Bucket 和文件名,设置字段类型等信息。

  1. 查看导入结果

导入完成后,可以在 BigQuery 中查看已导入的数据,使用 SQL 语句查询数据。

查询外部数据

在 BigQuery 中查询外部数据与查询表中的数据类似,只需在查询语句中指定外部数据源的位置即可。例如,

SELECT * FROM `project_id.dataset_id.external_table`

其中,project_id 为 Google Cloud Console 中的项目 ID,dataset_id 为数据集 ID,external_table 为外部表的名字。

导出 BigQuery 数据到外部数据源

在 BigQuery 中,可以将查询结果导出到外部数据源,例如导出到 Google Drive、Cloud Storage、BigTable 等。

  1. 创建外部数据源

在 Google Cloud Console 中打开目标服务,例如 Cloud Storage,创建一个新的 Bucket。

  1. 创建 BigQuery 数据集和表

在 Google Cloud Console 中打开 BigQuery,创建一个新的数据集并进入该数据集。在该数据集下创建一个新的表,该表为需要导出到外部数据源的查询结果。表名、字段类型等按照需要进行设置。

  1. 导出数据

使用 SQL 语句查询该表,然后在查询结果页面中选择 “Export Results” -> “Export to your Cloud Storage bucket”。在弹出的窗口中选择外部数据源的位置,填写导出文件名、格式等信息。

  1. 查看导出结果

导出完成后,可以在外部数据源中查看已导出的数据。

总结

本文介绍了如何在 BigQuery 中处理外部数据,包括导入外部数据、查询外部数据、导出 BigQuery 数据到外部数据源等。BigQuery 支持多种外部数据源,使得在处理数据时更加灵活、方便。