📅  最后修改于: 2023-12-03 15:00:53.302000             🧑  作者: Mango
如果你需要从 Google Cloud Storage (GCS) 中读取 Parquet 文件,那么就可以使用 GCSFS 和 pd.read_parquet 来完成这项任务。
GCSFS 是一个 Python 库,它提供了一个文件系统的接口,供用户方便地访问 Google Cloud Storage。
使用 GCSFS 来连接 Google Cloud Storage 很简单,只需要执行以下命令:
import gcsfs
gcs_filesystem = gcsfs.GCSFileSystem(project='<project-name>')
其中,<project-name>
填写你的 Google Cloud 项目名称。
pd.read_parquet 是 Pandas 库中的一个函数,用于读取 Parquet 文件。
如果你已经通过 GCSFS 获取到了你的 Parquet 文件,那么你就可以使用 pd.read_parquet 来读取它。
import pandas as pd
df = pd.read_parquet('gcs://<bucket-name>/<file-path>', storage_options={'token': 'google'})
其中,<bucket-name>
填写你的 Google Cloud 存储桶名称,<file-path>
填写 Parquet 文件的路径。
如果 Parquet 文件在 GCS 中是私有的,那么你还需要提供授权凭据才能访问该文件。你可以通过 storage_options
参数提供授权凭据。在上面的代码中,假设你已经设置好了访问授权凭据,并将其存储在名为 token
的变量中。
最后,这是一个可以演示从 GCS 中读取 Parquet 文件的示例。
import gcsfs
import pandas as pd
# Connect to GCS
gcs_filesystem = gcsfs.GCSFileSystem(project='<project-name>')
# Read Parquet file
df = pd.read_parquet('gcs://<bucket-name>/<file-path>', storage_options={'token': 'google'})
print(df.head())