📜  gcsfs pd.read_parquet - Python (1)

📅  最后修改于: 2023-12-03 15:00:53.302000             🧑  作者: Mango

GCSFS pd.read_parquet - Python

如果你需要从 Google Cloud Storage (GCS) 中读取 Parquet 文件,那么就可以使用 GCSFS 和 pd.read_parquet 来完成这项任务。

GCSFS 库

GCSFS 是一个 Python 库,它提供了一个文件系统的接口,供用户方便地访问 Google Cloud Storage。

使用 GCSFS 来连接 Google Cloud Storage 很简单,只需要执行以下命令:

import gcsfs
gcs_filesystem = gcsfs.GCSFileSystem(project='<project-name>')

其中,<project-name> 填写你的 Google Cloud 项目名称。

pd.read_parquet 函数

pd.read_parquet 是 Pandas 库中的一个函数,用于读取 Parquet 文件。

如果你已经通过 GCSFS 获取到了你的 Parquet 文件,那么你就可以使用 pd.read_parquet 来读取它。

import pandas as pd
df = pd.read_parquet('gcs://<bucket-name>/<file-path>', storage_options={'token': 'google'})

其中,<bucket-name> 填写你的 Google Cloud 存储桶名称,<file-path> 填写 Parquet 文件的路径。

如果 Parquet 文件在 GCS 中是私有的,那么你还需要提供授权凭据才能访问该文件。你可以通过 storage_options 参数提供授权凭据。在上面的代码中,假设你已经设置好了访问授权凭据,并将其存储在名为 token 的变量中。

示例

最后,这是一个可以演示从 GCS 中读取 Parquet 文件的示例。

import gcsfs
import pandas as pd

# Connect to GCS
gcs_filesystem = gcsfs.GCSFileSystem(project='<project-name>')

# Read Parquet file
df = pd.read_parquet('gcs://<bucket-name>/<file-path>', storage_options={'token': 'google'})
print(df.head())
参考文献