📜  如何在 PySpark 中获取数据框列的名称?(1)

📅  最后修改于: 2023-12-03 15:38:23.228000             🧑  作者: Mango

如何在 PySpark 中获取数据框列的名称?

在 PySpark 中,要获取数据框的列名称非常简单。我们可以使用 columns 属性获取数据框所有列名的列表。

以下是一个示例代码片段:

from pyspark.sql import SparkSession

# 创建 SparkSession 对象
spark = SparkSession.builder.appName("Get Column Names").getOrCreate()

# 从 CSV 文件中读取数据
df = spark.read.csv("data.csv", header=True, inferSchema=True)

# 获取数据框的列名列表
column_names = df.columns

# 打印列名列表
print(column_names)

在上面的代码中,我们首先创建了一个名为 sparkSparkSession 对象,并使用 read.csv() 方法从 CSV 文件中读取数据到 df 数据框中。

然后,我们使用 columns 属性获取数据框的所有列名,并将它们存储在 column_names 变量中。

最后,我们打印 column_names 变量,显示数据框的所有列名。

输出将如下所示:

['name', 'age', 'gender']

这表明数据框中有 3 个列,它们的名称分别是 nameagegender