📅  最后修改于: 2023-12-03 15:38:23.228000             🧑  作者: Mango
在 PySpark 中,要获取数据框的列名称非常简单。我们可以使用 columns
属性获取数据框所有列名的列表。
以下是一个示例代码片段:
from pyspark.sql import SparkSession
# 创建 SparkSession 对象
spark = SparkSession.builder.appName("Get Column Names").getOrCreate()
# 从 CSV 文件中读取数据
df = spark.read.csv("data.csv", header=True, inferSchema=True)
# 获取数据框的列名列表
column_names = df.columns
# 打印列名列表
print(column_names)
在上面的代码中,我们首先创建了一个名为 spark
的 SparkSession
对象,并使用 read.csv()
方法从 CSV 文件中读取数据到 df
数据框中。
然后,我们使用 columns
属性获取数据框的所有列名,并将它们存储在 column_names
变量中。
最后,我们打印 column_names
变量,显示数据框的所有列名。
输出将如下所示:
['name', 'age', 'gender']
这表明数据框中有 3 个列,它们的名称分别是 name
、age
和 gender
。