📜  pyspark 列名 (1)

📅  最后修改于: 2023-12-03 14:45:52.719000             🧑  作者: Mango

PySpark 列名介绍

PySpark是一个适用于大规模数据处理的Python API,也是Spark的Python版。在PySpark中,我们常常需要对DataFrame中的列进行操作,本文将介绍PySpark中的列名。

获取DataFrame中的列名

要获取DataFrame中的列名,我们可以使用columns方法,例如:

from pyspark.sql.functions import col
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("columns_example").getOrCreate()
df = spark.read.csv("file.csv", header=True, inferSchema=True)

print(df.columns)

输出结果为:

['col_1', 'col_2', 'col_3', ...]
选择列

在PySpark中选择列有多种方法。最简单的方法是使用列名,例如:

df.select("col_1", "col_2").show()

还可以使用col函数来选择列,如下所示:

df.select(col("col_1"), col("col_2")).show()
更改列名

要更改列名,可以使用withColumnRenamed方法,如下所示:

df.withColumnRenamed("col_1", "new_col_name").show()
删除列

要删除列,可以使用drop方法,如下所示:

df.drop("col_1").show()
总结

本文介绍了获取DataFrame中列名的方法,以及通过列名选择、更改和删除列的方法。这些方法非常实用,可以使我们更轻松地处理大规模数据。