📅  最后修改于: 2023-12-03 14:45:52.719000             🧑  作者: Mango
PySpark是一个适用于大规模数据处理的Python API,也是Spark的Python版。在PySpark中,我们常常需要对DataFrame中的列进行操作,本文将介绍PySpark中的列名。
要获取DataFrame中的列名,我们可以使用columns
方法,例如:
from pyspark.sql.functions import col
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("columns_example").getOrCreate()
df = spark.read.csv("file.csv", header=True, inferSchema=True)
print(df.columns)
输出结果为:
['col_1', 'col_2', 'col_3', ...]
在PySpark中选择列有多种方法。最简单的方法是使用列名,例如:
df.select("col_1", "col_2").show()
还可以使用col
函数来选择列,如下所示:
df.select(col("col_1"), col("col_2")).show()
要更改列名,可以使用withColumnRenamed
方法,如下所示:
df.withColumnRenamed("col_1", "new_col_name").show()
要删除列,可以使用drop
方法,如下所示:
df.drop("col_1").show()
本文介绍了获取DataFrame中列名的方法,以及通过列名选择、更改和删除列的方法。这些方法非常实用,可以使我们更轻松地处理大规模数据。