pyspark 列名 (1) - 芒果文档

📌 相关文章

📜 pyspark 列名 (1)

📅 最后修改于: 2023-12-03 14:45:52.719000 🧑 作者: Mango

PySpark 列名介绍

PySpark是一个适用于大规模数据处理的Python API，也是Spark的Python版。在PySpark中，我们常常需要对DataFrame中的列进行操作，本文将介绍PySpark中的列名。

获取DataFrame中的列名

要获取DataFrame中的列名，我们可以使用columns方法，例如：

from pyspark.sql.functions import col
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("columns_example").getOrCreate()
df = spark.read.csv("file.csv", header=True, inferSchema=True)

print(df.columns)

输出结果为：

['col_1', 'col_2', 'col_3', ...]

选择列

在PySpark中选择列有多种方法。最简单的方法是使用列名，例如：

df.select("col_1", "col_2").show()

还可以使用col函数来选择列，如下所示：

df.select(col("col_1"), col("col_2")).show()

更改列名

要更改列名，可以使用withColumnRenamed方法，如下所示：

df.withColumnRenamed("col_1", "new_col_name").show()

删除列

要删除列，可以使用drop方法，如下所示：

df.drop("col_1").show()

总结

本文介绍了获取DataFrame中列名的方法，以及通过列名选择、更改和删除列的方法。这些方法非常实用，可以使我们更轻松地处理大规模数据。