📌  相关文章
📜  获取 PySpark 数据框的行数和列数(1)

📅  最后修改于: 2023-12-03 15:41:26.963000             🧑  作者: Mango

获取 PySpark 数据框的行数和列数

在 PySpark 中,我们可以使用内置函数 count 和列名数组长度(即 len(df.columns))来获取 PySpark 数据框的行数和列数。

获取行数

要获取 PySpark 数据框的行数,我们可以使用 count 函数。以下是示例代码:

rows_count = df.count()
print("PySpark 数据框的行数为:", rows_count)

其中,df 是我们要获取行数的 PySpark 数据框。

获取列数

要获取 PySpark 数据框的列数,我们可以使用列名数组的长度。以下是示例代码:

cols_count = len(df.columns)
print("PySpark 数据框的列数为:", cols_count)

其中,df 是我们要获取列数的 PySpark 数据框。

示例代码

以下是一个完整的示例代码,展示如何获取 PySpark 数据框的行数和列数:

from pyspark.sql import SparkSession

# 创建 SparkSession 对象
spark = SparkSession.builder.appName("PySparkDemo").getOrCreate()

# 读取 CSV 文件,并创建 PySpark 数据框
df = spark.read.csv("path/to/file.csv", header=True, inferSchema=True)

# 获取行数
rows_count = df.count()
print("PySpark 数据框的行数为:", rows_count)

# 获取列数
cols_count = len(df.columns)
print("PySpark 数据框的列数为:", cols_count)

其中,"path/to/file.csv" 是我们实际要读取的文件路径。

以上就是获取 PySpark 数据框的行数和列数的方法,希望能对大家有所帮助!