📜  数据框 pyspark 中的行数 - Python (1)

📅  最后修改于: 2023-12-03 14:54:55.471000             🧑  作者: Mango

数据框 pyspark 中的行数 - Python

当我们使用 PySpark 操作数据框时,常常需要知道数据框中的行数。本文将介绍如何使用 Python 获取数据框的行数。

使用 count()

在 PySpark 中,我们可以使用 count() 方法获取数据框中的行数。

# 导入 PySpark 模块
from pyspark.sql import SparkSession

# 创建 SparkSession 对象
spark = SparkSession.builder.appName("Get Row Count").getOrCreate()

# 读取数据文件,创建数据框
df = spark.read.csv("path/to/file.csv", header=True, inferSchema=True)

# 获取行数
row_count = df.count()

# 打印行数
print("行数为: ", row_count)

在上面的代码片段中,我们首先导入了 PySpark 模块,然后创建了 SparkSession 对象。接着,我们使用 read.csv() 方法从文件中读取数据,并将结果存储在数据框 df 中。最后,我们使用 count() 方法获取数据框的行数并打印出来。

总结

本文介绍了如何在 PySpark 中获取数据框的行数。具体来说,我们可以使用 count() 方法来获取数据框中的行数。