📜  如何以表格格式显示 PySpark DataFrame?

📅  最后修改于: 2022-05-13 01:54:59.915000             🧑  作者: Mango

如何以表格格式显示 PySpark DataFrame?

在本文中,我们将以表格格式显示 PySpark 数据框的数据。我们将使用show()函数和toPandas函数以所需格式显示数据帧。

show():用于显示数据框。

toPanads(): Pandas 代表面板数据结构,用于以表格等二维格式表示数据。



让我们创建一个示例数据框。

Python3
# importing module
import pyspark
 
# importing sparksession from
# pyspark.sql module
from pyspark.sql import SparkSession
 
# creating sparksession and giving
# an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
 
# list  of employee data with 5 row values
data = [["1", "sravan", "company 1"],
        ["2", "ojaswi", "company 2"],
        ["3", "bobby", "company 3"],
        ["4", "rohith", "company 2"],
        ["5", "gnanesh", "company 1"]]
 
# specify column names
columns = ['Employee ID', 'Employee NAME', 'Company Name']
 
# creating a dataframe from the lists of data
dataframe = spark.createDataFrame(data, columns)
 
print(dataframe)


Python3
# Display df using show()
dataframe.show()


Python3
# show() function to get 2 rows
dataframe.show(2)


Python3
# display dataframe evrtically
dataframe.show(vertical = True)


Python3
# display dataframe with truncate
dataframe.show(truncate = 1)


Python3
# display dataframe with all parameters
dataframe.show(n=3,vertical=True,truncate=2)


Python3
# display dataframe by using topandas() function
dataframe.toPandas()


输出:

示例 1:使用不带参数的 show()函数。它将产生我们所拥有的整个数据帧。

蟒蛇3



# Display df using show()
dataframe.show()

输出:

示例 2:使用以 n 作为参数的 show()函数,显示前 n 行。

代码:

蟒蛇3

# show() function to get 2 rows
dataframe.show(2)

输出:

示例 3:



使用 show()函数和 vertical = True 作为参数。 垂直显示数据框中的记录。

代码:

蟒蛇3

# display dataframe evrtically
dataframe.show(vertical = True)

输出:

示例 4:使用以 truncate 作为参数的 show()函数。 在所有列的每个值中显示第一个字母

蟒蛇3

# display dataframe with truncate
dataframe.show(truncate = 1)

输出:



示例 5:将 show() 与所有参数一起使用。

蟒蛇3

# display dataframe with all parameters
dataframe.show(n=3,vertical=True,truncate=2)

输出:

示例 6:使用 toPandas() 方法将其转换为 Pandas Dataframe,它看起来非常像一个表格。

蟒蛇3

# display dataframe by using topandas() function
dataframe.toPandas()

输出: