📜  如何以表格格式显示 PySpark DataFrame?(1)

📅  最后修改于: 2023-12-03 14:51:49.081000             🧑  作者: Mango

如何以表格格式显示 PySpark DataFrame?

在 PySpark 中,要以表格格式显示 DataFrame 数据,可以使用一些方法和库来实现。下面将介绍几种常用的方法和工具来显示 DataFrame 数据。

方法一:使用 Pandas 库将 DataFrame 转换为表格
  1. 首先,将 PySpark DataFrame 转换为 Pandas DataFrame。
import pandas as pd
pdf = dataframe.toPandas()
  1. 然后,将 Pandas DataFrame 转换为 Markdown 表格格式。
markdown_table = pd.DataFrame.to_markdown(pdf)

这样就可以得到一个 Markdown 格式的表格字符串 markdown_table

方法二:使用 PrettyTable 库创建表格
  1. 首先,安装 PrettyTable 库。
pip install prettytable
  1. 然后,创建一个 PrettyTable 对象,并添加 DataFrame 中的数据。
from prettytable import PrettyTable
table = PrettyTable(dataframe.columns)
for row in dataframe.collect():
    table.add_row(row)
  1. 最后,将创建的表格转换为 Markdown 格式的字符串。
markdown_table = table.get_string()
方法三:使用 Tabulate 库创建表格
  1. 首先,安装 Tabulate 库。
pip install tabulate
  1. 然后,使用 Tabulate 库的 tabulate() 函数将 DataFrame 数据转换为表格。
from tabulate import tabulate
table = tabulate(dataframe.collect(), headers=dataframe.columns, tablefmt='pipe')

这样就可以得到一个 Markdown 格式的表格字符串 table,其中的 tablefmt='pipe' 表示使用 Markdown 的表格格式。

以上是几种常用的方法来以表格格式显示 PySpark DataFrame 数据的介绍。你可以根据自己的需求选择适合的方法来显示 DataFrame 数据。