📜  如何创建一个空的 PySpark DataFrame ?(1)

📅  最后修改于: 2023-12-03 14:52:08.255000             🧑  作者: Mango

如何创建一个空的 PySpark DataFrame?

要创建一个空的 PySpark DataFrame,需要先导入必要的库以及创建一个 PySpark 的 SparkSession 对象。

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("create_empty_dataframe").getOrCreate()

接下来,就可以使用 createDataFrame() 方法来创建空的 DataFrame。

df = spark.createDataFrame([], "id long, value double")

上述代码中使用了两个参数,第一个参数是空列表,指示 DataFrame 不包含任何数据;第二个参数是元数据,用于定义 DataFrame 列的名称和类型。在这个例子中,定义了两列,一列名称为 id,类型为 long,另一列名称为 value,类型为 double

完整代码如下:

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("create_empty_dataframe").getOrCreate()

df = spark.createDataFrame([], "id long, value double")
df.show()

输出结果如下(其中 +---+-----+ 表示列名):

+---+-----+
| id|value|
+---+-----+
+---+-----+

这样就成功创建了一个空的 PySpark DataFrame。