📅  最后修改于: 2023-12-03 14:52:08.255000             🧑  作者: Mango
要创建一个空的 PySpark DataFrame,需要先导入必要的库以及创建一个 PySpark 的 SparkSession 对象。
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("create_empty_dataframe").getOrCreate()
接下来,就可以使用 createDataFrame()
方法来创建空的 DataFrame。
df = spark.createDataFrame([], "id long, value double")
上述代码中使用了两个参数,第一个参数是空列表,指示 DataFrame 不包含任何数据;第二个参数是元数据,用于定义 DataFrame 列的名称和类型。在这个例子中,定义了两列,一列名称为 id
,类型为 long
,另一列名称为 value
,类型为 double
。
完整代码如下:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("create_empty_dataframe").getOrCreate()
df = spark.createDataFrame([], "id long, value double")
df.show()
输出结果如下(其中 +---+-----+
表示列名):
+---+-----+
| id|value|
+---+-----+
+---+-----+
这样就成功创建了一个空的 PySpark DataFrame。