📜  PySpark - 从列表创建数据帧(1)

📅  最后修改于: 2023-12-03 14:45:52.473000             🧑  作者: Mango

PySpark - 从列表创建数据帧

在 PySpark 中,一个数据帧是一个分布式的、带有命名列的数据集合,它类似于关系型数据库表中的内容。数据帧可以从多个数据源创建,其中一种创建方法是从 Python 列表创建数据帧。

创建数据帧

首先,我们需要创建一个 Python 列表,并指定列的名称和列的值。

data = [('John', 25), ('Emily', 22), ('Michael', 30), ('Jessica', 21)]
columns = ['Name', 'Age']

接下来,我们需要导入 PySpark:

from pyspark.sql import SparkSession

接着,我们需要创建一个 SparkSession 对象:

spark = SparkSession.builder.appName('DataFrameExample').getOrCreate()

然后,我们需要将 Python 列表转换为 PySpark 的数据帧。为此,我们可以使用 createDataFrame 方法,并将列表和列作为参数传递。

df = spark.createDataFrame(data, columns)

现在,我们已经成功地从一个 Python 列表创建了一个 PySpark 数据帧。

显示数据帧

要显示数据帧中的内容,我们可以使用 show 方法。

df.show()

将会输出以下内容:

+-------+---+
|   Name|Age|
+-------+---+
|   John| 25|
|  Emily| 22|
|Michael| 30|
|Jessica| 21|
+-------+---+

我们也可以使用 printSchema 方法来显示数据帧中的列和其类型。

df.printSchema()

将会输出以下内容:

root
 |-- Name: string (nullable = true)
 |-- Age: long (nullable = true)
结论

在 PySpark 中,从 Python 列表创建数据帧是一种快速而又简单的方法。我们只需要按照上述步骤创建一个 Python 列表,然后使用 createDataFrame 方法将其转换为数据帧,进而实现数据处理和分析。