📅  最后修改于: 2023-12-03 14:45:52.473000             🧑  作者: Mango
在 PySpark 中,一个数据帧是一个分布式的、带有命名列的数据集合,它类似于关系型数据库表中的内容。数据帧可以从多个数据源创建,其中一种创建方法是从 Python 列表创建数据帧。
首先,我们需要创建一个 Python 列表,并指定列的名称和列的值。
data = [('John', 25), ('Emily', 22), ('Michael', 30), ('Jessica', 21)]
columns = ['Name', 'Age']
接下来,我们需要导入 PySpark:
from pyspark.sql import SparkSession
接着,我们需要创建一个 SparkSession 对象:
spark = SparkSession.builder.appName('DataFrameExample').getOrCreate()
然后,我们需要将 Python 列表转换为 PySpark 的数据帧。为此,我们可以使用 createDataFrame
方法,并将列表和列作为参数传递。
df = spark.createDataFrame(data, columns)
现在,我们已经成功地从一个 Python 列表创建了一个 PySpark 数据帧。
要显示数据帧中的内容,我们可以使用 show
方法。
df.show()
将会输出以下内容:
+-------+---+
| Name|Age|
+-------+---+
| John| 25|
| Emily| 22|
|Michael| 30|
|Jessica| 21|
+-------+---+
我们也可以使用 printSchema
方法来显示数据帧中的列和其类型。
df.printSchema()
将会输出以下内容:
root
|-- Name: string (nullable = true)
|-- Age: long (nullable = true)
在 PySpark 中,从 Python 列表创建数据帧是一种快速而又简单的方法。我们只需要按照上述步骤创建一个 Python 列表,然后使用 createDataFrame
方法将其转换为数据帧,进而实现数据处理和分析。