📅  最后修改于: 2023-12-03 15:07:46.381000             🧑  作者: Mango
Apache Spark 是一个流行的大数据处理框架,它支持 Python API。Spark DataFrame 是一个分布式数据集合,可以在 Python 中创建和操作。本文将介绍如何在 Python 中创建 Spark 数据框。
首先,我们需要安装 PySpark。PySpark 是 Apache Spark 与 Python 的交互组件。可以通过以下命令在终端中安装 PySpark:
pip install pyspark
下一步,我们需要导入 PySpark 库:
from pyspark.sql import SparkSession
在 PySpark 中,我们使用 SparkSession 对象来与 Spark 集群交互。我们需要创建一个 SparkSession 对象:
spark = SparkSession.builder.appName('my_app').getOrCreate()
这将创建一个名为 my_app
的 Spark 应用程序,并返回或创建一个现有的 SparkSession 对象。
接下来,我们使用 SparkSession 对象来创建 DataFrame。这里我们演示使用数据集创建 DataFrame:
from pyspark.sql.types import StructType, StructField, IntegerType, StringType
schema = StructType([
StructField('id', IntegerType(), True),
StructField('name', StringType(), True),
StructField('age', IntegerType(), True)
])
data = [
(1, 'Alice', 20),
(2, 'Bob', 25),
(3, 'Charlie', 30),
]
df = spark.createDataFrame(data, schema)
此代码将使用 schema
指定的结构定义 DataFrame 的结构,并使用 data
指定的数据创建 DataFrame。
最后,我们可以使用 DataFrame 的 .show()
方法来查看 DataFrame 的内容:
df.show()
输出为:
+---+-------+---+
| id| name|age|
+---+-------+---+
| 1| Alice| 20|
| 2| Bob| 25|
| 3|Charlie| 30|
+---+-------+---+
这样,我们就成功地在 Python 中创建了一个 Spark 数据框。