📅  最后修改于: 2023-12-03 14:45:52.655000             🧑  作者: Mango
在 PySpark 中,DataFrame 是一种强大的数据结构,用于处理大规模数据集。CSV 是一种常见的数据格式,本文将介绍如何使用 PySpark 将 CSV 文件读入 DataFrame。
在开始之前,你需要安装和配置好 PySpark 环境。可以通过 pip 安装 PySpark:
pip install pyspark
然后,你需要创建一个 SparkSession 对象,用于与 Spark 集群通信和执行操作:
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("CSV to DataFrame") \
.getOrCreate()
要读取 CSV 文件,可以使用 spark.read.csv()
方法。该方法接受以下参数:
path
:CSV 文件的路径。header
:CSV 文件是否包含标题行,默认为 False。inferSchema
:是否自动推断列的数据类型,默认为 False。以下示例演示了如何将 CSV 文件读入 DataFrame:
df = spark.read.csv("path/to/file.csv", header=True, inferSchema=True)
在这个例子中,我们假设我们的 CSV 文件具有标题行,且希望自动推断列的数据类型。
一旦成功读取 CSV 文件,并将其转换为 DataFrame,你可以使用 show()
方法来查看 DataFrame 的内容:
df.show()
show()
方法默认显示前 20 行数据。如果你想显示更多行数,可以指定 n
参数:
df.show(n=50)
读取 CSV 文件并转换为 DataFrame 后,你可以使用 DataFrame API 提供的方法来处理和操作数据。
以下示例展示了一些常用的 DataFrame 操作:
df.columns
df.head()
df.describe().show()
df.select("column_name")
df.filter(df["column_name"] > 10)
以上只是一些常见的操作,你可以根据具体需求使用 DataFrame API 提供的更多操作方法。
在完成对 DataFrame 的处理后,记得关闭 SparkSession 对象,释放资源:
spark.stop()
以上就是使用 PySpark 将 CSV 文件读入 DataFrame 的介绍。希望本文能帮助你快速上手使用 PySpark 处理 CSV 数据。