📅  最后修改于: 2023-12-03 14:47:31.564000             🧑  作者: Mango
Spark是一个基于内存的分布式计算框架,可以处理各种类型的数据集,包括结构化数据(比如csv文件)。在Spark中,使用DataFrame读取csv文件是非常常见的操作。
下面是一个使用spark.read.option()函数读取csv文件的示例:
spark.read \
.option("header", "true") \
.option("inferSchema", "true") \
.csv("path/to/csv/file")
option("header", "true")
表示将csv文件的第一行作为列名option("inferSchema", "true")
表示通过数据内容推断列类型下面是一个读取csv文件的完整的python代码示例:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("ReadCSV").getOrCreate()
df = spark.read \
.option("header", "true") \
.option("inferSchema", "true") \
.csv("path/to/csv/file")
df.show()
在这个示例中,我们使用了SparkSession对象创建了一个Spark应用程序。然后使用spark.read.option()
函数读取了一个csv文件,并将结果存储在一个DataFrame中。最后,我们调用了df.show()
方法展示读取到的数据。
使用Spark读取csv文件是一个非常常见的操作,可以使用option()
函数指定csv文件的一些选项,例如文件头和列类型的推断。在本文中,我们提供了一个完整的示例,希望对你的spark应用程序有所帮助。