📜  spark.read.option(header,inferschema) .csv 示例 (1)

📅  最后修改于: 2023-12-03 14:47:31.564000             🧑  作者: Mango

使用spark读取CSV文件

Spark是一个基于内存的分布式计算框架,可以处理各种类型的数据集,包括结构化数据(比如csv文件)。在Spark中,使用DataFrame读取csv文件是非常常见的操作。

读取csv文件

下面是一个使用spark.read.option()函数读取csv文件的示例:

spark.read \
     .option("header", "true") \
     .option("inferSchema", "true") \
     .csv("path/to/csv/file")
  • option("header", "true")表示将csv文件的第一行作为列名
  • option("inferSchema", "true")表示通过数据内容推断列类型
完整示例

下面是一个读取csv文件的完整的python代码示例:

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("ReadCSV").getOrCreate()

df = spark.read \
     .option("header", "true") \
     .option("inferSchema", "true") \
     .csv("path/to/csv/file")

df.show()

在这个示例中,我们使用了SparkSession对象创建了一个Spark应用程序。然后使用spark.read.option()函数读取了一个csv文件,并将结果存储在一个DataFrame中。最后,我们调用了df.show()方法展示读取到的数据。

总结

使用Spark读取csv文件是一个非常常见的操作,可以使用option()函数指定csv文件的一些选项,例如文件头和列类型的推断。在本文中,我们提供了一个完整的示例,希望对你的spark应用程序有所帮助。