📜  Spark SQL-数据源

📅  最后修改于: 2020-11-29 08:01:46             🧑  作者: Mango


DataFrame接口允许不同的DataSource在Spark SQL上工作。它是一个临时表,可以作为普通的RDD使用。将DataFrame注册为表可让您对其数据运行SQL查询。

在本章中,我们将介绍使用不同的Spark DataSource加载和保存数据的一般方法。此后,我们将详细讨论可用于内置数据源的特定选项。

SparkSQL中提供了不同类型的数据源,其中一些如下所示-

Sr. No Data Sources
1 JSON Datasets

Spark SQL can automatically capture the schema of a JSON dataset and load it as a DataFrame.

2 Hive Tables

Hive comes bundled with the Spark library as HiveContext, which inherits from SQLContext.

3 Parquet Files

Parquet is a columnar format, supported by many data processing systems.