📅  最后修改于: 2020-11-29 08:01:46             🧑  作者: Mango
DataFrame接口允许不同的DataSource在Spark SQL上工作。它是一个临时表,可以作为普通的RDD使用。将DataFrame注册为表可让您对其数据运行SQL查询。
在本章中,我们将介绍使用不同的Spark DataSource加载和保存数据的一般方法。此后,我们将详细讨论可用于内置数据源的特定选项。
SparkSQL中提供了不同类型的数据源,其中一些如下所示-
Sr. No | Data Sources |
---|---|
1 | JSON Datasets
Spark SQL can automatically capture the schema of a JSON dataset and load it as a DataFrame. |
2 | Hive Tables
Hive comes bundled with the Spark library as HiveContext, which inherits from SQLContext. |
3 | Parquet Files
Parquet is a columnar format, supported by many data processing systems. |