📜  创建表 pyspark sql - Python (1)

📅  最后修改于: 2023-12-03 15:07:13.092000             🧑  作者: Mango

创建表 pyspark sql - Python

在 PySpark SQL 中,您可以使用 DataFrame API 或 SQL API 来创建表。

使用 DataFrame API 创建表

使用 DataFrame API 创建表需要先将数据集加载到 DataFrame 中,然后使用 createOrReplaceTempView 函数创建临时视图,如下所示:

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("CreateTableExample").getOrCreate()

df = spark.read.csv("path/to/csv/file")

df.createOrReplaceTempView("my_table")
使用 SQL API 创建表

使用 SQL API 创建表需要您先在 PySpark Session 中注册一个表,然后使用 SQL DDL 语句定义表的结构,如下所示:

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("CreateTableExample").getOrCreate()

spark.sql("CREATE TABLE my_table (col1 STRING, col2 INT, col3 DOUBLE) USING csv OPTIONS ('header'='true', 'inferSchema'='true', 'path'='path/to/csv/file')")
注意事项

使用 DataFrame API 创建的表是一个临时表,只在当前 SparkSession 中有效。如果您需要将其保存为一个永久表,可以使用 SQL API 的 CREATE TABLE 语句来创建一个永久表。

另外,在使用 SQL API 创建表时,您需要指定表的数据源和参数,比如 'csv''parquet',以及数据读取和写入的参数。详细内容请参考 PySpark SQL 官方文档。