📅  最后修改于: 2023-12-03 15:07:13.092000             🧑  作者: Mango
在 PySpark SQL 中,您可以使用 DataFrame API 或 SQL API 来创建表。
使用 DataFrame API 创建表需要先将数据集加载到 DataFrame 中,然后使用 createOrReplaceTempView
函数创建临时视图,如下所示:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("CreateTableExample").getOrCreate()
df = spark.read.csv("path/to/csv/file")
df.createOrReplaceTempView("my_table")
使用 SQL API 创建表需要您先在 PySpark Session 中注册一个表,然后使用 SQL DDL 语句定义表的结构,如下所示:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("CreateTableExample").getOrCreate()
spark.sql("CREATE TABLE my_table (col1 STRING, col2 INT, col3 DOUBLE) USING csv OPTIONS ('header'='true', 'inferSchema'='true', 'path'='path/to/csv/file')")
使用 DataFrame API 创建的表是一个临时表,只在当前 SparkSession 中有效。如果您需要将其保存为一个永久表,可以使用 SQL API 的 CREATE TABLE
语句来创建一个永久表。
另外,在使用 SQL API 创建表时,您需要指定表的数据源和参数,比如 'csv'
或 'parquet'
,以及数据读取和写入的参数。详细内容请参考 PySpark SQL 官方文档。