📅  最后修改于: 2023-12-03 15:26:58.060000             🧑  作者: Mango
在 PySpark 中,我们可以使用 DataFrame
或 Spark SQL
来处理数据。当我们想在 Spark SQL 中查询 DataFrame 时,我们可以将 DataFrame 注册为一个临时表,以便在 Spark SQL 中使用。
将 DataFrame 注册为一个临时表需要使用 createOrReplaceTempView
方法,这个方法会在 SparkSession 中创建一个临时表,该表可以用于 Spark SQL 查询。
下面是创建临时表的示例代码:
from pyspark.sql import SparkSession
# 创建 SparkSession
spark = SparkSession.builder.appName("register-temp-table").getOrCreate()
# 创建 DataFrame
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ['name', 'age'])
# 注册临时表
df.createOrReplaceTempView("people")
# 查询临时表
result = spark.sql("SELECT name, age FROM people WHERE age > 30")
# 打印结果
result.show()
createOrReplaceTempView
方法注册的临时表名称已经存在,则原来的临时表会被替换。以上就是注册临时表 pyspark 的介绍,希望对你有所帮助。