📜  注册临时表 pyspark (1)

📅  最后修改于: 2023-12-03 15:26:58.060000             🧑  作者: Mango

注册临时表 pyspark

在 PySpark 中,我们可以使用 DataFrameSpark SQL 来处理数据。当我们想在 Spark SQL 中查询 DataFrame 时,我们可以将 DataFrame 注册为一个临时表,以便在 Spark SQL 中使用。

注册临时表

将 DataFrame 注册为一个临时表需要使用 createOrReplaceTempView 方法,这个方法会在 SparkSession 中创建一个临时表,该表可以用于 Spark SQL 查询。

下面是创建临时表的示例代码:

from pyspark.sql import SparkSession

# 创建 SparkSession
spark = SparkSession.builder.appName("register-temp-table").getOrCreate()

# 创建 DataFrame
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ['name', 'age'])

# 注册临时表
df.createOrReplaceTempView("people")

# 查询临时表
result = spark.sql("SELECT name, age FROM people WHERE age > 30")

# 打印结果
result.show()
注意事项
  • 临时表只在创建它的 SparkSession 中可用,不能在其他 SparkSession 中访问。
  • 临时表的生命周期与 SparkSession 相同,当 SparkSession 关闭时,临时表也被删除。
  • 如果使用 createOrReplaceTempView 方法注册的临时表名称已经存在,则原来的临时表会被替换。

以上就是注册临时表 pyspark 的介绍,希望对你有所帮助。