Pyspark – 将 JSON 转换为 DataFrame
在本文中,我们将在 Pyspark 中将 JSON 字符串转换为 DataFrame。
方法一:使用 read_json()
我们可以使用 pandas.read_json 读取 JSON 文件。这个方法主要用于通过pandas读取JSON文件。
Syntax: pandas.read_json(“file_name.json”)
这里我们将使用这个 JSON 文件进行演示:
代码:
Python3
# import pandas to read json file
import pandas as pd
# importing module
import pyspark
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
# creating a dataframe from the json file named student
dataframe = spark.createDataFrame(pd.read_json('student.json'))
# display the dataframe (Pyspark dataframe)
dataframe.show()
Python3
# importing module
import pyspark
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
# read json file
data = spark.read.json('college.json')
# display json data
data.show()
输出:
方法二:使用 spark.read.json()
这用于从文件中读取 json 数据并以数据框的形式显示数据
Syntax: spark.read.json(‘file_name.json’)
用于演示的 JSON 文件:
代码:
蟒蛇3
# importing module
import pyspark
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
# read json file
data = spark.read.json('college.json')
# display json data
data.show()
输出: