将压缩文件作为 Pandas DataFrame 读取
在本文中,我们将尝试找出如何使用熊猫数据框从 zip 文件中读取数据。
为什么我们需要一个 zip 文件?
人们一起使用相关的文件组并使文件紧凑,因此可以更轻松、更快速地通过网络共享。 Zip 文件非常适合存档,因为它们可以节省存储空间。而且,它们对于使用加密方法保护数据也很有用。
要求:
zipfile36 模块:该模块用于使用简单的Python程序对 zip 文件执行各种操作。可以使用以下命令安装它:
pip install zipfile36
方法#1:在pandas.read_csv()方法中使用compression=zip 。
通过将read_csv()方法中的压缩参数指定为zip, pandas 将首先解压缩 zip,然后从压缩文件中存在的 CSV 文件创建数据帧。
Python3
# import required modules
import zipfile
import pandas as pd
# read the dataset using the compression zip
df = pd.read_csv('test.zip',compression='zip')
# display dataset
print(df.head())
Python3
# import required modules
import zipfile
import pandas as pd
# open zipped dataset
with zipfile.ZipFile("test.zip") as z:
# open the csv file in the dataset
with z.open("test.csv") as f:
# read the dataset
train = pd.read_csv(f)
# display dataset
print(train.head())
输出:
方法 #2:打开 zip 文件以获取 CSV 文件。
在这里,首先打开压缩文件并提取 CSV 文件,然后从提取的 CSV 文件创建数据帧。
蟒蛇3
# import required modules
import zipfile
import pandas as pd
# open zipped dataset
with zipfile.ZipFile("test.zip") as z:
# open the csv file in the dataset
with z.open("test.csv") as f:
# read the dataset
train = pd.read_csv(f)
# display dataset
print(train.head())
输出: