📜  将压缩文件作为 Pandas DataFrame 读取

📅  最后修改于: 2022-05-13 01:55:32.452000             🧑  作者: Mango

将压缩文件作为 Pandas DataFrame 读取

在本文中,我们将尝试找出如何使用熊猫数据框从 zip 文件中读取数据。

为什么我们需要一个 zip 文件?

人们一起使用相关的文件组并使文件紧凑,因此可以更轻松、更快速地通过网络共享。 Zip 文件非常适合存档,因为它们可以节省存储空间。而且,它们对于使用加密方法保护数据也很有用。

要求:

zipfile36 模块:该模块用于使用简单的Python程序对 zip 文件执行各种操作。可以使用以下命令安装它:

pip install zipfile36

方法#1:pandas.read_csv()方法中使用compression=zip

通过将read_csv()方法中的压缩参数指定为zip, pandas 将首先解压缩 zip,然后从压缩文件中存在的 CSV 文件创建数据帧。

Python3
# import required modules
import zipfile
import pandas as pd
 
# read the dataset using the compression zip
df = pd.read_csv('test.zip',compression='zip')
 
# display dataset
print(df.head())


Python3
# import required modules
import zipfile
import pandas as pd
 
# open zipped dataset
with zipfile.ZipFile("test.zip") as z:
   # open the csv file in the dataset
   with z.open("test.csv") as f:
       
      # read the dataset
      train = pd.read_csv(f)
       
      # display dataset
      print(train.head())


输出:

方法 #2:打开 zip 文件以获取 CSV 文件。

在这里,首先打开压缩文件并提取 CSV 文件,然后从提取的 CSV 文件创建数据帧。

蟒蛇3

# import required modules
import zipfile
import pandas as pd
 
# open zipped dataset
with zipfile.ZipFile("test.zip") as z:
   # open the csv file in the dataset
   with z.open("test.csv") as f:
       
      # read the dataset
      train = pd.read_csv(f)
       
      # display dataset
      print(train.head())

输出: