📜  将 pdf 文件夹转换为 Excell Pandas - Python (1)

📅  最后修改于: 2023-12-03 15:39:13.095000             🧑  作者: Mango

将 pdf 文件夹转换为 Excel Pandas - Python

如果您需要将一个文件夹中的 PDF 文件转换为 Excel 表格并进行分析和处理,那么 Python 和 Pandas 库是理想的工具。Python 是一种通用编程语言,而 Pandas 则是一个数据处理库,帮助您将 PDF 数据快速转换为可操作的 Excel 格式。

1. 安装依赖库

在开始之前,您需要在您的本地环境中安装以下 Python 库:

!pip install pandas
!pip install tabula-py
!pip install pdfminer.six

安装好依赖之后,我们就可以开始将 PDF 文件转换为 Excel 格式。

2. 将 PDF 文件转换为 Excel 格式

有两种方法可以将 PDF 文件转换为 Excel 格式:

(a) 使用 tabula 库从 PDF 中提取表格

tabula-py 是一个用于提取表格数据的 Python 库。使用该库,您可以从 PDF 中提取表格,然后将其转换为 pandas 数据帧。

import tabula

# 读取 PDF 并提取表格
table = tabula.read_pdf("path/to/pdf_file.pdf", pages = "all")

# 将表格转换为 pandas 数据帧
df = table[0][:-1]

在此代码片段中,我们使用 tabula 库从 PDF 文件中提取表格,并将其存储在一个 pandas 数据帧中。

(b) 使用 pdfminer 库解析 PDF 中的文本

Pdfminer 是用于从 PDF 中提取文本的库。在将 PDF 文件转换为 Excel 格式时,您还可以使用 Pdfminer 从 PDF 中提取表格数据,然后将其转换为 pandas 数据帧。

from pdfminer.high_level import extract_text

# 从 PDF 中提取文本
pdf_text = extract_text("path/to/pdf_file.pdf")

# 提取表格数据
table_data = []

for line in pdf_text.split('\n'):
    # 列分隔符
    row = line.split('\t')
    table_data.append(row)

# 将表格转换为 pandas 数据帧
df = pd.DataFrame(table_data[1:], columns=table_data[0])

在该代码片段中,我们使用 pdfminer 从 PDF 文件中提取文本,然后提取表格数据,并将其存储在一个 pandas 数据帧中。

3. 将数据转换为 Excel 格式

经过以上步骤,您已经将 PDF 文件中的数据存储在了一个 pandas 数据帧中。下一步是将该数据框转换为 Excel 格式:

# 将 pandas 数据帧写入 Excel 文件
df.to_excel("path/to/excel_file.xlsx", index=False)

在此代码片段中,我们使用 Pandas 将 pandas 数据帧写入 Excel 文件。

4. 完整代码
import tabula
from pdfminer.high_level import extract_text
import pandas as pd

# 读取 PDF 并提取表格
table = tabula.read_pdf("path/to/pdf_file.pdf", pages = "all")

# 将表格转换为 pandas 数据帧
df = table[0][:-1]

# 或者,从 PDF 中提取表格数据
# pdf_text = extract_text("path/to/pdf_file.pdf")
# table_data = []
# for line in pdf_text.split('\n'):
#     row = line.split('\t')
#     table_data.append(row)
# df = pd.DataFrame(table_data[1:], columns=table_data[0])

# 将 pandas 数据帧写入 Excel 文件
df.to_excel("path/to/excel_file.xlsx", index=False)

该代码片段展示了如何将 PDF 文件夹转换为 Excel Pandas。您可以使用两种不同的方法从 PDF 中提取数据:使用 tabula 库从 PDF 中提取表格或使用 pdfminer 库从 PDF 中提取文本和表格数据。最后,我们使用 Pandas 将 pandas 数据帧写入 Excel 文件中。