📜  使用Python将 PDF 转换为 CSV

📅  最后修改于: 2022-05-13 01:55:48.050000             🧑  作者: Mango

使用Python将 PDF 转换为 CSV

Python是一种高级、通用且非常流行的编程语言。 Python编程语言(最新的Python 3)正被用于 Web 开发、机器学习应用程序以及软件行业的所有尖端技术。 Python编程语言非常适合初学者,也适合使用 C++ 和Java等其他编程语言的有经验的程序员。

在本文中,我们将学习如何使用Python将 PDF 文件转换为 CSV 文件。在这里,我们将讨论各种转换方法。对于所有方法,我们都使用输入 PDF 文件。

方法一:

这里将使用pdftables_api模块将 PDF 文件转换为任何其他格式。 pdftables_api 模块用于读取 PDF 中的表格。它还允许我们将 PDF 文件转换为另一种格式。

安装:

Open Command Prompt and type "pip install git+https://github.com/pdftables/python-pdftables-api.git"
  • 它将安装pdftables_api模块
  • 安装后,您需要一个 API KEY。
  • 转到 PDFTables.com 并注册,然后访问 API 页面以查看您的 API 密钥。

方法:

  • 验证 API 密钥。
  • 对于将 PDF 文件转换为 CSV 文件,我们将使用csv()方法。

句法:

pdftables_api.Client('API KEY').csv(pdf_path, csv_path)

下面是实现:

使用的PDF文件:

PDF文件

Python3
# Import Module
import pdftables_api
  
# API KEY VERIFICATION
conversion = pdftables_api.Client('API KEY')
  
# PDf to CSV 
# (Hello.pdf, Hello)
conversion.csv(pdf_file_path, output_file_path)


Python3
# Import Module 
import tabula
  
# Read PDF File
# this contain a list
df = tabula.read_pdf(PDF File Path, pages = 1)[0]
  
# Convert into Excel File
df.to_csv('Excel File Path')


输出:

CSV文件

方法二:

这里将使用tabula-py模块将 PDF 文件转换为任何其他格式。 tabula-py 是 tabula-java 的简单Python包装器,它可以读取 PDF 中的表格。您可以从 PDF 中读取表格并将它们转换为 Pandas DataFrame。 tabula-py 还允许您将 PDF 文件转换为 CSV、TSV 或 JSON 文件。

安装:

pip install tabula-py

在开始之前,首先我们需要安装Java并在PATH变量中添加一个Java安装文件夹。

  • 安装Java点击这里
  • 将Java安装文件夹(C:\Program Files (x86)\ Java\jre1.8.0_251\bin)添加到环境路径变量

方法:

  • 使用read_pdf()方法读取PDF文件。
  • 然后我们将使用to_csv()方法将 PDF 文件转换为 CSV 文件。

句法:

read_pdf(PDF File Path, pages = Number of pages, **agrs)

下面是实现:

使用的PDF文件:

PDF文件

蟒蛇3

# Import Module 
import tabula
  
# Read PDF File
# this contain a list
df = tabula.read_pdf(PDF File Path, pages = 1)[0]
  
# Convert into Excel File
df.to_csv('Excel File Path')

输出:

CSV文件