如何使用Python将 PDF 文件转换为 Excel 文件？

在本文中，我们将看到如何使用Python将 PDF 转换为 Excel 或 CSV 文件。它可以用各种方法来完成，这里我们将使用一些方法。

方法一：使用pdftables_api

这里将使用pdftables_api模块将 PDF 文件转换为任何其他格式。它是一个简单的基于 Web 的API，因此可以从任何编程语言中调用。

安装：

pip install git+https://github.com/pdftables/python-pdftables-api.git

安装后，您需要一个 API KEY。转到PDFTables.com 并注册，然后访问 API页面 查看您的 API 密钥。

对于将 PDF 文件转换为 excel 文件，我们将使用xml()方法。

句法：

xml(pdf_path, xml_path)

下面是实现：

使用的PDF文件：

PDF文件

Python3

# Import Module
import pdftables_api
  
# API KEY VERIFICATION
conversion = pdftables_api.Client('API KEY')
  
# PDf to Excel 
# (Hello.pdf, Hello)
conversion.xlsx("pdf_file_path", "output_file_path")

Python3

# Import Module 
import tabula
  
# Read PDF File
# this contain a list
df = tabula.read_pdf("PDF File Path", pages = 1)[0]
  
# Convert into Excel File
df.to_excel('Excel File Path')

输出：

excel文件

方法 2：使用 tabula-py

这里将使用tabula-py模块将 PDF 文件转换为任何其他格式。