在 python 中拆分 pdf(1)

📌 相关文章

📜 在 python 中拆分 pdf(1)

📅 最后修改于: 2023-12-03 15:37:27.171000 🧑 作者: Mango

在 Python 中拆分 PDF

在 Python 中，我们可以使用 PyPDF2 库来进行 PDF 文件的读取、操作与拆分。

1. 安装 PyPDF2

可以使用 pip 来安装 PyPDF2：

pip install PyPDF2

2. 读取 PDF 文件

在开始拆分 PDF 文件前，我们需要使用 PyPDF2 库来读取 PDF 文件的内容。下面是读取 PDF 文件的一段示例代码：

import PyPDF2

# 打开 PDF 文件
pdf_file = open("example.pdf", "rb")

# 读取 PDF 文件对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# 获取 PDF 文件总页数
total_pages = pdf_reader.getNumPages()

# 遍历 PDF 文件所有页，并输出页码及内容
for page_num in range(total_pages):
    page = pdf_reader.getPage(page_num)
    page_content = page.extractText()
    print(f"Page {page_num}: {page_content}")
    
# 关闭 PDF 文件
pdf_file.close()

3. 拆分 PDF 文件

接下来，我们可以使用 PyPDF2 库来拆分 PDF 文件。下面是拆分 PDF 文件的一段示例代码：

import PyPDF2

# 打开 PDF 文件
pdf_file = open("example.pdf", "rb")

# 读取 PDF 文件对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# 获取 PDF 文件总页数
total_pages = pdf_reader.getNumPages()

# 拆分 PDF 文件
for page_num in range(total_pages):
    # 创建新的 PDF 文件对象
    pdf_writer = PyPDF2.PdfFileWriter()
    # 获取当前页
    page = pdf_reader.getPage(page_num)
    # 添加当前页到新的 PDF 文件对象
    pdf_writer.addPage(page)
    # 保存新的 PDF 文件
    with open(f"page_{page_num}.pdf", "wb") as output_pdf:
        pdf_writer.write(output_pdf)
        
# 关闭 PDF 文件
pdf_file.close()

上述代码将逐页拆分 PDF 文件，并保存为多个 PDF 文件，文件名以其页码来命名。