📜  在 python 中拆分 pdf(1)

📅  最后修改于: 2023-12-03 15:37:27.171000             🧑  作者: Mango

在 Python 中拆分 PDF

在 Python 中,我们可以使用 PyPDF2 库来进行 PDF 文件的读取、操作与拆分。

1. 安装 PyPDF2

可以使用 pip 来安装 PyPDF2:

pip install PyPDF2
2. 读取 PDF 文件

在开始拆分 PDF 文件前,我们需要使用 PyPDF2 库来读取 PDF 文件的内容。下面是读取 PDF 文件的一段示例代码:

import PyPDF2

# 打开 PDF 文件
pdf_file = open("example.pdf", "rb")

# 读取 PDF 文件对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# 获取 PDF 文件总页数
total_pages = pdf_reader.getNumPages()

# 遍历 PDF 文件所有页,并输出页码及内容
for page_num in range(total_pages):
    page = pdf_reader.getPage(page_num)
    page_content = page.extractText()
    print(f"Page {page_num}: {page_content}")
    
# 关闭 PDF 文件
pdf_file.close()
3. 拆分 PDF 文件

接下来,我们可以使用 PyPDF2 库来拆分 PDF 文件。下面是拆分 PDF 文件的一段示例代码:

import PyPDF2

# 打开 PDF 文件
pdf_file = open("example.pdf", "rb")

# 读取 PDF 文件对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# 获取 PDF 文件总页数
total_pages = pdf_reader.getNumPages()

# 拆分 PDF 文件
for page_num in range(total_pages):
    # 创建新的 PDF 文件对象
    pdf_writer = PyPDF2.PdfFileWriter()
    # 获取当前页
    page = pdf_reader.getPage(page_num)
    # 添加当前页到新的 PDF 文件对象
    pdf_writer.addPage(page)
    # 保存新的 PDF 文件
    with open(f"page_{page_num}.pdf", "wb") as output_pdf:
        pdf_writer.write(output_pdf)
        
# 关闭 PDF 文件
pdf_file.close()

上述代码将逐页拆分 PDF 文件,并保存为多个 PDF 文件,文件名以其页码来命名。