📅  最后修改于: 2023-12-03 15:37:27.171000             🧑  作者: Mango
在 Python 中,我们可以使用 PyPDF2 库来进行 PDF 文件的读取、操作与拆分。
可以使用 pip 来安装 PyPDF2:
pip install PyPDF2
在开始拆分 PDF 文件前,我们需要使用 PyPDF2 库来读取 PDF 文件的内容。下面是读取 PDF 文件的一段示例代码:
import PyPDF2
# 打开 PDF 文件
pdf_file = open("example.pdf", "rb")
# 读取 PDF 文件对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
# 获取 PDF 文件总页数
total_pages = pdf_reader.getNumPages()
# 遍历 PDF 文件所有页,并输出页码及内容
for page_num in range(total_pages):
page = pdf_reader.getPage(page_num)
page_content = page.extractText()
print(f"Page {page_num}: {page_content}")
# 关闭 PDF 文件
pdf_file.close()
接下来,我们可以使用 PyPDF2 库来拆分 PDF 文件。下面是拆分 PDF 文件的一段示例代码:
import PyPDF2
# 打开 PDF 文件
pdf_file = open("example.pdf", "rb")
# 读取 PDF 文件对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
# 获取 PDF 文件总页数
total_pages = pdf_reader.getNumPages()
# 拆分 PDF 文件
for page_num in range(total_pages):
# 创建新的 PDF 文件对象
pdf_writer = PyPDF2.PdfFileWriter()
# 获取当前页
page = pdf_reader.getPage(page_num)
# 添加当前页到新的 PDF 文件对象
pdf_writer.addPage(page)
# 保存新的 PDF 文件
with open(f"page_{page_num}.pdf", "wb") as output_pdf:
pdf_writer.write(output_pdf)
# 关闭 PDF 文件
pdf_file.close()
上述代码将逐页拆分 PDF 文件,并保存为多个 PDF 文件,文件名以其页码来命名。