📜  如何从 Python 中的链接读取 PDF] - Python (1)

📅  最后修改于: 2023-12-03 15:08:14.526000             🧑  作者: Mango

如何从 Python 中的链接读取 PDF

在 Python 中,我们可以使用一些库来实现从链接中读取 PDF 文档。在本文中,我们将介绍常用的两种库:requests 和 PyPDF2。

使用 requests 库获取 PDF 文档

首先,我们需要使用 requests 库来获取 PDF 文档的二进制数据。以下是一个示例:

import requests

url = 'https://example.com/sample.pdf'
response = requests.get(url)

with open('sample.pdf', 'wb') as f:
    f.write(response.content)

在这个示例中,我们使用 requests 库的 get 方法来获取 PDF 文档,然后将二进制数据写入指定的文件中。

使用 PyPDF2 解析 PDF 文档

一旦我们获取了 PDF 文档的二进制数据,就可以使用 PyPDF2 库来解析文档并提取需要的内容。以下是一个示例:

import PyPDF2

pdf_file = open('sample.pdf', 'rb')
pdf_reader = PyPDF2.PdfReader(pdf_file)

for page_num in range(pdf_reader.numPages):
    page = pdf_reader.getPage(page_num)
    print(page.extractText())

在这个示例中,我们打开指定的 PDF 文件,然后使用 PyPDF2 库的 PdfReader 类来读取并解析文档。接着,我们遍历文档中的所有页面,并使用 getPage 方法获取指定页面的内容,最后使用 extractText 方法提取文本内容。

以上就是使用 Python 从链接中读取 PDF 文档的方法。如果你想要了解更多关于使用 Python 处理 PDF 文档的知识,可以查看 PyPDF2 和其他 PDF 相关的库。