📜  通用 pdf y guardarlo en una 变量 - Html (1)

📅  最后修改于: 2023-12-03 15:41:58.243000             🧑  作者: Mango

将通用 PDF 存为 HTML 并保存到变量中

介绍如何使用Python将通用PDF文件转换为HTML格式并将其保存到变量中。

步骤概述
  1. 安装相应的Python库
  2. 读取PDF文件
  3. 转换PDF文件为HTML格式
  4. 将转换后的HTML保存到变量中
详细步骤
步骤1. 安装相应的Python库

我们需要安装两个Python库来完成这项工作 - pdfminer和pdf2htmlEX。

pdfminer是一个提取文本和解析pdf文档的Python库;

pdf2htmlEX是一个用于将PDF文件转换为HTML格式的工具,它可以生成符合标准的HTML,CSS和JavaScript。

!pip install pdfminer.six
!apt-get install -yqq xpdf-utils
!pip install pdf2htmlEX
步骤2. 读取PDF文件

使用pdfminer库的PDFParser读取PDF文件并将其存储在PdfDocument对象中。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfparser import PDFParser
from io import StringIO

pdf_path = 'example.pdf'

with open(pdf_path, 'rb') as pdf_file:
    parser = PDFParser(pdf_file)
    document = PDFDocument(parser)
步骤3. 转换PDF文件为HTML格式

使用pdf2htmlEX库将PDF文件转换为HTML格式和相关资源。

import pdf2htmlEX

pdf2htmlEX.pdf2htmlEX(pdf_path, 'output.html')
步骤4. 将HTML保存到变量中

将转换后的HTML保存到字符串变量中。

with open('output.html', 'r') as html_file:
    html_content = html_file.read()
完整代码
!pip install pdfminer.six
!apt-get install -yqq xpdf-utils
!pip install pdf2htmlEX

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfparser import PDFParser
from io import StringIO

import pdf2htmlEX

pdf_path = 'example.pdf'

with open(pdf_path, 'rb') as pdf_file:
    parser = PDFParser(pdf_file)
    document = PDFDocument(parser)

pdf2htmlEX.pdf2htmlEX(pdf_path, 'output.html')

with open('output.html', 'r') as html_file:
    html_content = html_file.read()

print(html_content)

返回的markdown格式如下:

## 完整代码

```python
!pip install pdfminer.six
!apt-get install -yqq xpdf-utils
!pip install pdf2htmlEX

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfparser import PDFParser
from io import StringIO

import pdf2htmlEX

pdf_path = 'example.pdf'

with open(pdf_path, 'rb') as pdf_file:
    parser = PDFParser(pdf_file)
    document = PDFDocument(parser)

pdf2htmlEX.pdf2htmlEX(pdf_path, 'output.html')

with open('output.html', 'r') as html_file:
    html_content = html_file.read()

print(html_content)