📅  最后修改于: 2023-12-03 15:14:45.284000             🧑  作者: Mango
doc2text
是一个 Python 库,可将 Word、PDF 和其他格式的文档转换为纯文本。它可以在数据处理、文本分析、自然语言处理等领域被广泛应用。
可以使用 pip 安装 doc2text
:
pip install doc2text
以下示例演示了如何使用 doc2text
将 Word 文档转换为纯文本。
import doc2text
# 将 Word 文档转换为纯文本
text = doc2text.process('example.docx')
# 打印纯文本
print(text)
返回的纯文本将保留所有文本内容,包括换行符。如果要将纯文本保存到文件中,请使用以下代码:
import doc2text
# 将 Word 文档转换为纯文本
text = doc2text.process('example.docx')
# 将纯文本保存到文件中
with open('example.txt', 'w', encoding='utf-8') as f:
f.write(text)
doc2text
目前支持以下文档格式:
doc2text
是一个非常方便的 Python 库,可将 Word、PDF 和其他格式的文档转换为纯文本。它易于使用,并支持多种常见的文档格式。在数据处理、文本分析和自然语言处理方面,doc2text
可以帮助程序员更快地获得所需的文本信息。