📜  PDFBox-概述

📅  最后修改于: 2020-11-12 05:12:30             🧑  作者: Mango


可移植文档格式(PDF)是一种文件格式,可帮助以独立于应用程序软件,硬件和操作系统的方式显示数据。

每个PDF文件都包含对固定版式平面文档的描述,包括文本,字体,图形和其他显示文档所需的信息。

有几个库可用于通过程序创建和处理PDF文档,例如-

  • Adobe PDF库-该库以C++,。NET和Java等语言提供API,使用它我们可以编辑,查看打印内容以及从PDF文档提取文本。

  • 格式化对象处理器-由XSL格式化对象驱动的开源打印格式化程序,以及与输出无关的格式化程序。主要输出目标是PDF。

  • iText-该库提供Java,C#和其他.NET语言等语言的API,使用该库,我们可以创建和处理PDF,RTF和HTML文档。

  • JasperReports-这是一个Java报告工具,可在PDF文档中生成报告,包括Microsoft Excel,RTF,ODT,逗号分隔的值和XML文件。

什么是PDFBox

Apache PDFBox是一个开源Java库,它支持PDF文档的开发和转换。使用此库,您可以开发可创建,转换和处理PDF文档的Java程序。

除此之外,PDFBox还包括一个命令行实用程序,用于使用可用的Jar文件对PDF执行各种操作。

PDFBox的功能

以下是PDFBox的显着功能-

  • 提取文本-使用PDFBox,可以从PDF文件提取Unicode文本。

  • 拆分和合并-使用PDFBox,您可以将单个PDF文件划分为多个文件,然后将它们合并为单个文件。

  • 填写表格-使用PDFBox,您可以在文档中填写表格数据。

  • 打印-使用PDFBox,您可以使用标准Java打印API打印PDF文件。

  • 另存为图像-使用PDFBox,可以将PDF保存为图像文件,例如PNG或JPEG。

  • 创建PDF-使用PDFBox,可以通过创建Java程序来创建新的PDF文件,还可以包含图像和字体。

  • 签名-使用PDFBox,您可以将数字签名添加到PDF文件。

PDFBox的应用

以下是PDFBox的应用程序-

  • Apache Nutch -Apache Nutch是一个开源的Web搜索软件。它建立在Apache Lucene的基础上,添加了特定于Web的内容,例如搜寻器,链接图数据库,HTML和其他文档格式的解析器等。

  • Apache Tika -Apache Tika是使用现有解析器库从各种文档中检测和提取元数据和结构化文本内容的工具包。

PDFBox的组件

以下是PDFBox的四个主要组件-

  • PDFBox-这是PDFBox的主要部分。它包含与内容提取和操作有关的类和接口。

  • FontBox-包含与字体相关的类和接口,使用这些类,我们可以修改PDF文档文本的字体。

  • XmpBox-包含处理XMP元数据的类和接口。

  • 印前检查-此组件用于根据PDF / A-1b标准验证PDF文件。