nodejs 提取 pdf 数据 - Javascript (1)

📌 相关文章

📜 nodejs 提取 pdf 数据 - Javascript (1)

📅 最后修改于: 2023-12-03 14:44:44.471000 🧑 作者: Mango

Node.js 提取 PDF 数据 - Javascript

在本文中，我们将讨论如何使用 Node.js 和相关工具在 JavaScript 中提取 PDF 文档的数据。我们将使用以下工具：

pdf-lib：这是一个用于创建和编辑 PDF 文件的库，我们可以使用它来提取 PDF 文档中的文本和图像数据。
pdf-parse：这是一个用于解析 PDF 文档的库，我们可以使用它来解析 PDF 文件并提取文本数据。

准备工作

首先，我们需要确保安装了 Node.js 环境。你可以从 Node.js 官方网站下载并安装 Node.js。

接下来，我们需要创建一个新的 Node.js 项目，可以使用 npm init 命令来创建。打开终端并进入想要创建项目的目录，运行以下命令：

npm init

在初始化过程中，你需要输入一些基本信息（如项目名称、作者等）和描述。完成后，该命令将在当前目录中生成一个名为 package.json 的文件。

安装必要的依赖项：pdf-lib 和 pdf-parse。

npm install pdf-lib pdf-parse

现在，我们已经准备好在 JavaScript 中提取 PDF 文件的数据。

提取 PDF 文件中的文本数据

我们将使用 pdf-lib 和 pdf-parse 库提取 PDF 文件中的文本数据。首先，我们需要安装依赖项：

npm install pdf-lib pdf-parse

步骤 1：解析 PDF 文件并提取文本数据！

const PDFParse = require('pdf-parse');
const fs = require('fs');

let dataBuffer = fs.readFileSync('./pdf/test.pdf');

PDFParse(dataBuffer).then(function(data) {
  console.log(data.text);
});

步骤 2：使用 pdf-lib 库提取 PDF 文件中的文本数据！

const PDFLib = require('pdf-lib');
const fs = require('fs');

(async () => {
  const existingPdfBytes = await fs.readFileSync('./pdf/test.pdf');

  const pdfDoc = await PDFLib.PDFDocument.load(existingPdfBytes);

  const pages = pdfDoc.getPages();
  const text = [];

  for (let i = 0; i < pages.length; i++) {
    const page = pages[i];
    const content = await page.getTextContent();
    const strings = content.items.map(item => item.str);
    const pageText = strings.join('');
    text.push(pageText);
  }

  console.log(text);
})();

这将打印出从 PDF 文件中提取的文本数据。我们使用 pdf-parse 库来解析 PDF 文件，并使用 pdf-lib 库获取页面内容和文本数据。

结论

在这篇文章中，我们学习了如何在 JavaScript 中使用 Node.js 和 pdf-lib、pdf-parse 库提取 PDF 文件的数据。我们还探讨了如何解析 PDF 文件并提取文本数据。希望对你有帮助！