📜  puppeteer 获取 html - Javascript (1)

📅  最后修改于: 2023-12-03 14:45:41.831000             🧑  作者: Mango

Puppeteer获取HTML

简介

Puppeteer是一个Node.js库,它提供了控制Chrome浏览器的高级API,允许用户模拟用户在浏览器中的行为,例如导航,表单提交,DOM操作以及截图等等。

使用Puppeteer可以方便地获取网页的HTML内容。本文将介绍如何在Node.js中通过Puppeteer获取HTML内容。

前置条件

在开始本文的演示之前,请确保你已经在本地安装了Puppeteer。如果你还没有安装Puppeteer,可以通过以下命令来安装它:

npm install puppeteer
获取HTML内容

获取HTML内容的基本流程是:

  1. 启动浏览器
  2. 打开网页
  3. 获取HTML内容
  4. 关闭浏览器

以下是一个简单的示例程序:

const puppeteer = require('puppeteer');

(async() => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://www.baidu.com');
  const html = await page.content();
  console.log(html);
  await browser.close();
})();

代码解析如下:

  1. 引入Puppeteer库
const puppeteer = require('puppeteer');
  1. 启动浏览器
const browser = await puppeteer.launch();
  1. 打开网页
const page = await browser.newPage();
await page.goto('https://www.baidu.com');
  1. 获取HTML内容
const html = await page.content();
  1. 输出HTML内容
console.log(html);
  1. 关闭浏览器
await browser.close();
结语

通过Puppeteer可以轻松地获取网页的HTML内容,只需要掌握基本的API即可。Puppeteer还提供了丰富的API,可以用于模拟用户在浏览器中的行为,例如点击,输入等等。如果需要了解更多关于Puppeteer的信息,可以访问官方文档:https://pptr.dev/