📅  最后修改于: 2023-12-03 15:08:20.424000             🧑  作者: Mango
抓取网页,也叫做网页抓取、网页爬取,就是通过程序自动获取互联网上的数据,然后利用这些数据做数据挖掘、分析或者直接用于其他应用。
const request = require('request')
const cheerio = require('cheerio')
// 请求地址
const url = 'https://example.com'
// 发起请求
request(url, (error, response, body) => {
if (!error && response.statusCode === 200) {
// 将获取到的 HTML 字符串转换为可操作的 DOM 对象
const $ = cheerio.load(body)
// 当前页面标题
const title = $('title').text()
// 找到页面中带有 href 属性的 a 标签
$('a[href]').each((i, element) => {
// 获取超链接和文本
const href = $(element).attr('href')
const text = $(element).text()
// 输出链接和文本
console.log(`${text}: ${href}`)
})
}
})
request
和 cheerio
模块,分别用于发起 HTTP 请求和解析 HTML 文档。href
属性的超链接标签。