📜  获取 href bs4 - Python (1)

📅  最后修改于: 2023-12-03 15:27:47.652000             🧑  作者: Mango

获取 href bs4 - Python

在使用 Python 进行 web 爬虫时,我们常常需要从网页中获取元素的 href 属性。在使用 BeautifulSoup 库时,获取 href 属性非常简单。

步骤
  1. 导入库

首先需要导入 requestsBeautifulSoup 库:

import requests
from bs4 import BeautifulSoup
  1. 请求网页

使用 requests.get() 进行网页请求,获取网页的 HTML 代码:

url = 'https://example.com'
response = requests.get(url)
html = response.content
  1. 解析 HTML

使用 BeautifulSoup 将 HTML 代码解析为 BeautifulSoup 对象:

soup = BeautifulSoup(html, 'html.parser')
  1. 获取 href 属性

首先需要找到包含 href 属性的元素,然后使用 .get() 方法获取属性值。

例如,假设我们要获取网页中所有链接的 href 属性,可以使用以下代码:

links = []
for link in soup.find_all('a'):
    href = link.get('href')
    links.append(href)

print(links)

这段代码会找到 HTML 中所有的 <a> 元素,并将其 href 属性的值保存到 links 列表中。最后输出 links 列表。

总结

以上就是使用 BeautifulSoup 获取网页中 href 属性的方法。需要注意的是,在实际的 web 爬虫中,有些网站会对爬虫进行限制,所以我们需要尽可能避免频繁请求同一个网站,并且要注意网页数据的使用规则。