获取 href bs4 - Python (1)

📌 相关文章

📜 获取 href bs4 - Python (1)

📅 最后修改于: 2023-12-03 15:27:47.652000 🧑 作者: Mango

在使用 Python 进行 web 爬虫时，我们常常需要从网页中获取元素的 href 属性。在使用 BeautifulSoup 库时，获取 href 属性非常简单。

首先需要导入 requests 和 BeautifulSoup 库：

import requests
from bs4 import BeautifulSoup

使用 requests.get() 进行网页请求，获取网页的 HTML 代码：

url = 'https://example.com'
response = requests.get(url)
html = response.content

使用 BeautifulSoup 将 HTML 代码解析为 BeautifulSoup 对象：

soup = BeautifulSoup(html, 'html.parser')

首先需要找到包含 href 属性的元素，然后使用 .get() 方法获取属性值。

例如，假设我们要获取网页中所有链接的 href 属性，可以使用以下代码：

links = []
for link in soup.find_all('a'):
    href = link.get('href')
    links.append(href)

print(links)

这段代码会找到 HTML 中所有的 <a> 元素，并将其 href 属性的值保存到 links 列表中。最后输出 links 列表。

以上就是使用 BeautifulSoup 获取网页中 href 属性的方法。需要注意的是，在实际的 web 爬虫中，有些网站会对爬虫进行限制，所以我们需要尽可能避免频繁请求同一个网站，并且要注意网页数据的使用规则。