📅  最后修改于: 2023-12-03 15:22:19.821000             🧑  作者: Mango
如果你是一名程序员,想要从维基百科抓取网页,下面是一个完整指南。本文将介绍如何使用Python从维基百科抓取网页,包括相关的库和代码示例。
要抓取维基百科网页,你需要使用以下Python库:
requests
:用于从网页中获取HTML内容。BeautifulSoup
:用于从HTML中提取数据。你可以使用pip命令安装这两个库:
pip install requests
pip install beautifulsoup4
以下是从维基百科抓取网页的基本步骤:
import requests
from bs4 import BeautifulSoup
url = 'https://zh.wikipedia.org/wiki/Python'
requests
库从网页中获取HTML内容:response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
# 查找标题
title = soup.find('h1', {'class': 'firstHeading'}).text
# 查找正文
content = soup.find('div', {'id': 'bodyContent'}).text
print(title)
print(content)
以下是完整的代码示例,可以直接运行:
import requests
from bs4 import BeautifulSoup
# 指定要抓取的网页URL
url = 'https://zh.wikipedia.org/wiki/Python'
# 使用requests库从网页中获取HTML内容
response = requests.get(url)
# 解析HTML内容,提取所需的信息
soup = BeautifulSoup(response.content, 'html.parser')
title = soup.find('h1', {'class': 'firstHeading'}).text
content = soup.find('div', {'id': 'bodyContent'}).text
# 输出所提取的信息
print(title)
print(content)
在本文中,我们介绍了如何使用Python从维基百科抓取网页,包括所需的库和完整的代码示例。如果你想了解更多关于Python的爬虫技术,可以参考一些相关的学习资料。