使用Python从维基百科抓取网页——完整指南(1)

📌 相关文章

📜 使用Python从维基百科抓取网页——完整指南(1)

📅 最后修改于: 2023-12-03 15:22:19.821000 🧑 作者: Mango

使用Python从维基百科抓取网页——完整指南

如果你是一名程序员，想要从维基百科抓取网页，下面是一个完整指南。本文将介绍如何使用Python从维基百科抓取网页，包括相关的库和代码示例。

抓取网页

以下是从维基百科抓取网页的基本步骤：

导入所需的库：

import requests
from bs4 import BeautifulSoup

指定要抓取的网页URL：

url = 'https://zh.wikipedia.org/wiki/Python'

使用requests库从网页中获取HTML内容：

response = requests.get(url)

解析HTML内容，提取所需的信息：

soup = BeautifulSoup(response.content, 'html.parser')
# 查找标题
title = soup.find('h1', {'class': 'firstHeading'}).text
# 查找正文
content = soup.find('div', {'id': 'bodyContent'}).text

输出所提取的信息：

print(title)
print(content)

完整代码示例

以下是完整的代码示例，可以直接运行：

import requests
from bs4 import BeautifulSoup

# 指定要抓取的网页URL
url = 'https://zh.wikipedia.org/wiki/Python'

# 使用requests库从网页中获取HTML内容
response = requests.get(url)

# 解析HTML内容，提取所需的信息
soup = BeautifulSoup(response.content, 'html.parser')
title = soup.find('h1', {'class': 'firstHeading'}).text
content = soup.find('div', {'id': 'bodyContent'}).text

# 输出所提取的信息
print(title)
print(content)

总结

在本文中，我们介绍了如何使用Python从维基百科抓取网页，包括所需的库和完整的代码示例。如果你想了解更多关于Python的爬虫技术，可以参考一些相关的学习资料。