📜  使用Python从维基百科抓取网页——完整指南(1)

📅  最后修改于: 2023-12-03 15:22:19.821000             🧑  作者: Mango

使用Python从维基百科抓取网页——完整指南

如果你是一名程序员,想要从维基百科抓取网页,下面是一个完整指南。本文将介绍如何使用Python从维基百科抓取网页,包括相关的库和代码示例。

相关的库

要抓取维基百科网页,你需要使用以下Python库:

  • requests:用于从网页中获取HTML内容。
  • BeautifulSoup:用于从HTML中提取数据。

你可以使用pip命令安装这两个库:

pip install requests
pip install beautifulsoup4
抓取网页

以下是从维基百科抓取网页的基本步骤:

  1. 导入所需的库:
import requests
from bs4 import BeautifulSoup
  1. 指定要抓取的网页URL:
url = 'https://zh.wikipedia.org/wiki/Python'
  1. 使用requests库从网页中获取HTML内容:
response = requests.get(url)
  1. 解析HTML内容,提取所需的信息:
soup = BeautifulSoup(response.content, 'html.parser')
# 查找标题
title = soup.find('h1', {'class': 'firstHeading'}).text
# 查找正文
content = soup.find('div', {'id': 'bodyContent'}).text
  1. 输出所提取的信息:
print(title)
print(content)
完整代码示例

以下是完整的代码示例,可以直接运行:

import requests
from bs4 import BeautifulSoup

# 指定要抓取的网页URL
url = 'https://zh.wikipedia.org/wiki/Python'

# 使用requests库从网页中获取HTML内容
response = requests.get(url)

# 解析HTML内容,提取所需的信息
soup = BeautifulSoup(response.content, 'html.parser')
title = soup.find('h1', {'class': 'firstHeading'}).text
content = soup.find('div', {'id': 'bodyContent'}).text

# 输出所提取的信息
print(title)
print(content)
总结

在本文中,我们介绍了如何使用Python从维基百科抓取网页,包括所需的库和完整的代码示例。如果你想了解更多关于Python的爬虫技术,可以参考一些相关的学习资料。