📜  如何在 python 中获取维基百科页面链接(1)

📅  最后修改于: 2023-12-03 14:52:31.073000             🧑  作者: Mango

如何在 Python 中获取维基百科页面链接

维基百科(Wikipedia)是世界上最大的多语言在线百科全书,并且拥有大量信息资源。在 Python 中,我们可以通过使用第三方库来获取维基百科页面的链接。

使用 Wikipedia 库

Wikipedia 是一个 Python 第三方库,它提供了简洁的接口,用于从维基百科获取页面的摘要、内容、链接等信息。

安装 Wikipedia 库

在终端或命令行中使用以下命令来安装 Wikipedia 库:

pip install wikipedia
示例代码

以下是一个使用 Wikipedia 库获取维基百科页面链接的示例代码:

import wikipedia

# 设置语言为中文
wikipedia.set_lang("zh")

# 获取维基百科页面的链接
page = wikipedia.page("Python")
url = page.url

print(url)

上述代码将获取维基百科上关于 Python 的页面链接,并将链接打印输出。

输出结果

获取到的维基百科页面链接的输出结果是一个字符串,可以将其用于生成 Markdown 中的链接标记。

Markdown 标记的格式如下:

[链接显示文本](链接地址)

所以,上述代码的输出结果可以使用下面的 Markdown 代码来呈现:

[Python - 维基百科](https://zh.wikipedia.org/wiki/Python)
使用 BeautifulSoup 库

另一种常用的方法是使用 BeautifulSoup 库从维基百科的 HTML 页面中提取链接。

安装 BeautifulSoup 库

在终端或命令行中使用以下命令来安装 BeautifulSoup 库:

pip install beautifulsoup4
示例代码

以下是一个使用 BeautifulSoup 库获取维基百科页面链接的示例代码:

import requests
from bs4 import BeautifulSoup

# 维基百科页面的 URL
url = "https://zh.wikipedia.org/wiki/Python"

# 发送 HTTP 请求获取页面内容
response = requests.get(url)
html = response.text

# 使用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(html, "html.parser")

# 获取页面中的所有链接
links = soup.find_all("a")

# 打印链接
for link in links:
    href = link.get("href")
    if href.startswith("/wiki/"):  # 仅打印维基百科内部链接
        print(href)

上述代码将获取维基百科页面上的所有链接,并输出以 /wiki/ 开头的链接。

输出结果

获取到的链接可以根据需求进行处理和输出,例如格式化为 Markdown 的链接标记。下面是一个示例:

- [Python - 维基百科](/wiki/Python)
- [编程语言 - 维基百科](/wiki/编程语言)
- [计算机科学 - 维基百科](/wiki/计算机科学)
- ...
总结

以上介绍了两种在 Python 中获取维基百科页面链接的方法。通过使用 Wikipedia 库或 BeautifulSoup 库,您可以轻松地从维基百科获取页面链接,并根据需要对这些链接进行进一步处理和展示。根据具体的需求选择合适的方法,并根据输出结果选择适当的 Markdown 标记来显示链接。