📌  相关文章
📜  在Python中从 Wikipedia 的信息框中获取文本

📅  最后修改于: 2022-05-13 01:55:21.264000             🧑  作者: Mango

在Python中从 Wikipedia 的信息框中获取文本

信息框是用于收集和呈现有关其主题的信息子集的模板。它可以被描述为包含一组属性值对的结构化文档,在维基百科中,它代表了一篇文章主题的信息摘要。
因此, Wikipedia 信息框是一个固定格式的表格,通常添加到文章的右上角,以表示该 Wiki 页面的摘要文章,有时用于改进对其他相关文章的导航。
[了解更多信息框,点击这里]
Web Scraping是一种有助于从网站提取大量数据的机制,从而将数据提取并保存到计算机中的本地文件或以表格(电子表格)格式保存到数据库中。
有几种方法可以从 Web 中提取信息。使用 API 是从网站中提取数据的最佳方法之一。几乎所有大型网站,如 Youtube Facebook、Google、Twitter、StackOverflow 都提供 API 以更结构化的方式访问其数据。如果您可以通过 API 获得所需的内容,那么几乎总是首选红色方法而不是网络抓取。
有时,当我们正在开发任何项目或在其他地方使用它时,需要抓取维基百科页面的内容。在本文中,我将介绍如何提取维基百科信息框的内容。
基本上,我们可以使用两个Python模块来抓取数据:
Urllib2 :它是一个Python模块,可用于获取 URL。 urllib2 是一个用于获取 URL 的Python模块。它以 urlopen函数的形式提供了一个非常简单的界面。这能够使用各种不同的协议获取 URL。有关更多详细信息,请参阅文档页面。
BeautifulSoup :它是从网页中提取信息的绝佳工具。您可以使用它来提取表格、列表、段落,还可以使用过滤器从网页中提取信息。查看 BeautifulSoup 的文档页面
BeautifulSoup 不会为我们获取网页。我们可以将 urllib2 与 BeautifulSoup 库一起使用。
现在我要告诉你另一种简单的刮痧方法
以下步骤:
我们将使用的模块是:我在这里使用了Python 2.7,
确保这些模块已安装在您的机器上。
如果没有,那么在控制台或提示符上,您可以使用 pip 安装它

Python
# importing modules
import requests
from lxml import etree
  
# manually storing desired URL
url='https://en.wikipedia.org/wiki/Delhi_Public_School_Society'
  
# fetching its url through requests module  
req = requests.get(url) 
  
store = etree.fromstring(req.text)
  
# this will give Motto portion of above 
# URL's info box of Wikipedia's page
output = store.xpath('//table[@class="infobox vcard"]/tr[th/text()="Motto"]/td/i') 
  
# printing the text portion
print output[0].text  
  
# Run this program on your installed Python or 
# on your local system using cmd or any IDE.


查看此链接,它将显示此维基百科页面信息框的“座右铭部分”。(如此屏幕截图所示)

不支持您的浏览器。

首先编写你的代码

现在终于在运行你得到的程序之后,

您还可以修改 URL.XPath 以获取信息框的不同部分。
如果您想了解更多关于网页抓取的信息,请访问这些链接,
1) 网页抓取 1
2) 网页抓取 2