在Python中从 Wikipedia 的信息框中获取文本

信息框是用于收集和呈现有关其主题的信息子集的模板。它可以被描述为包含一组属性值对的结构化文档，在维基百科中，它代表了一篇文章主题的信息摘要。
因此， Wikipedia 信息框是一个固定格式的表格，通常添加到文章的右上角，以表示该 Wiki 页面的摘要文章，有时用于改进对其他相关文章的导航。
[了解更多信息框，点击这里]
Web Scraping是一种有助于从网站提取大量数据的机制，从而将数据提取并保存到计算机中的本地文件或以表格（电子表格）格式保存到数据库中。
有几种方法可以从 Web 中提取信息。使用 API 是从网站中提取数据的最佳方法之一。几乎所有大型网站，如 Youtube Facebook、Google、Twitter、StackOverflow 都提供 API 以更结构化的方式访问其数据。如果您可以通过 API 获得所需的内容，那么几乎总是首选红色方法而不是网络抓取。
有时，当我们正在开发任何项目或在其他地方使用它时，需要抓取维基百科页面的内容。在本文中，我将介绍如何提取维基百科信息框的内容。
基本上，我们可以使用两个Python模块来抓取数据：
Urllib2 ：它是一个Python模块，可用于获取 URL。 urllib2 是一个用于获取 URL 的Python模块。它以 urlopen函数的形式提供了一个非常简单的界面。这能够使用各种不同的协议获取 URL。有关更多详细信息，请参阅文档页面。
BeautifulSoup ：它是从网页中提取信息的绝佳工具。您可以使用它来提取表格、列表、段落，还可以使用过滤器从网页中提取信息。查看 BeautifulSoup 的文档页面
BeautifulSoup 不会为我们获取网页。我们可以将 urllib2 与 BeautifulSoup 库一起使用。
现在我要告诉你另一种简单的刮痧方法
以下步骤：
我们将使用的模块是：我在这里使用了Python 2.7，
确保这些模块已安装在您的机器上。
如果没有，那么在控制台或提示符上，您可以使用 pip 安装它

Python

# importing modules
import requests
from lxml import etree
  
# manually storing desired URL
url='https://en.wikipedia.org/wiki/Delhi_Public_School_Society'
  
# fetching its url through requests module  
req = requests.get(url) 
  
store = etree.fromstring(req.text)
  
# this will give Motto portion of above 
# URL's info box of Wikipedia's page
output = store.xpath('//table[@class="infobox vcard"]/tr[th/text()="Motto"]/td/i') 
  
# printing the text portion
print output[0].text  
  
# Run this program on your installed Python or 
# on your local system using cmd or any IDE.

查看此链接，它将显示此维基百科页面信息框的“座右铭部分”。（如此屏幕截图所示）

首先编写你的代码

现在终于在运行你得到的程序之后，

您还可以修改 URL.XPath 以获取信息框的不同部分。
如果您想了解更多关于网页抓取的信息，请访问这些链接，
1) 网页抓取 1
2) 网页抓取 2