Python中的维基百科模块
Internet 是最大的单一信息来源,因此了解如何从各种来源获取数据非常重要。维基百科是互联网上最大、最受欢迎的信息来源之一。
Wikipedia是一个多语言在线百科全书,由志愿者编辑社区使用基于 wiki 的编辑系统创建和维护,作为一个开放的协作项目。
在本文中,我们将了解如何使用 Python 的 Wikipedia 模块从 Wikipedia 网站获取各种信息。
安装
为了从 Wikipedia 中提取数据,我们必须首先安装Python Wikipedia 库,它封装了官方的 Wikipedia API。这可以通过在命令提示符或终端中输入以下命令来完成:
pip install wikipedia
入门
获取任何标题的摘要
任何标题的摘要都可以使用摘要方法获得。
Syntax : wikipedia.summary(title, sentences)
Argument :
Title of the topic
Optional argument: setting number of lines in result.
Return : Returns the summary in string format.
代码 :
Python3
# importing the module
import wikipedia
# finding result for the search
# sentences = 2 refers to numbers of line
result = wikipedia.summary("India", sentences = 2)
# printing the result
print(result)
Python3
# importing the module
import wikipedia
# getting suggestions
result = wikipedia.search("Geek", results = 5)
# printing the result
print(result)
Python3
# importing the module
import wikipedia
# wikipedia page object is created
page_object = wikipedia.page("india")
# printing html of page_object
print(page_object.html)
# printing title
print(page_object.original_title)
# printing links on that page object
print(page_object.links[0:10])
Python3
# importing the module
import wikipedia
# setting language to hindi
wikipedia.set_lang("hi")
# printing the summary
print(wikipedia.summary("India"))
输出 :
India (Hindi: Bh?rat), officially the Republic of India (Hindi: Bh?rat Ga?ar?jya), is a country in South Asia. It is the seventh-largest country by area, the second-most populous country, and the most populous democracy in the world.
搜索标题和建议
可以使用 search() 方法获取标题和建议。
Syntax : wikipedia.search(title, results)
Argument :
Title of the topic
Optional argument : setting number of result.
Return : Returns the list of titles.
代码 :
Python3
# importing the module
import wikipedia
# getting suggestions
result = wikipedia.search("Geek", results = 5)
# printing the result
print(result)
输出 :
['Geek', 'Geek!', 'Freaks and Geeks', 'The Geek', 'Geek show']
获取完整的维基百科页面数据
page() 方法用于获取维基百科页面的内容、类别、坐标、图像、链接和其他元数据。
Syntax : wikipedia.page(title)
Argument : Title of the topic.
Return : Return a WikipediaPage object.
代码 :
Python3
# importing the module
import wikipedia
# wikipedia page object is created
page_object = wikipedia.page("india")
# printing html of page_object
print(page_object.html)
# printing title
print(page_object.original_title)
# printing links on that page object
print(page_object.links[0:10])
输出 :
“bound method WikipediaPage.html of “WikipediaPage ‘India'”>
India
[‘.in’, ’10th BRICS summit’, ’11th BRICS summit’, ’12th BRICS summit’, ’17th SAARC summit’, ’18th SAARC summit’, ‘1951 Asian Games’, ‘1957 Indian general election’, ‘1962 Indian general election’, ‘1982 Asian Games’]
更改维基百科页面的语言
如果页面以您的母语存在,则可以将语言更改为您的母语。 Set_lang() 方法用于相同的目的。
Syntax : wikipedia.set_lang(language)
Argument : prefix of the language like for arabic prefix is ar and so on.
Action performed : It converted the data into that language default language is english.
代码 :
Python3
# importing the module
import wikipedia
# setting language to hindi
wikipedia.set_lang("hi")
# printing the summary
print(wikipedia.summary("India"))
输出 :