Python|使用 TextBlob 进行词形还原

词形还原是将单词的不同变形形式组合在一起的过程，以便可以将它们作为单个项目进行分析。词形还原类似于词干提取，但它为单词带来了上下文。因此，它将具有相似含义的单词链接到一个单词。
文本预处理包括词干提取和词形还原。很多时候，人们发现这两个术语令人困惑。有些人将这两者视为相同。实际上，词形还原优于词干提取，因为词形还原对单词进行形态分析。
词形还原的应用是：

用于搜索引擎等综合检索系统。
用于紧凑索引。

Examples of lemmatization :

-> rocks : rock
-> corpora : corpus
-> better : good

词干提取的一个主要区别是 lemmatize 采用词性参数“pos” 如果未提供，则默认为“名词”。
下面是使用 TextBlob 实现词形还原词：

Python3

# from textblob lib import Word method
from textblob import Word
 
# create a Word object.
u = Word("rocks")
 
# apply lemmatization.
print("rocks :", u.lemmatize())
 
# create a Word object.
v = Word("corpora")
 
# apply lemmatization.
print("corpora :", v.lemmatize())
 
# create a Word object.
w = Word("better")
  
# apply lemmatization with
# parameter "a", "a" denotes adjective.
print("better :", w.lemmatize("a"))

输出：

rocks : rock
corpora : corpus
better : good