📜  使用 nltk 删除停用词 - Python (1)

📅  最后修改于: 2023-12-03 15:36:32.258000             🧑  作者: Mango

使用 nltk 删除停用词 - Python

在自然语言处理中,常常需要对文本进行预处理。其中,删除停用词是一项常见操作。

停用词(Stop words)是指在文本中频繁出现,但并不含有实际含义的词语,例如“the”、“an”、“and”等。在进行文本分析时,这些词语对结果并没有帮助,反而会影响结果的准确性。因此,删除停用词可以提高文本分析的准确度。

nltk(Natural Language Toolkit)是 Python 中常用的自然语言处理工具包。它提供了丰富的功能,包括分词、词性标注、文本分类等。此处,我们将介绍如何使用 nltk 删除停用词。

安装 nltk

首先,需要安装 nltk。在命令行中输入以下命令:

pip install nltk
下载停用词

nltk 中包含了多个语言的停用词。可以使用以下命令下载英文停用词:

import nltk

nltk.download('stopwords')
删除停用词

下载停用词后,就可以删除文本中的停用词了。以下是一个简单的示例:

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

text = "This is an example sentence that contains stopwords."
stop_words = set(stopwords.words('english'))

# 分词
words = word_tokenize(text)

# 删除停用词
filtered = [word for word in words if word.lower() not in stop_words]

print(filtered)

输出:

['example', 'sentence', 'contains', 'stopwords', '.']

在上述示例中,首先使用 word_tokenize 对文本进行了分词。然后使用列表解析式将不在停用词列表中的单词留下,从而删除了文本中的停用词。

总结

nltk 提供了简便的方式删除停用词,只需下载停用词表和分词工具即可。在进行文本分析时,删除停用词可以提高准确度。