📅  最后修改于: 2023-12-03 15:07:14.329000             🧑  作者: Mango
在自然语言处理中,停用词是指那些经常出现但不具有实际含义的词语,如“的”,“是”,“在”等等。删除这些词语可以使得文本更加简洁有力,从而提高模型的准确性。Python有许多工具可供我们使用,来删除停用词。其中,最常见的是nltk工具包。
在PyPI上,nltk是一个常见的自然语言处理工具包,可以使用以下命令安装:
!pip install nltk
在nltk中,我们可以使用以下命令加载英文停用词:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
以上代码将下载nltk中的停用词语料库,并将英文停用词存储到stop_words变量中。
现在,我们可以将上一步中加载的停用词列表应用到给定的文本中,以删除停用词:
text = "This is an example sentence to remove the stopwords."
words = nltk.word_tokenize(text)
words_without_stopwords = [word for word in words if not word in stop_words]
现在,words_without_stopwords
变量中包含没有英文停用词的单词列表,它可以用于后续的自然语言处理任务。
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
text = "This is an example sentence to remove the stopwords."
words = nltk.word_tokenize(text)
words_without_stopwords = [word for word in words if not word in stop_words]
print(words_without_stopwords)
['This', 'example', 'sentence', 'remove', 'stopwords', '.']
以上代码从给定的例句中删除了英文的停用词,只留下了单词列表。