📅  最后修改于: 2023-12-03 14:51:19.078000             🧑  作者: Mango
停用词是指在文本处理中不会被考虑的一些常见词汇,例如"the","a","an"等。在文本分析中通常将这些常见词汇称为停用词。
在自然语言处理(NLP)中,停用词是需要被过滤掉的,因为它们不会提供有关文本意图或主题的任何价值。幸运的是,Python中有很多库可以处理文本和停用词。
# 安装nltk库
!pip install nltk
#导入nltk库
import nltk
nltk.download('stopwords')
下面是一个简单的例子,演示如何使用nltk库从字符串中删除停用词。
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
#创建一个字符串
str = "This is a sample text to show how to remove stopwords from string in python."
# 分词
words = word_tokenize(str)
# 加载英文停用词列表
stop_words = set(stopwords.words('english'))
# 删除停用词
filtered_words = [word for word in words if word.casefold() not in stop_words]
# 打印输出结果
print(filtered_words)
这将输出如下内容:
['sample', 'text', 'show', 'remove', 'stopwords', 'string', 'python', '.']
这篇文章介绍了如何使用Python中的nltk库从字符串中删除停用词。只需简单地使用nltk库,我们就可以从任何文本数据中轻松提取重要的数据,这将是敏捷开发中的巨大帮助。