📅  最后修改于: 2023-12-03 15:27:44.522000             🧑  作者: Mango
自然语言工具包(Natural Language Toolkit, 简称NLTK)是一款用于自然语言处理(NLP)的Python库。它提供了众多的功能和数据,方便程序员进行文本分析、语料处理、特征提取、分类和语法分析等任务。此外,NLTK还有一些现成的工具,例如词性标注、分词、句子分割、情感分析等,可以直接使用。
NLTK可以通过pip命令安装:
pip install nltk
在安装前,最好先更新pip:
pip install --upgrade pip
下面是一个示例代码,演示了如何使用NLTK进行分词和词性标注。
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
text = "This is a sample text, showing off the stop words filtration."
tokens = nltk.word_tokenize(text)
tagged_tokens = nltk.pos_tag(tokens)
print(tagged_tokens)
代码解析:
text
,存放字符串类型的文本。tokens
的列表中。tagged_tokens
的列表中。tagged_tokens
列表的内容。输出:
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('sample', 'NN'), ('text', 'NN'), (',', ','), ('showing', 'VBG'), ('off', 'RP'), ('the', 'DT'), ('stop', 'VB'), ('words', 'NNS'), ('filtration', 'NN'), ('.', '.')]
代码片段:
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
text = "This is a sample text, showing off the stop words filtration."
tokens = nltk.word_tokenize(text)
tagged_tokens = nltk.pos_tag(tokens)
print(tagged_tokens)
NLTK是NLP领域中最流行的Python库之一。它的使用非常方便,如果你想进行文本分析和处理,可以试着使用它。为了更好地了解NLTK的潜力,建议跟随官方文档或其他教程学习更多内容。