📅  最后修改于: 2023-12-03 15:34:17.487000             🧑  作者: Mango
TextBlob
是一个Python库,用于处理文本数据,提供了许多有用的自然语言处理(NLP)功能。其中包括词频统计,这可以通过TextBlob.word_counts()
方法来实现。本文将介绍如何使用该方法进行词频统计。
首先需要安装TextBlob
库,在终端上可以通过以下命令完成安装:
pip install textblob
word_counts()
方法会返回一组字典,其中包含输入文本中每个单词的出现次数。这个方法不需要任何参数,其基本语法如下:
TextBlob(word).word_counts
其中word
是输入文本,可以是字符串或文件对象。
以下是一个简单的示例,演示如何使用word_counts()
方法。
from textblob import TextBlob
sentence = "I love Python. Python is a high-level programming language."
blob = TextBlob(sentence)
# 词频统计
word_count = blob.word_counts
print(word_count)
输出结果:
{'i': 1, 'love': 1, 'python': 2, 'is': 1, 'a': 1, 'high-level': 1, 'programming': 1, 'language': 1}
一旦得到了单词的出现次数,就可以使用该数据进行各种任务。以下是一些可能的用例:
sorted_word_count = sorted(word_count.items(), key=lambda x:x[1], reverse=True)
print("The most common word is '{}' occurred {} times.".format(sorted_word_count[0][0], sorted_word_count[0][1]))
输出结果:
The most common word is 'python' occurred 2 times.
import matplotlib.pyplot as plt
word_freq = list(word_count.values())
plt.hist(word_freq, bins=range(min(word_freq), max(word_freq) + 1, 1))
plt.show()
输出结果:
TextBlob.word_counts()
方法提供了一种方便的方法来进行词频统计。将该方法与其他TextBlob
的NLP功能结合使用,可以进行各种文本分析。