📅  最后修改于: 2023-12-03 15:15:14.769000             🧑  作者: Mango
Gensim是一个用于自然语言处理的Python库,它提供了一些用于建模、索引和相似度计算等任务的工具。Gensim的核心功能是将文本数据转换为可以用于训练机器学习模型的向量表示。
Gensim的特点包括:
你可以使用pip工具来安装Gensim,执行以下命令:
pip install gensim
下面是一个简单的示例,展示了如何使用Gensim来训练一个Word2Vec模型:
from gensim.models import Word2Vec
# 构建训练语料库
corpus = [["I", "like", "apple"], ["She", "prefers", "banana"], ["He", "enjoys", "orange"]]
# 训练Word2Vec模型
model = Word2Vec(corpus, vector_size=100, window=5, min_count=1, workers=4)
# 获取单词的向量表示
vector = model.wv["apple"]
# 计算两个单词之间的相似度
similarity = model.wv.similarity("apple", "banana")
以上代码首先构建了一个训练语料库,然后使用这个语料库训练了一个Word2Vec模型。接着,我们可以通过model.wv[word]
获取单词的向量表示,或者使用model.wv.similarity(word1, word2)
计算两个单词之间的相似度。
更多Gensim的用法和示例可以参考官方文档:Gensim Documentation