📝 Gensim教程

19篇技术文档
  Gensim教程

📅  最后修改于: 2020-10-16 02:19:57        🧑  作者: Mango

Gensim =“ Generate类似”是一种流行的开源自然语言处理库,用于无监督主题建模。它使用顶级学术模型和现代统计机器学习来执行各种复杂任务,例如构建文档或单词向量,Corpora,执行主题识别,执行文档比较(检索语义相似的文档),分析纯文本文档的语义结构。听众对于对自然语言处理(NLP),主题建模感兴趣或将这些主题作为课程一部分的研究生,研究生和研究型学生,本教程将非常有用。读者可以是初...

  Gensim-简介

📅  最后修改于: 2020-10-16 02:20:37        🧑  作者: Mango

本章将帮助您了解Gensim的历史和功能,以及其用法和优点。什么是Gensim?Gensim =“生成类似”是流行的开源自然语言处理(NLP)库,用于无监督主题建模。它使用顶级学术模型和现代统计机器学习来执行各种复杂的任务,例如-建立文件或文字向量语料库执行主题识别执行文档比较(检索语义相似的文档)分析纯文本文档的语义结构除了执行上述复杂任务外,Gensim还以Python和Cython实现,旨在...

  Gensim-入门

📅  最后修改于: 2020-10-16 02:20:59        🧑  作者: Mango

本章介绍了安装Gensim的先决条件,其核心依赖性以及有关其当前版本的信息。先决条件为了安装Gensim,我们必须在计算机上安装Python 。您可以转到链接www。 Python.org / downloads /,然后为您的操作系统选择最新版本,例如Windows和Linux / Unix。您可以参考链接www.tutorialspoint.com/python3/index.htm以获得有关...

  Gensim-文档和语料库

📅  最后修改于: 2020-10-16 02:21:44        🧑  作者: Mango

在这里,我们将学习Gensim的核心概念,主要关注文档和语料库。Gensim的核心概念以下是理解和使用Gensim所需的核心概念和术语-文档-ZIt指一些文本。语料库-指文件的集合。向量-文档的数学表示形式称为向量。模型-它是指用于将向量从一种表示转换为另一种表示的算法。什么是文件?如所讨论的,它指的是一些文本。如果我们详细介绍一下,它是文本序列类型的对象,在Python 3中称为“ str”。例...

  Gensim-矢量和模型

📅  最后修改于: 2020-10-16 02:22:34        🧑  作者: Mango

在这里,我们将学习Gensim的核心概念,主要关注向量和模型。什么是向量?如果我们想推断语料库中的潜在结构怎么办?为此,我们需要以一种可以在数学上操纵它们的方式来表示文档。一种流行的表示形式是将语料库的每个文档表示为特征的向量。这就是为什么我们可以说向量是文档的数学方便表示的原因。举一个例子,让我们将上面使用过的语料库的一个功能表示为QA对-问–您好单词在文档中出现了几次?A-零(0)。问-文件中...

  Gensim-创建字典

📅  最后修改于: 2020-10-16 02:23:26        🧑  作者: Mango

在我们讨论向量和模型的上一章中,您对字典有了一个了解。在这里,我们将更详细地讨论Dictionary对象。什么是字典?在深入研究字典的概念之前,让我们了解一些简单的NLP概念-令牌-令牌表示“单词”。文档-文档指的是句子或段落。语料库-它指的是文档集合,称为单词袋(BoW)。对于所有文档,语料库始终包含每个单词的令牌的ID及其在文档中的频率计数。让我们转到Gensim中的字典概念。为了处理文本文档...

  Gensim-创建单词袋(BoW)语料库

📅  最后修改于: 2020-10-16 02:24:03        🧑  作者: Mango

我们已经了解了如何从文档列表和文本文件(一个或多个)创建字典。现在,在本节中,我们将创建一个单词袋(BoW)语料库。为了与Gensim合作,它是我们需要熟悉的最重要的对象之一。基本上,每个文档中包含单词id及其频率的都是语料库。创建BoW语料库如前所述,在Gensim中,语料库在每个文档中都包含单词id及其频率。我们可以从简单的文档列表和文本文件创建BoW语料库。我们需要做的是,将单词的标记化列表...

  Gensim-转换

📅  最后修改于: 2020-10-16 02:26:32        🧑  作者: Mango

本章将帮助您学习Gensim中的各种转换。让我们首先了解转换文档。转换文件转换文档意味着以一种可以对数学进行操作的方式来表示文档。除了推导语料库的潜在结构外,转换文档还可以实现以下目标:它发现单词之间的关系。它带出了语料库中的隐藏结构。它以一种新的,更具语义的方式描述了文档。它使文档的表示更加紧凑。因为新的表示消耗更少的资源,所以它提高了效率。由于在新的表示形式中忽略了边际数据趋势,因此提高了功效...

  Gensim-创建TF-IDF矩阵

📅  最后修改于: 2020-10-16 02:27:23        🧑  作者: Mango

在这里,我们将学习如何在Gensim的帮助下创建词频-反文档频度(TF-IDF)矩阵。什么是TF-IDF?这是术语频率-逆文档频率模型,它也是一个词袋模型。它与常规语料库不同,因为它降低了权标的权重,即在文档中频繁出现的单词。在初始化期间,此tf-idf模型算法期望训练整数具有整数值(例如词袋模型)。然后,在转换时,它接受一个矢量表示并返回另一个矢量表示。输出向量将具有相同的维数,但稀有特征的值(...

  Gensim-主题建模

📅  最后修改于: 2020-10-16 02:28:02        🧑  作者: Mango

本章涉及有关Gensim的主题建模。要注释我们的数据并理解句子结构,最好的方法之一是使用计算语言算法。毫无疑问,借助这些计算语言算法,我们可以了解有关数据的一些更详细的信息,但是,我们能否知道在我们的语料库中出现的单词比其他单词更常见?我们可以对数据进行分组吗?我们可以在数据中成为基础主题吗?通过主题建模,我们将能够实现所有这些目标。因此,让我们深入探讨主题模型的概念。什么是主题模型?主题模型可以...

  Gensim-创建LDA主题模型

📅  最后修改于: 2020-10-16 02:28:47        🧑  作者: Mango

本章将帮助您学习如何在Gensim中创建潜在Dirichlet分配(LDA)主题模型。在NLP的主要应用之一(自然语言处理)中,自动从大量文本中提取有关主题的信息。大量文本可能来自酒店评论,tweet,Facebook帖子,来自任何其他社交媒体频道的评论,电影评论,新闻报道,用户反馈,电子邮件等。在这个数字时代,了解人们/客户在谈论什么,了解他们的观点和问题,对于企业,政治运动和管理人员来说都是非...

  Gensim-使用LDA主题模型

📅  最后修改于: 2020-10-16 02:29:12        🧑  作者: Mango

在本章中,我们将了解如何使用潜在Dirichlet分配(LDA)主题模型。在LDA模型中查看主题上面创建的LDA模型(lda_model)可用于查看文档中的主题。可以在以下脚本的帮助下完成-输出计算模型的困惑上面创建的LDA模型(lda_model)可用于计算模型的困惑度,即模型的质量。分数越低,模型越好。可以在以下脚本的帮助下完成-输出计算一致性得分上面创建的LDA模型(lda_model)可用...

  Gensim-创建LDA槌模型

📅  最后修改于: 2020-10-16 02:29:40        🧑  作者: Mango

本章将解释什么是潜在狄利克雷分配(LDA)槌模型,以及如何在Gensim中创建该模型。在上一节中,我们实现了LDA模型,并从20Newsgroup数据集的文档中获取主题。那是Gensim的LDA算法的内置版本。也有Gensim的槌状版本,可以提供更好的主题质量。在这里,我们将在已经实现的上一个示例中应用Mallet的LDA。什么是LDA木槌模型?Mallet是一个开放源代码工具包,由Andrew ...

  Gensim-文档和LDA模型

📅  最后修改于: 2020-10-16 02:30:22        🧑  作者: Mango

本章讨论Gensim中的文档和LDA模型。寻找LDA的最佳主题数通过创建具有不同主题值的许多LDA模型,我们可以找到LDA的最佳主题数。在这些LDA中,我们可以选择一个具有最高一致性值的LDA。以下名为coherence_values_computation()的函数将训练多个LDA模型。还将提供模型及其相应的一致性得分-现在,在以下代码的帮助下,我们可以获得最佳主题数,我们也可以借助图形来显示这...

  Gensim-创建LSI和HDP主题模型

📅  最后修改于: 2020-10-16 02:31:21        🧑  作者: Mango

本章介绍有关Gensim的潜在语义索引(LSI)和分层Dirichlet过程(HDP)主题模型的创建。最初在Gensim中使用潜在狄利克雷分配(LDA)实现的主题建模算法是潜在语义索引(LSI)。它也被称为潜在语义分析(LSA)。它于1988年由Scott Deerwester,Susan Dumais,George Furnas,Richard Harshman,Thomas Landaur,K...