项目理念 |领域术语检测和分层概念创建

项目名称：领域术语检测和分层概念创建

简介：领域术语检测和层次概念创建，其中给定一组文档，主要目的是识别特定领域的术语，这意味着从给定的大集合文章中，尝试为每篇文章提取域，并创建概念的层次表示以及这些概念下的进一步集群文件。通过这个任何人都可以搜索，如果从文章中搜索到经济作为域，那么它将以经济作为父节点，在经济下它可以有它的子节点，依此类推，这意味着如果搜索的关键字是经济，那么哪个是重要的关键字然后相关像通货膨胀一样的经济一词，所有商品都属于经济，就好像它遵循父子关系一样。

提供的功能

自动提取关键字。
自动确定提取的关键字是名词、代词等等。
关系提取。
词义消歧的自动检查。
用户可以将关键字集群在不同的集群中。
维护关键字的父子关系的树状结构。

流程图：

数据结构和算法

数据预处理：标记化
停用词
实体提取
LDA（潜在狄利克雷分配）
引导式 LDA（Laten Dirichlet 分配）
词干和词形还原。
特征提取：使用 TI_IDF Vectorizer（词频和逆频域）对数据进行向量化。
使用 LSA（潜在语义分析）的降维
聚类潜在向量。
基于密度的噪声应用空间聚类 (DBSCAN)
K 均值聚类。

使用的工具： Sparql 数据库、 Python、Jupyternotebook、StandfordcoreNLP、数据可视化

使用的图书馆。

Sematch - 比较单词相似度它有基于 Wordnet、DBPedia、YOGO 的相似度算法。
Hypernym and Meronym – 用于从给定文本中提取专有名词的库。
Pydot - 用于创建给定关键字的向下层次结构，如树。
Pandas - 用于读取 CSV 文件。
海博恩。
Matplot库
.

在职的。
为这个项目应用 NLP（自然语言处理）首先从网上收集报纸上的所有文章，然后应用各种算法，因为众所周知，所有获取的文本基本上都是非结构化的，并且不适合模型非结构化文本，因此应用各种算法进行结构化。正如我们所知，如果有人试图在谷歌中找到经济之类的相关关键字，也会出现来自该相关关键字，基本上遵循从上到下的层次结构的父子关系。所以用户可以很容易的知道，如果搜索的关键词是Economy，那么用户可以用树形的方式来相同的词义，效率很高。用户可以很容易地从一组给定的文本中检测出主要的重要关键字。用户可以很容易地从给定的单词中找出词性（pos），只有将提供句子，用户将自动获得 pos。用户可以很容易地看到同一种词的聚类。用户可以将信息存储在 SPARQL 数据库中。

重要点我在递归方法后发现了什么。
在阅读了很多关于 Wordnet 的内容后，我注意到最重要的一点是 Wordnet 的范围有限且耗时。 WordNet 没有概率的概念。 WordNet 存储它与其他单词的关系列表，但不存储在正常使用中该关系出现的概率。

注意：此项目创意由Shwetabh Shekhar为 ProGeek Cup 2.0 贡献 - GeeksforGeeks 的项目竞赛。