📜  项目理念 |领域术语检测和分层概念创建

📅  最后修改于: 2022-05-13 01:57:41.584000             🧑  作者: Mango

项目理念 |领域术语检测和分层概念创建

项目名称:领域术语检测和分层概念创建

简介:领域术语检测和层次概念创建,其中给定一组文档,主要目的是识别特定领域的术语,这意味着从给定的大集合文章中,尝试为每篇文章提取域,并创建概念的层次表示以及这些概念下的进一步集群文件。通过这个任何人都可以搜索,如果从文章中搜索到经济作为域,那么它将以经济作为父节点,在经济下它可以有它的子节点,依此类推,这意味着如果搜索的关键字是经济,那么哪个是重要的关键字然后相关像通货膨胀一样的经济一词,所有商品都属于经济,就好像它遵循父子关系一样。

提供的功能

  • 自动提取关键字。
  • 自动确定提取的关键字是名词、代词等等。
  • 关系提取。
  • 词义消歧的自动检查。
  • 用户可以将关键字集群在不同的集群中。
  • 维护关键字的父子关系的树状结构。

流程图:

数据结构和算法

  • 数据预处理:标记化
  • 停用词
  • 实体提取
  • LDA(潜在狄利克雷分配)
  • 引导式 LDA(Laten Dirichlet 分配)
  • 词干和词形还原。
  • 特征提取:使用 TI_IDF Vectorizer(词频和逆频域)对数据进行向量化。
  • 使用 LSA(潜在语义分析)的降维
  • 聚类潜在向量。
  • 基于密度的噪声应用空间聚类 (DBSCAN)
  • K 均值聚类。

使用的工具: Sparql 数据库、 Python、Jupyternotebook、StandfordcoreNLP、数据可视化

使用的图书馆。

  • Sematch - 比较单词相似度 它有基于 Wordnet、DBPedia、YOGO 的相似度算法。
  • Hypernym and Meronym – 用于从给定文本中提取专有名词的库。
  • Pydot - 用于创建给定关键字的向下层次结构,如树。
  • Pandas - 用于读取 CSV 文件。
  • 海博恩。
  • Matplot库

    .

在职的。
为这个项目应用 NLP(自然语言处理)首先从网上收集报纸上的所有文章,然后应用各种算法,因为众所周知,所有获取的文本基本上都是非结构化的,并且不适合模型非结构化文本,因此应用各种算法进行结构化。正如我们所知,如果有人试图在谷歌中找到经济之类的相关关键字,也会出现来自该相关关键字,基本上遵循从上到下的层次结构的父子关系。所以用户可以很容易的知道,如果搜索的关键词是Economy,那么用户可以用树形的方式来相同的词义,效率很高。用户可以很容易地从一组给定的文本中检测出主要的重要关键字。用户可以很容易地从给定的单词中找出词性(pos),只有将提供句子,用户将自动获得 pos。用户可以很容易地看到同一种词的聚类。用户可以将信息存储在 SPARQL 数据库中。

重要点我在递归方法后发现了什么。
在阅读了很多关于 Wordnet 的内容后,我注意到最重要的一点是 Wordnet 的范围有限且耗时。 WordNet 没有概率的概念。 WordNet 存储它与其他单词的关系列表,但不存储在正常使用中该关系出现的概率。

注意:此项目创意由Shwetabh Shekhar为 ProGeek Cup 2.0 贡献 - GeeksforGeeks 的项目竞赛。