项目理念 |文本摘要器
项目名称:文本摘要器
介绍:
今天我们知道机器已经变得比我们更聪明,可以帮助我们生活的方方面面,技术已经达到了可以完成人类所有任务的程度,比如家务、控制家用设备、预约等等。使这些事情发生的领域是机器学习。机器学习用一些数据训练机器,使其能够在通过类似类型的数据测试时采取行动。这些机器已经能够使用自然语言处理来理解人类语言。今天的研究正在文本分析领域进行。
正如项目标题所暗示的,Text Summarizer 是一个基于 Web 的应用程序,有助于总结文本。我们可以上传我们的数据,这个应用程序为我们提供了我们想要的多行数据的摘要。该产品主要是使用深度学习概念进行总结的文本。主要目的是提供可靠的网页摘要或上传文件取决于用户的选择。将丢弃不必要的句子以获得最重要的句子。
该产品包括以下组件:
文本解析器:它将文本分成段落、句子和单词。
• HTML 解析器:为了从网页的 URL 中提取文本,使用 HTML 解析器库。 HTML 解析是接收 HTML 代码并提取相关信息,如页面标题、页面中的段落、页面中的标题、链接、粗体文本等。
• 文档解析器:该库用于从文档中提取文本。使用文档解析器接口,文档解析器可以访问分配给文档的内容类型并将内容类型存储在文档本身中。此外,文档解析器可以更新存储在文档中的内容类型定义,使其与列表或文档库使用的内容类型定义的版本相匹配。
Feature Vector Creator:该组件将计算并获取句子的特征表示。
AutoEncoder:深度学习的根部。自动编码器提供给定句子的压缩表示。
NLTK: Nltk 是自然语言工具包库。它是一个用于构建Python程序以使用人类语言的平台。它为超过 50 个语料库和词汇资源(如 WordNet)提供易于使用的接口,以及一套用于分类、标记化、词干提取、标记、解析和语义推理的文本处理库,工业级 NLP 库的包装器,和一个活跃的讨论论坛。在文本摘要器中,该库用于删除英语词汇中的停用词并将这些词转换为词根形式。
LSM Summariser:此库用于创建提取文本的摘要。
分类器:分类器确定一个句子是否是摘要句。
文本类:文本类是系统中最复杂的类。它有段落、句子和单词。为了将文本分成这些部分,文本类应该有解析器方法。此外,该类中还有许多句子和段落数的属性。这些属性是计算句子特征所必需的。
段落类:段落类是系统的中间类。在段落对象中,对段落中的句子数量、段落在文本中的排名等句子特征进行一些必要的计算。它也有自己的解析器将段落分成句子。
句类:句类是系统中最重要的类。 Sentence 对象具有使用从文本、段落和单词类中获取的信息来计算自身特征值的方法。它有一个名为“功能”的浮动列表。 “特征”列表具有句子的特征值。系统将文本的句子对象的“特征”列表结合起来,并用它们组成一个特征矩阵。提到的自动编码器和分类器组件使用此特征矩阵。句子类也有自己的解析器来把句子分成单词。
词类:词类是系统最基本的类。使用 NLP API,我们可以获取单词的词根、词干和后缀部分,以及词的类型,例如动词或名词。同样使用 Word2Vec API,可以计算两个单词之间的余弦距离。这些属性用于计算句子的特征值。
特征:
主页:主页仅显示应用程序上可用的所有内容。
服务:它告诉应用程序提供的服务。这些服务包括文档摘要、网页摘要和安全交互。汇总数据将邮寄到他/她注册的用户的电子邮件中。
Portfolio:它给出了不同类型数据的文本摘要的一些实例。
演示:它提供了一个无需创建帐户即可获取摘要的平台。它询问您的文本和行数,即您想要的摘要行数。
登录和注册:它可以帮助您在 Text Summarizer Web 应用程序上创建一个帐户,以便您可以通过电子邮件收到您的结果。
使用的工具:
• 框架的后端是使用 Pycharm IDE 在 Python3 的 Django 框架中编写的。
• 前端由CSS 和Bootstrap 管理。
应用:
- 人们需要从文本中学到很多东西。但他们往往希望在这样做时花更少的时间。
- 它旨在通过向他们提供他们想要从中获取信息的文本摘要来解决这个问题。
- 该项目的目标是使这些摘要在文本意图方面尽可能重要。
- 用户将有资格选择摘要长度。
- 为用户提供流畅清晰的界面。
- 配置快速回复服务器系统。
团队成员:
- 罗汉·皮普拉尼
- 梅纳尔加巴
注意:这个项目想法是为 ProGeek Cup 2.0- GeeksforGeeks 的项目竞赛贡献的。