毫升 |基于用户查询的链接文本摘要
每当用户在互联网上搜索特定信息时,都会返回多个结果,这些结果以各种方式进行解释。理解信息变得困难和耗时。
例如,当用户在 Google 上搜索“机器学习”时,返回的结果数量。谷歌返回的与“机器学习”相关的结果以不同的方式解释了“机器学习”。理解“机器学习”的各种定义变得困难且耗时。因此,鉴于人们繁忙的日程安排和互联网上可用的大量信息,需要基于用户查询自动汇总链接。
文本摘要简介:
文本摘要是创建仅包含重要信息的文本的较短版本的过程,因此可以帮助用户在更短的时间内理解文本。文本摘要的主要优点在于它减少了用户搜索文档中重要细节的时间。
总结文本文档有两种主要方法 -
- 提取方法:它涉及从原始文本中选择短语和句子并将其包含在最终摘要中。
例子:
Original Text : Python is a high-level, interpreted, interactive and object-oriented scripting language.Python is a great language for the beginner-level programmers.
Extractive Summary : Python is a high-level scripting language is great language for beginner-level programmers.
- 抽象方法:抽象方法涉及生成全新的短语和句子以捕获源文档的含义。
例子:
Original Text : Python is a high-level, interpreted, interactive and object-oriented scripting language.Python is a great language for the beginner-level programmers
Abstractive Summary : Python is interpreted and interactive language and it is easy to learn.
当我们比较两种方法的摘要时,我们发现最适合创建摘要的抽象方法。抽象方法创建的摘要是我们人类创建的摘要。尽管是最好的,但抽象方法并没有取得太多进展。
解决方案-
冲浪问题可以通过以下步骤解决:
- 允许用户输入查询。(在网络应用程序或应用程序上。)
- 如果查询有效,请在 google 上搜索查询。
- 谷歌会返回多个查询相关的结果,提取第一页的所有链接(因为链接与用户查询高度相关)
- 从所有链接中抓取并清理数据并将其存储在文本文件中。
- 将数据发送到机器学习模型以生成摘要(抽象)
参考:
https://machinelearningmastery.com/gentle-introduction-text-summarization/
https://ai.googleblog.com/2016/08/text-summarization-with-tensorflow.html