信息检索与信息提取的区别
提取的意思是“拉出”,而检索的意思是“回来”。信息检索是关于返回与特定查询或用户感兴趣的领域相关的信息。而信息提取更多地是从一组文档或信息中提取一般知识(或关系)。信息提取是获取数据并从中提取结构化信息的标准过程,以便可以将其用于各种目的,其中之一可能是在搜索引擎中。
信息检索:
信息检索是指当我们使用机器在某些信息中搜索与我们的搜索查询匹配的信息对象(内容)时发生的人机交互(HCI)。这完全是关于检索存储在数据库或计算机中并与用户需求相关的信息。将用户的查询与一组文档进行匹配以查找相关文档。请注意,这可能会导致一组文档的形式。
最初的文档/文本集和“检索什么”的查询都是信息检索系统中非常重要的部分。它正在从一组文档中搜索和查找相关文档。信息检索中使用了各种方法和技术。在信息检索系统中,我们使用自动化的 IR 系统来减少信息过载。
- 精确 -
它是检索到的与用户信息需求相关的文档数除以检索到的文档总数。 - 记起 -
它是检索到的与用户信息需求相关的文档数除以整个文档集中相关文档的总数。
信息检索中使用的各种技术有:
- 向量空间检索
- 布尔空间检索
- 术语-文档矩阵
- 基于块排序的索引
- Tf-idf 索引
- 各种聚类方法
信息提取:
信息提取的主要目标是从文档集中找出有意义的信息。 IE 是 IR 的一种。 IE 自动从一组非结构化文档或语料库中获取结构化信息。 IE 更侧重于人类可以阅读和编写的文本,并将它们与 NLP(自然语言处理)结合使用。但信息检索系统会找到与用户信息需求相关的信息,并将其存储在计算机中。它从大量尸体中返回文本文档(非结构化形式)。
在线文本提取中使用的信息提取系统应该是低成本的。它需要在开发中具有灵活性,并且必须能够轻松转换到新领域。我们以机器的自然语言处理为例,即这里的IE(信息提取)能够识别一个人需要的IR系统。使用信息提取,我们希望制造一台能够从文档中提取结构化信息的机器。信息提取系统的重要性取决于越来越多的以非结构化形式(没有元数据的数据)可用的信息,例如在 Internet 上。利用转换为关系形式或通过使用 XML 标记进行标记,可以使这些知识更容易获得。
我们总是尝试在信息提取中使用自动学习系统,并且我们总是使用它。这种类型的IE系统将减少信息提取中的故障。这也将通过减少对监督的要求来减少对域的依赖。结构化信息的 IE 依赖于基本的内容管理原则:“内容必须在上下文中才有价值”。信息提取比信息检索困难。
信息检索和信息提取的区别:
信息提取不是信息检索。传统的文本提取方法还返回一组可能与查询相关的文档子集。结果返回基于搜索关键字。
IE 的主要目标是从可能使用不同语言的文档中提取有意义的信息。这里有意义的信息包含各种类型的信息,如事件、事实、组件或关系。然后,这些事实通常会自动存储到数据库中,然后可用于分析数据的趋势、提供自然语言摘要或仅用于在线访问。更正式地说,信息提取从文档中获取事实,而信息检索获取相关文档集。 Information Retrieval Information Extraction 1. Document Retrieval Feature Retrieval 2. Return set of relevant documents Return facts out of documents 3. The goal is to find documents that are relevant to the user’s information need The goal is to extract pre-specified features from documents or display information. 4. Real information is buried inside documents Extract information from within the documents 5. The long listing of documents Aggregate over the entire set 6. Used in many search engines – Google is the best IR system for the web. Used in database systems to enter extracted features automatically. 7. Typically uses a bag of words model of the source text. Typically based on some form of semantic analysis of the source text. 8. Mostly use the theory of information, probability, and statistics. Emerged from research into rule-based systems.