信息检索 (IR)可以定义为处理组织、存储、检索和评估来自文档存储库的信息(尤其是文本信息)的软件程序。信息检索是获取材料的活动,这些材料通常可以以非结构化的形式记录下来,即通常是满足信息需求的文本,这些材料来自存储在计算机上的大型馆藏。例如,信息检索可以是用户在系统中输入查询。
不仅图书馆员、专业搜索者等从事信息检索活动,而且如今每天有数亿人在使用网络搜索引擎时参与信息检索。信息检索被认为是信息访问的主要形式。 IR 系统帮助用户找到他们需要的信息,但它不会明确返回问题的答案。它通知可能包含所需信息的文档的存在和位置。信息检索还扩展了对用户浏览或过滤文档集合或处理一组检索文档的支持。该系统搜索存储在数百万台计算机上的数十亿份文档。电子邮件程序提供了垃圾邮件过滤器、手动或自动方式,用于对邮件进行分类,以便将其直接放入特定文件夹中。
IR 系统具有表示、存储、组织和访问信息项的能力。搜索需要一组关键字。关键字是人们在搜索引擎中搜索的内容。这些关键字总结了信息的描述。
什么是 IR 模型?
信息检索 (IR) 模型选择并排列用户所需或用户以查询形式请求的文档。文档和查询以类似的方式表示,因此可以通过匹配函数形式化文档选择和排序,该函数返回集合中每个文档的检索状态值 (RSV) 。许多信息检索系统通过一组描述符表示文档内容,称为术语,属于词汇表 V。 IR 模型根据四种主要方法确定查询文档匹配函数:
The estimation of the probability of user’s relevance rel for each document d and query q with respect to a set R q of training documents:
Prob (rel|d, q, Rq)
IR 模型的类型
信息检索/IR模型的组成部分
- 获取:在此步骤中,从由基于文本的文档组成的各种 Web 资源中选择文档和其他对象。所需的数据由网络爬虫收集并存储在数据库中。
- 表示:它由包含自由文本术语、受控词汇、手动和自动技术的索引组成。示例:摘要包含摘要和书目描述,其中包含作者、标题、来源、数据和元数据。
- 文件组织:有两种类型的文件组织方法。 ie Sequential : 它包含文档数据的文档。 Inverted : 它包含一个词条,每个词条下的记录列表。两者的结合。
- 查询:当用户在系统中输入查询时,IR 流程开始。查询是信息需求的正式陈述,例如,网络搜索引擎中的搜索字符串。在信息检索中,查询不会唯一标识集合中的单个对象。相反,多个对象可能与查询匹配,可能具有不同程度的相关性。
信息检索和数据检索的区别
Information Retrieval | Data Retrieval |
---|---|
The softwarethe program that deals with the organization, storage, retrieval, and evaluation of information from document repositories particularly textual information. | Data retrieval deals with obtaining data from a database management system such as ODBMS. It is A process of identifying and retrieving the data from the database, based on the query provided by user or application. |
Retrieves information about a subject. | Determines the keywords in the user query and retrieves the data. |
Small errors are likely to go unnoticed. | A single error object means total failure. |
Not always well structured and is semantically ambiguous. | Has a well-defined structure and semantics. |
Does not provide a solution to the user of the database system. | Provides solutions to the user of the database system. |
The results obtained are approximate matches. | The results obtained are exact matches. |
Results are ordered by relevance. | Results are unordered by relevance. |
It is a probabilistic model. | It is a deterministic model. |
用户与信息检索系统的交互
用户任务:首先应该将信息转换为用户的查询。在信息检索系统中,有一组词传达所需信息的语义,而在数据检索系统中,查询表达式用于传达对象满足的约束。示例:用户想要搜索某物,但最终搜索了另一件事。这意味着用户正在浏览而不是搜索。上图展示了用户通过不同任务的交互。
- 文档的逻辑视图:很久以前,文档是通过一组索引词或关键字来表示的。如今,现代计算机通过一整套词来表示文档,这减少了代表性关键字的集合。这可以通过消除停用词(即文章和连接词)来完成。这些操作是文本操作。这些文本操作降低了从全文到索引词集的文档表示的复杂性。
信息检索的过去、现在和未来
1. 早期发展:随着对大量信息需求的增加,有必要构建数据结构以获得更快的访问速度。索引是用于更快地检索信息的数据结构。几个世纪以来,手工对索引进行了层次结构分类。
2. 图书馆信息检索: 图书馆率先采用信息检索系统进行信息检索。在第一代中,它由以前技术的自动化组成,并且基于作者姓名和标题进行搜索。第二代包括主题词、关键词等检索。第三代包括图形界面、电子表格、超文本特征等。
3. 网络和数字图书馆:它比各种信息来源便宜,由于数字通信,它提供了更多的网络访问,并且可以免费访问在更大的媒体上发表。