📜  IR 系统中的查询类型

📅  最后修改于: 2021-10-19 05:49:07             🧑  作者: Mango

在索引过程中,许多关键字与包含单词、短语、创建日期、作者姓名和文档类型的文档集相关联。 IR 系统使用它们来构建倒排索引,然后在搜索过程中参考该索引。将用户制定的查询与索引关键字集进行比较。大多数 IR 系统还允许使用布尔运算符和其他运算符来构建复杂的查询。带有这些运算符的查询语言丰富了用户信息需求的表达能力。

信息检索 (IR) 系统根据用户查询从大数据集中查找相关文档。用户向搜索引擎提交的查询可能含糊不清、简明扼要,其含义可能会随着时间而改变。 IR 系统中的一些查询类型是 –

1. 关键字查询:

  • 最简单和最常见的查询。
  • 用户只需输入关键字组合即可检索文档。
  • 这些关键字由逻辑 AND运算符连接。
  • 所有检索模型都支持关键字查询。

2. 布尔查询:

  • 一些 IR 系统允许在关键字公式组合中使用 +、-、AND、OR、NOT、( )、布尔运算符。
  • 不涉及排名,因为文档要么满足这样的查询,要么不满足它。
  • 如果文档中的精确匹配在逻辑上为真,则为布尔查询检索文档。

3. 阶段查询:

  • 当使用倒排关键字索引来表示文档进行搜索时,文档中项目的相对顺序会丢失。
  • 为了执行精确的相位检索,这些相位被编码在倒排索引中或以不同的方式实现。
  • 此查询由构成阶段的一系列单词组成。
  • 它通常用双引号括起来。

4. 邻近查询:

  • 接近度是指考虑记录内多个项目彼此之间的接近程度的搜索。
  • 最常用的邻近搜索选项是阶段搜索,它要求术语按精确顺序排列。
  • 其他邻近运算符可以指定术语彼此之间的接近程度。有些会指定搜索词的顺序。
  • 搜索引擎使用各种运算符名称,例如 NEAR、ADJ(相邻)或 AFTER。
  • 然而,为复杂的邻近运算符提供支持变得昂贵,因为它需要耗时的文档预处理,因此它适用于较小的文档集合而不是 Web。

5. 通配符查询:

  • 它支持正则表达式和基于模式匹配的文本搜索。
  • 检索模型不直接支持这种查询类型。
  • 在 IR 系统中,可以实现某些类型的通配符搜索支持。示例:通常以尾随字符结尾的单词。

6. 自然语言查询:

  • 只有少数自然语言搜索引擎旨在理解以自然语言文本编写的查询的结构和含义,通常是问题或叙述。
  • 系统尝试根据检索到的结果为这些查询制定答案。
  • 语义模型可以为这种查询类型提供支持。