在索引过程中,许多关键字与文档集相关联,其中包含单词,短语,创建日期,作者姓名和文档类型。 IR系统使用它们来构建倒排索引,然后在搜索过程中进行查询。将用户制定的查询与索引关键字集进行比较。大多数IR系统还允许使用布尔值和其他运算符来构建复杂的查询。这些运算符的查询语言丰富了用户信息需求的表达能力。
信息检索(IR)系统根据用户查询从大量数据集中查找相关文档。用户向搜索引擎提交的查询可能是模棱两可的,简洁的,其含义可能会随时间而改变。 IR系统中的某些查询类型为–
1.关键字查询:
- 最简单,最常见的查询。
- 用户仅输入关键字组合即可检索文档。
- 这些关键字通过逻辑AND运算符连接。
- 所有检索模型都支持关键字查询。
2.布尔查询:
- 某些IR系统允许结合关键字公式使用+,-,AND,OR,NOT,(),布尔运算符。
- 由于文档满足或不满足此查询,因此不涉及排名。
- 如果文档在逻辑上与文档中的完全匹配为真,则检索该文档以进行布尔查询。
3.阶段查询:
- 当使用反向关键字索引表示文档以进行搜索时,文档中项目的相对顺序会丢失。
- 为了执行精确的相位检索,这些相位以倒排索引编码或以不同方式实现。
- 该查询由构成一个阶段的一系列单词组成。
- 它通常用双引号引起来。
4.邻近查询:
- 邻近度是指搜索,它说明一条记录中多个项目之间应该有多接近。
- 最常用的邻近搜索选项是阶段搜索,要求词条的顺序正确。
- 其他接近运算符可以指定术语之间的接近程度。有些会指定搜索词的顺序。
- 搜索引擎使用各种运算符名称,例如NEAR,ADJ(相邻)或AFTER。
- 但是,为复杂的接近运算符提供支持变得昂贵,因为它需要耗时的文档预处理,因此适合于较小的文档集合,而不是Web。
5.通配符查询:
- 它支持正则表达式和基于模式匹配的文本搜索。
- 检索模型不直接支持此查询类型。
- 在IR系统中,可以实现某些种类的通配符搜索支持。示例:通常以结尾字符结尾的单词。
6.自然语言查询:
- 仅有少数几种自然语言搜索引擎旨在了解以自然语言文本(通常是问题或叙述)形式编写的查询的结构和含义。
- 系统尝试根据检索到的结果为这些查询制定答案。
- 语义模型可以为这种查询类型提供支持。