信息检索中的准确率和召回率
信息系统可以用两个指标来衡量:准确率和召回率。当用户决定搜索某个主题的信息时,整个数据库和要获得的结果可以分为4类:
- 相关和检索
- 相关且未检索
- 不相关和检索
- 不相关且未检索
相关项目是帮助用户回答问题的那些文档。非相关项目是不提供实际有用信息的项目。对于每个项目,有两种可能性可以通过用户的查询检索或不检索。精度定义为相关和检索到的文档数(检索到的对用户实际有用并符合其搜索需求的项目数)与从查询中检索到的文档总数的比率。
召回率定义为检索到的相关文档的数量(检索到的与用户相关并符合其需求的项目数量)与可能的相关文档数量(数据库中相关文档的数量)的比率。精度为 1与特定搜索相关联的用户的信息检索开销的一个方面。如果搜索具有 85% 的精确度,那么 15(100-85)% 的用户工作是审查不相关项目的开销。
Recall 衡量处理特定查询的系统能够检索到用户有兴趣查看的相关项目的程度。召回是一个非常有用的概念,但由于分母在操作系统中是不可计算的。如果系统知道数据库中相关项目的总集合,则召回是可计算的。