这个词搜索引擎与谷歌产生了共鸣,谷歌是目前使用的最强大和最受欢迎的网络搜索媒体之一。在 Google 搜索栏中输入的任何查询都会返回数百个相应的网页。然而,鲜为人知的事实是,支持 Google 令人难以置信的能力的技术属于用于进行快速探索的搜索技术类别。
传统的搜索框查询方法如下:
- 通过搜索引擎数据库搜索
- 相关网页的识别
- 显示搜索引擎结果页面 (SERP)
所有搜索引擎都努力提供从万维网传送相关页面的服务,但生成列表的方式因使用的搜索引擎类型和算法而异。搜索引擎的主要类型及其工作方式是:
- 基于爬虫的搜索引擎:这些搜索引擎通常具有三个主要组件:
- 爬虫或蜘蛛:蜘蛛是部署在网络上的软件代理或机器人,并生成一个单词列表作为短语以及它们出现的位置(URL)——这个过程称为爬行。蜘蛛从受欢迎的页面或频繁使用的服务器开始,并跟踪站点上可用的每个链接。这样,蜘蛛就可以穿透网络来淹没搜索引擎的数据库。蜘蛛定期返回这些站点以查找更新。这些步行者不断地爬行网络的动态世界,以保持引擎高效运行。
- 索引器:数据库中的蜘蛛检索到的所有信息——短语列表和 URL 被编码并组织成一个可理解的结构,称为索引。通常用于此的数据结构是哈希表、哈希映射或倒排索引。倒排索引数据结构在基于关键字的查询中非常有效,并且使信息检索方便,就像大多数教科书末尾的索引一样。因此,索引器将单词连同它们在不同位置的出现和分配的权重(比如基于出现的频率)一起存储在一个准备检索的有组织的结构中。
- 查询处理器:这个最后的组件接受搜索查询,并通过索引中的数百万个条目来查找相关匹配项。搜索引擎采用不同的计算技术来确定各种页面的相关性,然后根据页面排名算法对这些页面进行排名并最终呈现给用户。算法采用的排名系统取决于各种查询相关因素(例如字数频率、文档语言、地理位置)和查询无关因素(例如文档流行度、文档质量)。最终呈现的 SERP 包括已处理的搜索结果和付费搜索结果。
必应、雅虎、百度、Yandex、DuckDuckGo、AOL 和 Ask 都属于这一类搜索引擎。
- 人力目录:接下来,我们有基于目录的操作,其中 Web 链接被组织到目录或主题目录中,很像教科书中的前面索引。与传统的自动化相反,该引擎利用人力进行这种分类。搜索在此目录中进行,该目录由网站和简短描述构成。在大多数情况下,实际人员会搜索现有网站,对其进行审查并将其与描述一起添加到目录中。各种页面按主题分类以创建层次结构,其中相似的页面被放在同一主题下并根据相关性进行排名。用户搜索查询将返回此目录中最有利和预期描述的列表。与目录搜索结果一起,最终列表还包括付费结果,这些结果再次排名。避免了任何相关性差异,因为一个专门的基于人类的工作组确定网络结果,而不是复杂的算法。这里的重点在于响应的相关性,因为搜索查询仅限于网页,而不是传统引擎,传统引擎为给定查询返回数千个网页。
Open Directory、LookSmart、Chacha、Mahalo 甚至雅虎一度都属于这一类搜索引擎。 - 混合搜索引擎:上述两种搜索引擎技术在其功能上是对立的,每种技术都有其自身的优势。基于爬虫的搜索引擎适用于特定查询,但在提供一般查询的相关结果方面效果不佳。然而,人工目录在一般查询的情况下提供更好的结果,但在特定查询的情况下无法提供相同的效率。因此,顾名思义,混合搜索引擎结合了基于爬虫的搜索引擎和目录结果。
雅虎、MSN 和谷歌采用这种技术来呈现他们的搜索结果。 - 元搜索引擎:这些获取所有其他搜索引擎的结果并将它们组合起来以创建更大的结果列表。通过同时从第三方搜索引擎的索引收集结果,这些引擎收集了广泛的页面。这些结果被处理、排序并呈现给用户。但是,这种方法在去除冗余后对给定查询的结果数量很少,不能完全满足用户的要求。
Dogpile、Metaseek 和 Savvysearch 是此类元搜索引擎的几个示例。
除了上述搜索引擎,各种其他类型的搜索技术也在试图吸引用户的注意力,例如计算搜索引擎 WolframAlpha 和语义搜索引擎 Swoogle。随着万维网的覆盖面越来越广,搜索引擎不断加速,为我们不断的查询提供即时、轻松和相关的响应。