📜  什么是搜索引擎和 Google 页面排名?

📅  最后修改于: 2021-10-19 04:36:42             🧑  作者: Mango

世界各地的人们都转向搜索引擎提出一些琐碎的问题,至关重要的疑问,并几乎立即找到答案。搜索是互联网上最常用的操作之一。搜索引擎作为搜索工具是互联网上非常流行和常用的网站。搜索引擎是一种基于 Web 的程序,旨在从我们称为万维网的庞大资源数据库中搜索和组织内容。通常,要访问信息,用户需要知道存储在数据库中的网站的确切位置,即网站的 URL。

搜索引擎和页面排名

查找 URL 的工作是由搜索引擎完成的。当请求被发送到搜索引擎时,它会返回用户想要访问的网站的地址或链接,或者与请求的查询相关的内容。当搜索引擎在文章中找到相关内容时,将会有数百万个站点,给出的结果取决于用户正在使用的搜索以及这些搜索引擎使用的算法来给出最佳结果。

这一切是如何开始的?

互联网技术在短时间内实现了从不同地方传输信息的巨大飞跃。互联网为人们的生活方式带来了一场革命。今天,我们无法想象没有互联网的一天。当互联网技术向公众开放时,最初是作为国防网络项目开始的,当时只有 2800 个网站。只有像 1994 年的 ARCHIE 这样的基本搜索引擎可以将用户带到指定的网站。在这里,用户必须知道用户想要访问的网站的域名,并向 DNS 请求服务器发送请求,该服务器找到用于连接到用户请求的网站服务器的关联 IP 地址。

搜索引擎如何启动

但是到 1995 年底,大约有十万个网站,要知道每个网站的域名是非常不可能的。我们往往会忘记,互联网并没有神奇地带来在这个巨大的计算机网络中找到任何东西的能力,直到一些聪明的人认为互联网上的信息如果随时可用会更有用。这就是搜索引擎的概念诞生的时候。

1995 年后,搜索引擎世界发生了许多发展和变化。甚至网站也开始根据特定的搜索引擎添加有用和相关的内容来设计他们的页面。因此,搜索引擎开始使用称为网络爬虫或蜘蛛的机器人程序查看网站。这些是访问和查看站点内容、图像、它们链接到的其他页面并使用链接索引这些页面的网络程序。这些更像是一个索引字典,而不是一个可以提供最佳结果的真正搜索引擎。此外,一些像雅虎这样的公司手动对网站进行分类,因为他们无法跟上其他搜索引擎的步伐,因此失去了人气。如果有任何拼写错误,结果就会大不相同,最终可能会出现在垃圾邮件站点中。

搜索引擎如何工作?

现代搜索引擎的工作方式与过去大不相同。他们使用高级搜索算法来优化结果并向用户提供最佳结果。当用户在搜索引擎上进行查询时,搜索引擎实际上并没有运行程序来实时抓取整个万维网。不这样做的原因仅仅是因为目前互联网上有超过 10 亿个网站,并且每分钟增加 380 个。如果搜索引擎四处查看每个站点以找到用户想要访问的站点,那将花费很长时间。

因此,为了使搜索更快,搜索引擎会不断提前扫描网站以存储可能有助于用户以后搜索的信息。它的工作原理是互联网是一个由超链接连接的页面网络。在这些链接的帮助下,爬虫可以轻松地从一个站点跳到另一个站点,从这个站点跳到下一个站点,这个过程会不断迭代,直到访问并标记了一大堆站点。为了以闪电般的速度向用户提供结果,搜索引擎不断运行机器人程序,如爬行这些网站的蜘蛛程序,以收集它认为对用户很重要的信息。每次遇到超链接时,它甚至会跟踪并存储来自该站点的信息,并继续这样做,直到它访问了它可以从该初始网页找到的每个页面。对于它访问的每个站点,它通过将其添加到称为搜索索引的特殊数据库来记录搜索所需的任何信息,该数据库包含有关用于获取搜索结果的网站的所有信息。因此,当用户搜索任何内容时,它已经知道该索引中的答案。

如今,现代搜索引擎已经变得非常先进,它们不仅可以搜索我们在搜索栏中键入的单词,还可以理解的不仅仅是字符串。他们了解这些词的含义,以找到用户正在寻找的最佳匹配项。为了更好地理解用户输入的单词,这些现代搜索引擎使用机器学习,一种人工智能。这使算法不仅可以搜索单个关键字,还可以理解这些词的潜在含义。因此,只需按几下按键即可实现向用户传递信息的目标。

解决问题:此外,即使这种方法在执行搜索时也存在另一个主要问题,搜索引擎会查看搜索索引中的每个单词,以立即获取 Internet 上与这些单词相关的所有页面的列表。但是这种方法可能会返回数百万个包含这些关键字的页面。因此,当搜索引擎需要确定与用户最匹配的结果时,就会出现一个大问题。换句话说,搜索引擎需要对其结果进行排名,这导致了页面排名算法的发展。

什么是页面排名?

页面排名是一种排名算法,它根据算法认为用户最想要的内容来评估网站的重要性。它以谷歌创始人之一拉里佩奇的名字命名。这个算法是谷歌搜索引擎的核心。但只有谷歌和微软的 Bing 等许多其他搜索引擎也开发了自己的不同算法来对页面进行排名。谷歌开创了这种算法,通过考虑有多少其他网站链接到给定页面以及这些其他页面的重要性,为搜索选择最相关的结果。基本思想是,如果许多网站链接回一个网站,那么该网站可能是用户可能正在寻找的网站,并且是用户在其搜索结果中最有可能想要的网站。此外,该算法在确定重要性之前会根据其他一些因素进行检查,例如相关性、真实性、可信度、垃圾邮件。

它最初是由拉里佩奇在他的大学里发起的,目的是确定一篇研究论文的重要性。如果更多的其他论文引用了一篇论文,那么该论文具有更高的重要性,这就是他正在寻找的。页面排名以类似的方式工作,通过计算指向页面的链接的数量和质量来粗略确定网站的重要性,假设更重要的网站可能会收到更多来自外部网站的链接。在外行的术语中,页面排名是所有其他网站对网站重要性的投票。如果一个网站链接到另一个外部网站,那么它只是为该网站投票,而接收链接的网站则是从其他网站投票。

在技术方面,Page Rank(PR) 是一种分析算法,它为网络上超链接文档的每个元素分配一个数字权重,其唯一目的是衡量相对重要性。这个数字权重被称为 PR 或页面排名。这表示用户随机点击链接的可能性。拥有最高页面排名的网站将是用户进行相关搜索时显示的第一个结果。

示例:让我们假设用户搜索斯蒂芬霍金的“时间简史”一书的情况。考虑以下网站,如“amazon.com”、“astroboy.com”、“booky.com”、“originalreviewer.com”。
让我们假设用户想要购买的书被许多网站评论过,这些网站经常评论图书并建议他们的用户以最优惠的价格购买这本书的最佳地点,如“amazon.com”。如果著名评论家的其他文章和博客通过在他们的网站上删除链接来推荐“amazon.com”。此外,由于其他网站链接到这些评论网站的网站,因此它会被其他网站间接链接。由于许多网站链接到“amazon.com”,它的权重或 PageRank 增加,使其对用户更加重要和相关。因此,当用户在搜索引擎中搜索这本书时,最有可能出现的第一个结果将是“amazon.com”。

页面排名示例

搜索引擎已经成为现代社会不可或缺的一部分。人们总是使用搜索引擎来获得他们查询的答案。像谷歌这样的搜索引擎平均每秒处理超过 4 万个请求,相当于每天 35 亿次搜索。由于搜索引擎已经收集了个人数据以更快、更准确地提供结果,我们已经从在目录中搜索关键字显着发展到无需指定用户位置即可获得附近餐厅地址的水平。

搜索引擎为其用户提供了大量令人印象深刻的信息,其速度和便利性在几年前是少数人无法想象的。搜索引擎算法会及时更新,以提高交付速度和结果的准确性。搜索引擎作为全球使用最广泛的网站脱颖而出,拥有这些网站的公司每年赚取数十亿美元。但是,所有这些搜索引擎都为人们提供了大量服务,但人们对其运作方式及其复杂程度知之甚少或一无所知。确实他们不需要。