📜  robots.txt 文件(1)

📅  最后修改于: 2023-12-03 15:19:50.831000             🧑  作者: Mango

robots.txt 文件介绍

简介

robots.txt 文件是站点管理者使用的一个文件,它位于网站的根目录下,用于告诉搜索引擎哪些页面可以被检索,哪些页面不能被检索。这个文件并不是强制性的,如果站点管理者不想让它存在,那么也是可以的。

编写规则
语法规则

robots.txt 文件的语法既简单又严格,只有两个关键字:

  • User-agent:用来说明搜索引擎蜘蛛类型或名称
  • Disallow:用来说明不允许搜索引擎访问的目录或文件
操作规则

规则表述:

  • 每个蜘蛛必须访问robots.txt文件,而不是直接访问你站点的每个目录和文件。
  • robots.txt文件必须放在站点的根目录,而不是任意一个子目录下
  • robots.txt文件对每个蜘蛛都适用,它们都必须遵守robots.txt文件里描述的规则
  • 如果一个蜘蛛对网站根目录下robots.txt的访问被拒绝,那么这个蜘蛛将不会再次尝试访问这个站点的任意文件,所以robots.txt文件的权限必须被严格限制
  • 如果你不想将某些目录放在搜索引擎里,你必须在robots.txt文件里用Disallow命令禁止搜索引擎蜘蛛访问这些文件夹
示例

下面是一个简单的robots.txt 文件:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

上面这个示例中,“*”代表所有的蜘蛛类型,Disallow指示搜索引擎至少不应该访问哪些部分的网站。在这个示例中,搜索引擎不应该访问网站的/cgi-bin//tmp/,和 /private/ 这三个目录。

注意事项
  • 编写robots.txt 文件时一定要注意语法的正确性。
  • 制定的规则不一定会被所有的搜索引擎所遵循,也并不是所有的搜索引擎都能识别robots.txt 文件。
  • 网站敏感的信息,如数据库参数,密码等不应该放到 robots.txt文件中。
  • 网站管理员不应该将 robots.txt 文件作为安全控制的规则之一,因为该文件是可以被搜索引擎蜘蛛所忽略的。
参考文献