robots.txt 文件(1) - 芒果文档

📌 相关文章

📜 robots.txt 文件(1)

📅 最后修改于: 2023-12-03 15:19:50.831000 🧑 作者: Mango

robots.txt 文件介绍

简介

robots.txt 文件是站点管理者使用的一个文件，它位于网站的根目录下，用于告诉搜索引擎哪些页面可以被检索，哪些页面不能被检索。这个文件并不是强制性的，如果站点管理者不想让它存在，那么也是可以的。

编写规则

语法规则

robots.txt 文件的语法既简单又严格，只有两个关键字：

User-agent：用来说明搜索引擎蜘蛛类型或名称
Disallow：用来说明不允许搜索引擎访问的目录或文件

操作规则

规则表述：

每个蜘蛛必须访问robots.txt文件，而不是直接访问你站点的每个目录和文件。
robots.txt文件必须放在站点的根目录，而不是任意一个子目录下
robots.txt文件对每个蜘蛛都适用，它们都必须遵守robots.txt文件里描述的规则
如果一个蜘蛛对网站根目录下robots.txt的访问被拒绝，那么这个蜘蛛将不会再次尝试访问这个站点的任意文件，所以robots.txt文件的权限必须被严格限制
如果你不想将某些目录放在搜索引擎里，你必须在robots.txt文件里用Disallow命令禁止搜索引擎蜘蛛访问这些文件夹

示例

下面是一个简单的robots.txt 文件：

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

上面这个示例中，“*”代表所有的蜘蛛类型，Disallow指示搜索引擎至少不应该访问哪些部分的网站。在这个示例中，搜索引擎不应该访问网站的/cgi-bin/，/tmp/，和 /private/ 这三个目录。

注意事项

编写robots.txt 文件时一定要注意语法的正确性。
制定的规则不一定会被所有的搜索引擎所遵循，也并不是所有的搜索引擎都能识别robots.txt 文件。
网站敏感的信息，如数据库参数，密码等不应该放到 robots.txt文件中。
网站管理员不应该将 robots.txt 文件作为安全控制的规则之一，因为该文件是可以被搜索引擎蜘蛛所忽略的。

参考文献