📅  最后修改于: 2023-12-03 15:19:50.831000             🧑  作者: Mango
robots.txt
文件是站点管理者使用的一个文件,它位于网站的根目录下,用于告诉搜索引擎哪些页面可以被检索,哪些页面不能被检索。这个文件并不是强制性的,如果站点管理者不想让它存在,那么也是可以的。
robots.txt
文件的语法既简单又严格,只有两个关键字:
规则表述:
下面是一个简单的robots.txt
文件:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
上面这个示例中,“*”代表所有的蜘蛛类型,Disallow指示搜索引擎至少不应该访问哪些部分的网站。在这个示例中,搜索引擎不应该访问网站的/cgi-bin/
,/tmp/
,和 /private/
这三个目录。
robots.txt
文件时一定要注意语法的正确性。