📅  最后修改于: 2023-12-03 15:19:50.786000             🧑  作者: Mango
在网站开发中,搜索引擎爬虫会按照一定的规则来查找页面并进行索引。为了控制搜索爬虫的行为,我们可以使用 robots.txt
文件来限制某些页面的访问权限。
robots.txt
是一种文本文件,放置在网站的根目录下,用于告诉搜索引擎哪些页面可以被爬取,哪些不能被爬取。robots.txt
文件通常由搜索引擎爬虫在加载网站时自动读入。
robots.txt
文件由一系列的指令组成,每个指令包含两部分:User-agent 和 Disallow。
User-agent 用于指定搜索引擎爬虫的名称,一个 robots.txt
文件可以针对多个爬虫进行限制。
Disallow 用于指定不希望被爬虫索引的路径或页面,多个路径由逗号隔开。
例如,下面是一个 robots.txt
文件的示例:
User-agent: *
Disallow: /admin/
Disallow: /private/
上述示例中,User-agent 为通配符 *
,表示限制所有的搜索引擎爬虫。Disallow 指令限制了 /admin/
和 /private/
目录下的页面不被爬取。
robots.txt
文件可以在任何文本编辑器中编写,格式是文本格式,以 UTF-8 编码保存。在编写时可以使用任何大小写的字符,但惯例上大写字符用于 User-agent,小写字符用于 Disallow。
在编写完成后,需要把 robots.txt
文件放置在网站的根目录下。例如,如果网站的首页地址是 http://example.com/
,则 robots.txt
文件地址为 http://example.com/robots.txt
。
robots.txt
文件中定义一次,但可以定义多个 Disallow 指令;robots.txt
文件之前会先加载网站的 robots meta 标签,因此我们可以在 robots.txt
文件之外使用这些标签来进一步控制搜索引擎爬虫的行为;robots.txt
文件只能控制对一些搜索引擎爬虫的访问限制,但不能防止某些恶意爬虫的攻击,因此需要其他的安全控制措施来保护网站。[2]: https://en.wikipedia.org/wiki/Robots_exclusion_standard