📅  最后修改于: 2023-12-03 15:04:55.365000             🧑  作者: Mango
Robots.txt其实是一个文本文件,用于指示搜索引擎爬虫哪些页面可以被抓取,哪些页面不能被抓取。它是做SEO优化时候必不可少的一环。
Robots.txt 是遵守 Robots Exclusion Protocol 的标准,该标准由网站管理员使用,他们可以告诉Web爬虫哪些网页(或文件)不应该被查找或收录。除了搜索引擎爬虫之外,网站管理员还可以使用 Robots.txt 来控制其他网页抓取工具或蜘蛛程序的行为。
Robots.txt 文件并非强制性要求存在的。如果一个站点没有 Robots.txt,所有的搜索引擎蜘蛛都会被允许抓取所有的网页内容。因此,Robots.txt 的主要作用是针对不希望被收录的内容,告诉蜘蛛程序“请不要在此处索引”。
Robots.txt 文件需要存储在网站根目录下,其位置可以写作:https://example.com/robots.txt。此时,Robots.txt 中需要包含哪些信息呢?
当Web爬虫第一次爬取一个网站时,它首先会试图访问 Robots.txt 文件。如果爬虫无法找到 Robots.txt,则搜索引擎将从各个角度抓取站点的所有可用信息。如果 Robots.txt 存在于网站的根目录下,则用于声明规则的命令会对整个域名生效。
以下是一个简单的 Robots.txt 文件示例:
User-agent: *
Disallow: /
在这个示例中,*是一个通用字符,代表所有搜素引擎的爬虫;/代表所有的页面和文件。因此,这个 Robots.txt 文件告诉搜素引擎的爬虫不要抓取站点的任何内容。
又如,我们可以使用以下这些命令:
User-agent: bingbot
Disallow: /
User-agent: Googlebot
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /members/
在这个示例中,授权 Bingbot 将抓取站点的内容,但禁止 Googlebot 抓取 /cgi-bin/、/admin 和 /members 等文件夹中的内容。
Robots.txt 不要使用任何代码框架,只需要用 UTF-8 或 ASCII 编码格式的文本文件即可。
Robots.txt 不会防止独立的黑客或间谍软件对您的网站进行攻击,也不会防止有恶意企图的攻击。
Robots.txt 中使用的命令大小写不敏感,但请注意好用的大小写以增强可读性。
允许的路径可以使用通配符,例如: Disallow: /blog/*
, Disallow: */search/*
。
如果您想允许某些搜索引擎访问站点并正常收录网站,请不要 Robolt.txt 的内容保留空白。
Robin.txt 是一种可供Web管理员使用的文件格式,其用途在于允许在制定爬虫机器人访问网站时限制其在某些目录下爬取内容,不仅可以提高网站安全性,还可以保证许多不必要信息不被爬虫抓取,随之而来的带宽浪费也会减少。在编写 Robolt.txt 时,需要充分考虑到网站信息的安全性和可被检索的同时,也要注意其语法规范和合理性,尽可能的合理利用 Robolt.txt 来控制 Spider 的行为。