📅  最后修改于: 2023-12-03 15:20:40.835000             🧑  作者: Mango
Robots.txt 是一种被用来告诉搜索引擎哪些网页可以被爬取,哪些不能被爬取的方法。当搜索机器人访问一个网站时,它们会查找 robots.txt 文件,以确定它们是否被允许访问该网站的某些部分。
Robots.txt 文件应该放在网站的根目录下,并遵循以下基本语法:
User-agent: [user-agent name]
Disallow: [URL string not to be crawled]
User-agent: *
Disallow: /
其中,User-agent 指定搜索引擎爬虫的名称,Disallow 指定了哪些页面不允许爬取。 第二个例子中,User-agent: *
表示禁止所有的爬虫访问整个网站。
除了 Disallow 外,Robots.txt 文件还可以使用以下命令:
Allow: [URL string to be crawled]
允许爬虫访问某些页面Crawl-delay: [number of seconds]
设置爬虫抓取页面的时间间隔Sitemap: [URL of your sitemap]
指定网站地图的 URL 地址User-agent: [user-agent name]
指定针对特定搜索引擎爬虫的规则以下是一个 robots.txt 的示例:
User-agent: *
Disallow: /private/
Disallow: /secret/
User-agent: Googlebot
Disallow: /temp/
Allow: /temp/public/
Crawl-delay: 10
Sitemap: http://www.example.com/sitemap.xml
在这个例子中,除了 Googlebot 爬虫外,所有爬虫都不允许访问 /private/ 和 /secret/ 目录。 Googlebot 爬虫可以访问 /temp/public/ 目录,但不能访问 /temp/ 目录,并且每次抓取页面之间间隔至少 10 秒。最后,网站地图的 URL 地址是 http://www.example.com/sitemap.xml。
Robots.txt 文件不会阻止恶意爬虫或攻击行为,只是向搜索引擎爬虫提供了一种更有效的方式来爬取您网站上的内容。
参考资料: Robotstxt.org