📅  最后修改于: 2023-12-03 14:48:41.376000             🧑  作者: Mango
Robots.txt 是一种位于网站根目录下用于控制爬虫访问的文本文件,它可以告诉搜索引擎哪些页面可以被抓取。
Robots.txt 的作用是指导搜索引擎爬虫爬取网站内容,它可以通过阻止索引某些网页,提高网站的安全性和性能,同时帮助搜索引擎更快,更好地了解我们的网站,并提高搜索引擎排名。
我们以 Youtube(www.youtube.com)为例,讲解 Robots.txt 的配置:
User-agent: *
Disallow: /results
Disallow: /channel/
Disallow: /user/
Disallow: /playlist
Disallow: /watchlater
Disallow: /feed/
Disallow: /community/
Disallow: /shared
Disallow: /t/terms
Disallow: /t/privacy
Sitemap: https://www.youtube.com/sitemap.xml
以上配置的含义如下:
User-Agent: *
:表示对所有爬虫生效,换言之,它用来控制所有的用户代理。
Disallow
:表示禁止此类页面被检索:
/results
:表示搜索结果页面;/channel/
:表示频道页面;/user/
:表示用户页面;/playlist
:表示播放列表页面;/watchlater
:表示稍后观看页面;/feed/
:表示信息流页面;/community/
:表示社区页面;/shared
:表示共享页面(可能包含敏感信息);/t/terms
:表示服务条款页面;/t/privacy
:表示隐私政策页面。Sitemap
:表示提供 Sitemap 的 URL 地址,这样搜索引擎可以更好地了解我们网站的内容。
可以使用 Google 的测试工具 来测试 Robots.txt 文件是否 work as expected。
参考文献: