youtube robots.txt (1) - 芒果文档

📌 相关文章

📜 youtube robots.txt (1)

📅 最后修改于: 2023-12-03 14:48:41.376000 🧑 作者: Mango

Youtube Robots.txt

什么是 Robots.txt？

Robots.txt 是一种位于网站根目录下用于控制爬虫访问的文本文件，它可以告诉搜索引擎哪些页面可以被抓取。

Robots.txt 有什么用处？

Robots.txt 的作用是指导搜索引擎爬虫爬取网站内容，它可以通过阻止索引某些网页，提高网站的安全性和性能，同时帮助搜索引擎更快，更好地了解我们的网站，并提高搜索引擎排名。

Robots.txt 配置示例

我们以 Youtube（www.youtube.com）为例，讲解 Robots.txt 的配置：

User-agent: *
Disallow: /results
Disallow: /channel/
Disallow: /user/
Disallow: /playlist
Disallow: /watchlater
Disallow: /feed/
Disallow: /community/
Disallow: /shared
Disallow: /t/terms
Disallow: /t/privacy

Sitemap: https://www.youtube.com/sitemap.xml

以上配置的含义如下：

User-Agent: *：表示对所有爬虫生效，换言之，它用来控制所有的用户代理。
Disallow：表示禁止此类页面被检索：
- /results：表示搜索结果页面；
- /channel/：表示频道页面；
- /user/：表示用户页面；
- /playlist：表示播放列表页面；
- /watchlater：表示稍后观看页面；
- /feed/：表示信息流页面；
- /community/：表示社区页面；
- /shared：表示共享页面（可能包含敏感信息）；
- /t/terms：表示服务条款页面；
- /t/privacy：表示隐私政策页面。
Sitemap：表示提供 Sitemap 的 URL 地址，这样搜索引擎可以更好地了解我们网站的内容。

如何测试 Robots.txt 是否生效

可以使用 Google 的测试工具来测试 Robots.txt 文件是否 work as expected。

参考文献：