一直没搞懂的rebots文件并附案例

共计 771 个字符,预计需要花费 2 分钟才能阅读完成。

今天上Google Search Console看了一下,原来这个文件已经不存在了。

一直没搞懂的rebots文件并附案例

不存在是因为之前网站被破坏了,所有文件都丢失了,后来把网站重新弄好之后,忘记更新这个文件了,今天把这个文件重新整理之后又上传了。

那么rebots文件是干嘛用的?今天我给介绍一下

一个良好的robots.txt文件应该清晰明了地指示搜索引擎蜘蛛哪些页面可以抓取,哪些页面不应该抓取。以下是一些常见的robots.txt文件写法的建议:

  1. 允许所有页面被抓取
User-agent: *
Disallow:

这表示允许搜索引擎抓取网站上的所有页面。

  1. 禁止所有页面被抓取
User-agent: *
Disallow: /

这表示禁止搜索引擎抓取网站上的所有页面。

  1. 指定特定目录不被抓取
User-agent: *
Disallow: /private/

这表示不允许搜索引擎抓取以/private/开头的页面。

  1. 指定特定页面不被抓取
User-agent: *
Disallow: /example.html

这表示不允许搜索引擎抓取名为example.html的页面。

  1. 指定特定搜索引擎不抓取特定页面
User-agent: Googlebot
Disallow: /private/

这表示只有Googlebot不允许抓取以/private/开头的页面。

确保在编写robots.txt文件时遵循以下几点:

  • 每个User-agentDisallow指令之间使用空行分隔。
  • 使用User-agent: *表示适用于所有搜索引擎爬虫。
  • 使用Disallow:表示允许搜索引擎抓取所有页面。
  • 使用Disallow: /表示禁止搜索引擎抓取所有页面。
  • 确保robots.txt文件位于网站的根目录下,并且可以通过www.example.com/robots.txt访问到。

请根据您的网站需求和策略编写适合的robots.txt文件内容。

正文完
公众号
post-qrcode
 0
qin, yufen
版权声明:本站原创文章,由 qin, yufen 2024-02-27发表,共计771字。
转载说明:本文未经作者允许,不允许任何形式的转载。如有侵权,请发送邮件给 [email protected]及时联系删除。