常见的robots.txt指令

User-agent:* ——这是robots.txt文件中的第一行,用于向抓取工具说明您希望他们在您的网站上遵循的抓取规则。
星号* 表示所有的搜索引擎种类。
User-agent: Googlebot——您要谷歌Google的蜘蛛爬行的内容。
Disallow: / ——所有搜寻器都不要搜寻站点下的目录。
Disallow: /staging/ ——这告诉所有搜寻器忽略您的测试站点。
Disallow: /ebooks/* .pdf——告诉抓取工具忽略所有可能导致重复内容问题的PDF格式。
User-agent: Googlebot
Disallow: /images/ ——仅告诉Googlebot(谷歌爬虫)忽略您网站上的所有图像。
* —使用 * 号匹配字符序列。
$ —用于匹配URL的末尾。


已发布

分类

作者:

标签