在对robots.txt文件设置时,要特别注意Disallow与Allow行的顺序,spider 会根据第一个匹配成功的 Allow 或 Disallow 行确定是否访问某个URL
在对 robots.txt 文件设置记录时,要特别注意 Disallow 与 Allow 行的顺序是有意义的,spider 会根据第一个匹配成功的 Allow 或 Disallow 行确定是否访问某个URL。
举例说明:
允许 spider 访问 /cgi-bin/ 目录下的包含 see 的文件夹或URL
user-agent: *
allow: /cgi-bin/see
disallow: /cgi-bin/
如果allow 和 Disallow 的顺序调换一下:
user-agent: *
disallow: /cgi-bin/
allow: /cgi-bin/see
spider 就无法访问到 /cgi-bin/ 目录下的包含 see 的文件夹或URL,因为第一个 Disallow: /cgi-bin/ 已经匹配成功。
关于 Disallow 和 Allow 记录写法
disallow 和 Allow 记录后面可以是一条完整的路径,也可以是路径的非空前缀。例如 “Disallow: /help” 禁止 spider 访问/help.html、/helpabc.html、/help/index.html;而 “Disallow:/help/” 则允许 spider 访问 /help.html、/helpabc.html,不能访问 /help/index.html。
文章来源:bruce 只言片语
本文地址:https://www.pizijiang.com/tougao/106315.html
举报投诉邮箱:253000106@qq.com