什么是robots文件;书写方法:User-Agent的用法,Allow的用法,Disallow的用法,通配符*,结束符;书写文件的注意细节
robots文件是我们seo教程中必学的一个知识点,作为一名seoer必须掌握robots文件的作用、书写等知识,今天跃飞seo就给大家梳理一下robots文件的写法与注意细节等知识点。
一、什么是robots文件
robots.txt文件(也称为爬虫协议、机器人协议等)是专门给搜索引擎的蜘蛛机器人看的,搜索引擎蜘蛛抓取的第一个文件就是robots文件。robots是站点与spider重要的沟通渠道,通过这个文件,蜘蛛可以了解到网站那些内容可以抓取,那些页面不可以抓取,当然,我们也能直接屏蔽掉蜘蛛的访问。对于seo人员来说,我们可以通过书写robots协议来限制蜘蛛抓取某些不参与排名或不利于排名的文件,不仅可以保护文件隐私更能减少蜘蛛爬取造成的服务器压力。
二、robots文件的书写方法
robots文件的书写很简单,大家学习seo教程时,只要记住3个词和2个符号就好,3个词是User-Agent,Allow,Disallow,2个符号是*,$
1、User-Agent的用法
含义:定义搜索引擎蜘蛛,常见的蜘蛛有,百度蜘蛛(Baiduspider),谷歌蜘蛛(Googlebot),360蜘蛛(360spider),搜狗蜘蛛(sougouspider)等,*代表所有蜘蛛
用法:user-agent: 搜索引擎蜘蛛名
比如:User-Agent: Baiduspider,定义百度蜘蛛,然后再用下面的Allow,Disallow来限制百度蜘蛛可以爬取什么和不能爬取什么
user-agent: *,定义所有蜘蛛,就是所有搜索引擎蜘蛛都要遵循下面的规则来爬取文件
2、Allow的用法
含义:允许搜索引擎蜘蛛爬行的URL路径
用法:allow: /文件名
比如:allow: /seo,表示允许搜索引擎蜘蛛爬取seo目录
3、Disallow的用法
含义:不允许搜索引擎蜘蛛抓取的URL路径。
用法:disallow: /文件名
比如:disallow: /seo,表示不允许搜索引擎蜘蛛爬取seo目录
4、通配符*
含义:代表任意多个字符
用法:disallow: /*.jpg 网站所有的jpg文件被禁止了。
disallow: /*?* 网站所有动态路径都被禁止了。
5、结束符$
含义:表示以前面字符结束的url。
用法:disallow: /.asp$ 网站所有以.asp结尾的文件被禁止。
三、书写robots文件的注意细节
1、特别提醒,在robots.txt中,所有语法的:冒号后面必有一个空格。
2、在“/robots.txt”文件中,允许收录优先级要高于禁止收录,如
user-agent: *
allow: /a/b.html
disallow: /a/
则a目录下b.html可以让蜘蛛爬取访问,a目录下的其他文件都禁止蜘蛛访问
3、重点细节:robots.txt中屏蔽的文件目录后面带/斜杠与不带/斜杠的区别 :
比如:
robots.txt部分:
user-agent: *
disallow: /seo
disallow: /seo/
这两种书写,一个是目录名后面不带/斜杠,另一个是带/斜杠的。
根据robots.txt写法规范,解释如下:
1、不带/斜杠的意思是:屏蔽seo这个名字开头的所有目录。如:/seo1、/seo2、或者/seo/以下的所有目录都是被屏蔽的。
2、带/斜杠的意思是:屏蔽/seo/这个目录下的全部内容。如:/seo/abc、/seo/123/或者是/seo/abc/123等,/seo/下的目录都是被屏蔽的。但是它并不屏蔽本目录的内容,如:/seo还是允许蜘蛛抓取的。
以上就是robots文件的写法与注意细节,你学会了吗?更多seo教程请关注seo博客
本文地址:https://www.pizijiang.com/tougao/96036.html
举报投诉邮箱:253000106@qq.com