利用百度蜘蛛的referer,定位报错的url

如果你发现有一批URL报错,但是一直找不到入口在哪,也就是说你不明白百度蜘蛛是从哪里发现这些错误URL的。这个字段可以帮助你迅速定位

利用百度蜘蛛的referer,定位报错的url

大家应该都知道百度已经全站https并取消referer关键词显示了(详情可查看站长之家文章:百度站点属性功能升级 全面取消referer关键词显示),那么“百度蜘蛛referer”又是什么?有什么妙用吗?艺龙SEO负责人刘明发现通过百度蜘蛛referer可以快速定位部分站内url的报错(4xx或者5xx)原因。

注:由社区版主飞鹰正义也对文章做了补充修正。

什么是百度蜘蛛的referer

百度蜘蛛的referer,是指当百度蜘蛛抓取某一个URL的时候,在HTTP头中带的Referer字段。请注意,这个定义和百度最近声明去除Referer中关键词数据没有任何关系。这次讲的是spider发起的HTTP请求,百度而去除的是用户发起的。如果百度蜘蛛抓取百度首页的logo,会发起这样的请求:Referer字段很明确的表示了他是从www.baidu.com这个页面上发现并抓取了www.baidu.com/img/bd_logo1.png。而大家在服务器访问日志中也应该能看到相应的记录。目前发现只有当百度抓取一个网页的同时,又抓取了网页中的:img、js和css才会带上referer字段。这部分额外的抓取量,应该不会占用百度分配的抓取配额,属于“买1送1”。

对于站长的意义

如果你发现有一批URL(仅限于img,js,css)报错(4xx或者5xx),但是一直找不到入口在哪,也就是说你不明白百度蜘蛛是从哪里发现这些错误URL的。这个字段可以帮助你迅速定位。

举个例子

比如我们的seo日志分析系统中可以看到,符合下面这种url Pattern的路径每天有6万到10万的抓取而且全部报404。

从发现问题至今过了1个月,查遍整个网站我也没找到入口。今天偶然仔细查了一下日志,想起了百度蜘蛛的referer,马上就能定位问题了。这些404的URL来自于一套没人维护也没人关注的页面(往往是这样)。收录流量都不错。由于最近公司

apache请参考:

apache log配置“Combined Log Format”章节

apache log配置的官方链接

Nginx请参考:

nginx log配置

nginx log配置的官方链接

结束语

· 很多SEO问题并不是立即致命的,所以没有及时解决。流量就像蚂蚁啃大象一样一点一点啃掉了。

· 系统性的知识积累还是会在关键时刻发挥作用的。

本文来自投稿,不代表【】观点,发布者:【

本文地址: ,如若转载,请注明出处!

举报投诉邮箱:253000106@qq.com

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2024年5月4日 02:13:20
下一篇 2024年5月4日 02:15:29

相关推荐

  • linux加载光驱报错,linux如何加载光驱

    linux下挂载光驱问题 1、Linux中挂载光驱输入命令mount/mnt/cdrom显示没有那个目录,是设置错误造成的,解决方法如下:首先将系统镜像文件与光驱关联(实际环境是将安装盘放入光驱)。然后将光驱挂载到/mnt下mount/dev/cdrom /mnt。 2、找到光盘的完整路径名。在命令行输入:ls -l /dev | grep cdrom。可以…

    2024年5月22日
    4700
  • java中renameto报错,java中的file的renameto无效

    java编程 1、Java编程就是使用Java语言编写程序,达到想要的效果。Java是一门面向对象编程语言,吸收了C++语言的各种优点,摒弃了C++里难以理解的概念,功能强大且简单易用。 2、java语言程序设计就是使用Java语言(是一种可以撰写跨平台应用软件的面向对象的程序设计语言)编写代码,给出解决特定问题程序的过程。 3、java编程怎么入门呢?一起…

    2024年5月22日
    3600
  • java线程池shutdown,java线程池shutdownnow报错

    JAVA线程池shutdown和shutdownNow的区别 1、一句话,shutdown 优雅而不究既往,而shutdownNow 就像停电一般消灭所有既成事实。 2、既然是判断线程池是否停止,那么同第二个例子一样,在执行awaitTermination方法之前需要执行shutdown()方法。shutdownNow()方法既关闭线程池队列入口,还”强迫“…

    2024年5月22日
    4000
  • 关于linuxvg卸载重启报错的信息

    卸载linux系统 1、linux卸载软件命令:apt-get,aptitude。Linux软件的安装和卸载一直是困扰许多新用户的难题。在Windows中,我们可以使用软件自带的安装卸载程序或在控制面板中的“添加/删除程序”来实现。 2、Linux软件包可以完全卸载干净。根据Linux操作系统的特性,软件包管理工具能够确保软件的完整安装和卸载过程。在卸载软件…

    2024年5月21日
    4900
  • c语言总报错,c语言错误代码及解决办法

    c语言报错 这段代码存在多个语法错误,主要是因为函数定义和函数调用时参数类型不匹配导致的。具体来说:在函数prn_info()的定义中,应该将参数类型从vold改为void,即正确的函数定义应该为void prn_info(void)。 因为子文件中引用主程序定义的结构体出错。解决:将子程序文件中 子函数移至主文件。结构体也是一种数据类型,只不过在这种数据类…

    2024年5月21日
    4800
  • javaweb文件显示,javaweb报错

    javaweb文件上传在idea中不显示 1、说明该类不是可编译文件。在project Structure中(快捷键ctrl+alt+shift+s)选Modules将你带红圈的文件添加上,将你带红圈的文件夹设为Sources。一般是src文件夹,点Sources文件夹,然后点击OK。 2、在弹出的“Properties”窗口左侧,单击“Project Fa…

    2024年5月20日
    3800
  • linux系统报错cpu,linux cpu过高的原因

    Linux系统安装出现cpu被系统禁用是什么情况 1、CPU不支持导致的。换一种方法安装。如下参考:要创建一个新的Linux虚拟机,单击“new”。然后给新虚拟机起一个名字,自定义名字,点击下一步。然后分配虚拟机内存。然后创建一个虚拟硬盘并动态分配磁盘大小。 2、其他虚拟机没提示这个,说明你bios中已经设置了cpu支持虚拟化,那么建议你增加内存试试。 3、…

    2024年5月18日
    6200
  • javasplit没有,java split报错

    java中split方法为什么无法分割. split的参数是String regex,也就是正则表达式,里面的.号有特殊作用 所以java中函数split(.)必须是split(\\.),而不是split(//.),楼主你没分清斜杠和反斜杠,这是教训,要记住。 出现问题先找到出现问题的地方。正常来说split(正则表达式),是没有问题的。然后看你这里用了sp…

    2024年5月17日
    5300
  • excel输入中文就报错,Excel怎么输入中文

    Excel表格中输入文字一直提示日期格式错误 1、原因:输入日期的单元格没有设置正确的显示日期的格式。解决方法:首先选择需要设置格式的单元格并右键点击,选择打开选项中的“设置单元格格式”。 2、原因是excel单元格的格式不对,重新设置一下。设置方法为:仔细观察此单元格有可能是日期类型,调整为常规,这时单元格就不是日期和时间的值了,而是一个小数,这当然不是我…

    2024年5月15日
    4600
  • linuxphp错误日志,linux日志报错的标志是什么

    linux下,php网站的网页内容显示不出来,有的能显示,没报错,就是空白的… 1、Linux下目录和文件名区分大小写,所以需要严格检查代码中路径引用是否正确。 2、第二 就是你的测试页面有错误 单是你配置的环境关闭了错误提示 所以出现了空白页面。 3、在php.ini里面开启display_error=on这个开启下重启apache,再打开看看…

    2024年5月15日
    5000

发表回复

登录后才能评论



关注微信