探讨百度快照的蜘蛛群假想理论问题
创始人
2024-08-01 16:21:32
0

对于很多新手站长来说,经常有这样的疑惑,为什么蜘蛛天天爬行,但是网站快照却不更新。今天冰山一角来给大家分享下一种蜘蛛假想。

蜘蛛群理论:百度每天都靠蜘蛛抓取页面,蜘蛛不是一只,而是一群。在一群蜘蛛中,它们各自负责不同的分工。具体的分工我也还了解不完全,可以知道的是分工可以分为新网页的爬行和旧网页的爬行。如123.125.*.*爬行新网页居多,61.135.*.*以爬行旧网页居多,百度还有其他ip段的蜘蛛,我对福州现代妇产医院网的观察,这2类比较常见。

网站快照更新最快的当属首页,不是首页的话你可能被K了,因为首页权重最高,而且都会调用最新内容,也最容易被蜘蛛发现。刚刚所说的蜘蛛是一群,所以任何一只蜘蛛都是不会在一个网站一直呆着,所以虽然说百度蜘蛛天天呆在你的网站,但不见得群蜘蛛都一直呆在你的网站。

蜘蛛在进驻你的网站后,开始各自分配不同的监控区域,有的蜘蛛负责head,有的蜘蛛负责root,有的负责body等等,body里面又有不同的蜘蛛干不同的事。也就是说同一只蜘蛛只负责小块区域,而且只会在一天的某些时段来过,当它发现你有更新的话,明天再来,如果没有的话给你个304,,304多了,它就会去减少爬行的频率,具体频率长什么样我也不清楚,理论模型应该是正弦曲线。

同理,所有的蜘蛛使用同一规则的话,就会出现监控head、root等区域的蜘蛛比较懒,body部分的比较勤快,不过,body中间也有懒惰的。

如果你的网站天天更新,那么body更新区域的都是200,其他的是304.那么百度要考虑给你最新的快照呢还是不给?于是就要投票表决,因为是群蜘蛛嘛,蜘蛛们都有投票权,才显得公平,但是又有一个问题,蜘蛛的分量不同,如body区的蜘蛛,工作比较辛苦,head区就比较轻松,所以蜘蛛投票需要分权,body的蜘蛛权值高,root区的权值低,当然中间还有不等的权值。

经加权后的计算结果来决定百度给不给该网站最新快照。这就是为什么网站天天更新但是快照不更新的原因之一。

这样一来的话,我们可以从以下几个方面入手解决快照慢的问题,一个是让body的蜘蛛更勤快,提升带回200蜘蛛的权值,给投票带来优势。二是减少监控区,监控区域太多,那么无所事事的蜘蛛就越多,和我国的有关部门一样,所以我们要做到精简,那么拉后腿的蜘蛛就要说再见了。

下面来讲为什么百度会对改版的网站降权,原因其实很简单,原先进驻网站的蜘蛛因为只是负责小区域,当你改版后,它发现自己的区域没了,手足无措,于是百度就将蜘蛛召回,然后重新观察,放出蜘蛛观察员,然后再把网站分小块,改天再派蜘蛛进去,重新开始蜘蛛的工作,那么你的站就恢复正常了。

说了这么多,发现自己行文的风格变了,不过拟人化会更容易理解,希望对你有帮助。

【编辑推荐】

  1. 浅谈Seo优化的6个必经步骤
  2. 针对百度 SEO优化经验谈
  3. 浅谈网站做SEO要把握的几个核心元素
  4. 浅谈做seo的几种生存方式
  5. SEO新手分析竞争对手的22条思路

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
Windows恶意软件20年“... 在Windows的早期年代,病毒游走于系统之间,偶尔删除文件(但被删除的文件几乎都是可恢复的),并弹...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
着眼MAC地址,解救无法享受D... 在安装了DHCP服务器的局域网环境中,每一台工作站在上网之前,都要先从DHCP服务器那里享受到地址动...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...