互联网上随时都有新出现的页面,随时都有网站在更新,随时都有页面在更新,所以搜索引擎展现的结果力求时效性,也就是数据库内的数据要时刻保持更新,蜘蛛要尽可能的时刻重复抓取,尽可能保证互联网网页与数据库存储的一致性。前面在《搜索引擎蜘蛛3个考核标准》中也说过,如果某个网页已被删除或者内容做出重大变动,而搜索引擎没能及时更新,仍然按其旧有内容排序,那会严重影响用户体验。

  所以,对于己经抓取过的网页,蜘蛛还是必须尽快保持其内容更新,这就要求搜索引擎蜘蛛在有限的条件下最快的更新已抓取来的信息,因此搜索引擎都会相应的网页更新策略,最大程度的去利用蜘蛛,尽可能保证搜索结果的时效性。这些更新策略中就包括了历史参考策略和用户体验策略,这是我们要谈的。

  历史参考策略:历史参考策略是一个非常直观的更新策略,顾名思义,它就是参考你的网站历史。参考什么历史呢?网站更新情况的历史。有这么一个假设:过去频繁更新的网页,那么将来也会频繁更新。这样的网站就需要经常地过来。

  当然这种方式也没那么简单草率,同样需要建模,根据每个网页过去的变动情况,来判断它更新的频率。对于频率高的就需要经常抓取更新,而没怎么更新的,大可之后再去,以免扑个空。同时利用这种方法,搜索引擎也会预测网站何时会再次更新,以便最大程度提升蜘蛛工作能力。这也是为什么我们经常会说网站需要经常地更新,而且最好是有规律的更新,因为这样蜘蛛同样会更准时有效的来更新你的网页,形成互助。

  用户体验策略:用户体验策略算是一个比较霸道的更新策略,也可以说在依据网站的历史,只不过用的是排名历史。用户在查询的时候,面对大量的搜索结果不可能一一查看,往往查看前3页就不错了。用户体验策略就是利用用户体验的这个特点来的。

  所以用户体验更新策略是以用户搜索体验为核心,这样即使数据库里的网页内容是过时的,但是如果不影响用户搜索体验,那么晚些更新这些过时网页也未尝不可。也就是说排名靠后的网页浏览的用户相对较少,在有限的条件下优先更新排名靠前的网站,因为目前而言,这些网页的价值更大,需求更多。

       很明显,用户体验更新策略取决于这个网贝的内容变化能否能带来用户搜索质量的变化,在搜索结果影响最大的,就需要优先更新,影响越大的网页,则应该越快更新。在更新过程中会再次评判每次更新内容对搜索质量的影响,效果最大的会再次优化这个更新策略。

  写在最后

       可以看到不论是根据网页的历史更新频率还是根据用户的搜索体验,蜘蛛都是想保证在去网站的过程中有内容可抓,有高质量内容可抓,不浪费一次抓取行为,保证高效的抓取更新。所以平常需要有规律的更新有价值的内容,不要看到某些大型网站长期没更新,搜索结果的更新还是那么快,别人有用户体验做更新保证,而且远不止用户体验策略这一个偏向他们的策略,对于有权威、有信誉度、有需求、有价值的网站,搜索引擎是一直都有优先策略的,在搜索技术还没完全能够覆盖全网时,不得不得不说,这的确是不错的政策。

       当然,这2个策略只是所有网页更新策略的一部分,尽管不是那么完美,但在条件限制的时候,也是不是办法中最好的办法。而且大多时候,很多更新策略不是独立运行了,都是同时进行,互相辅助,保证蜘蛛在抓取量大的同时,能抓得更快更好。




HTTPX 基础教程-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客