蚂蚁软件

MAYISOFT.COM

站群网站如何让蜘蛛频繁抓取

2021-01-23 作者:mayisoft 访问量:99999
Spider在本地抓取站群网页,对网页进行分析、索引并参与排名,并不代表Spider在网页上的工作已经结束。现在的互联网网页内容大多是动态的,甚至有时候网页被管理者删除。搜索引擎捕获的本地页面可以看作是已经捕获和索引的网页的镜像,也就是说,理论上搜索引擎应该保证本地“镜像”页面与互联网上相应的网页内容实时一致。但是由于搜索引擎的Spider资源有限,现阶段不可能也没有必要实时监控所有索引网页的所有变化。搜索引擎只需要给Spider设置一个策略,让它重新抓取和更新页面,这样就可以保证在一些页面呈现给用户的时候,搜索引擎的本地索引和当时网页的内容没有太大的区别。这部分页面应该包含大部分网民需要检索的内容,也能满足绝大多数搜索用户的搜索请求。
如上所述,在资源有限的情况下,搜索引擎首先要保证一些站群网页的更新,这些网页有大部分用户需要的内容;还需要确保所有索引页都有更新机制。当页面需要相应的新内容索引时,Spider应该再次爬网并更新页面索引。从Spider的角度来看,索引网页的重新抓取频率一般根据以下四个方面来确定:用户体验、历史更新频率、网页类型和网页权重。
1.整个互联网上的网页数量庞大,被百度抓取索引的中文网页也应该在1000亿的水平,但是用户需要的信息只是一小部分。当用户在搜索引擎中提交查询时,无论返回多少结果,大部分用户都会在前三页找到自己需要的信息,很少用户会浏览第四页或后面的搜索结果。基于优先更新大部分用户需要的内容的原则,所有用户提交的前几页查询结果都值得保证索引及时更新。因此,一般的搜索引擎会收集所有用户的搜索请求,然后统计用户在所有搜索结果中可能看到的网页,然后先进行抓取和更新。理论上,搜索这些页面的次数越多,再次被抓取的频率就越高。搜索引擎会尝试找出某个网页中内容的更新频率,因为Spider的重新抓取是为了找出被索引的网页是否发生了变化。如果某个站群网页没有连续变化,搜索引擎可能会降低其抓取频率,甚至停止再次抓取。这个策略的实现是基于搜索引擎找到网页的更新频率。所以,理论上,当Spider找到一个新的URL进行爬取索引时,它会很快再次爬取。如果没有发现内容变化,就会降低抓取频率,让网页的更新频率慢慢被发现,从而调整到最佳抓取频率。同时,Spider关注的变化应该是网页的主要内容,一般忽略了围绕主要内容的广告模块、导航模块和推荐链接模块的更新和变化。
不同的网页类型有不同的更新频率。同一站点内,首页、目录页、专题页、文章页的更新频率肯定是不一样的。因此,对于同一站点的网页,Spider以不同的频率抓取不同类型的网页。主页和目录页是Spider经常出现的页面。根据主题页面的时效性或其他特点,Spider可能会在一定时间内频繁抓取,时效性过期后抓取频率会降低;至于文章页面,Spider大概是第一次访问后就不来了。虽然整个互联网上有很多网页,但是网页的类型并不多,每种类型的网页都有自己的布局和更新规则。搜索引擎有足够的能力找到网页的类型,并设置合理的爬行频率。网页类型的分类和网页历史的更新频率被广泛使用。一般相似的网页在同一个站点会有相同的更新频率,这样会方便Spider判断网页的更新频率。
除了以上的重新抓取策略,网页的权重也是决定抓取频率的重要因素。用户体验策略也在一定程度上反映了站群网页权重的影响。在页面类型相同、历史更新频率相近的情况下,权重越高,抓取的频率越高。比如百度首页、好123首页、chinaz站长工具首页、普通企业站首页可以简单归类为网站站群首页,前三个“首页”长时间不更新,普通企业站首页可能会偶尔更新,但是前三个“首页”的百度快照一般都是最新的,而普通企业站的可能是一周甚至一个月前的。这反映了站群网页权重在爬行频率中的作用。
在搜索引擎Spider的实际操作中,我们不会单独使用某一种重新抓取策略,而是综合参考网页的用户体验、更新频率、网页类型和网页权重。而且,对于不同类型的页面,更新内容的主体是不同的。例如,列表页面上只有一篇新文章可以更新;文章页面主要内容没有变化,围绕主要内容的所有推荐链接、广告、内容都发生了变化,可能不算更新。
为了提高一个网站在SEO工作中的抓取频率,tea通常会重点增加页面导入链接的权重,努力增加页面的更新频率。事实上,在用户体验和网页类型方面也有工作要做。用标题和描述吸引点击,不仅可以提高排名,还可以间接增加网页被Spider抓取的频率;同时,不同的站群网页类型(列表页、主题页、内容页等。)可以用于不同的定位关键词,在设计页面内容和网站架构时要慎重考虑,这部分网页类型有很多值得做的工作。比如很多站群网站都把全站做成列表页面,但是全站没有普通的内容页面。在内容页面的主要内容之下或周围,也有大量与主题相关的文本内容,一般以类列表的形式出现。但是这种技术在长时间内是没有效果的,否则会降低破坏用户体验后被抓取的频率。无论如何,优秀的网站架构设计应该合理利用Spider爬行策略的各种特性。
 
该 文 章出 自蚂 蚁 镜像 站 群软 件,官 网 地 址:https://www.mayisoft.com
未经允许不得转载:蚂蚁站群软件 » 站群网站如何让蜘蛛频繁抓取

相关推荐