蚂蚁软件

MAYISOFT.COM

站群中Robots.txt文件有什么作用

2021-02-02 作者:mayisoft 访问量:99999
站群中robots.txt文件是引导搜索引擎Spider获取站点的文件。适当使用robots.txt文件可防止其网站内的秘密网页如后台登录等被搜索引擎检索和发布,也可屏蔽搜索引擎对该网站非内容网页的检索,仅允许搜索引擎对能带来排名和流量的网页进行检索和检索。使用robots.txt文件时,有几个问题需要加以讨论。
对那些需要屏蔽Spider获取内容的站点来说,站群robots.txt文件是必需的。但如果想要向Spider开放所有内容,那么robots.txt对网站来说毫无意义,此时是否需要这个robots.txt文件呢?
2012年11月1日,百度、360和搜狗等国内主流搜索引擎签署了《搜索引擎服务自律公约》,表示完全支持robots协议。该搜索引擎支持robots协议,也就是说,在获取一个站点的内容之前,需要先获取该站点的robots.txt文件。
如果站点没有设置robots.txt文件,则服务器通常返回404状态码,但有些服务器返回200或其他错误。对于服务器返回404状态码,无需进行特殊处理。由于搜索引擎抓取一到两次都发现网站没有设置robots.txt文件,在某一周期内抓取不再进行,而是正常情况下抓取网站内容。如果服务器返回的信息超出了404状态码,则最好重新配置该服务器,将其设置为向访问服务器上不存在的URL或文件的用户返回404状态码。若无法进行配置,则将一个空设置下放到网站根目录,或者允许抓取完整内容设置的robots.txt文件,以防服务器错误地启动了Spider。
一些人认为,如果允许Spider抓取全站内容,同时将robots.txt文件放在服务器上,就有可能浪费Spider抓取的时间,因为Spider对一个站点的抓取是有限的。实际上,这一担忧是不必要的,无论您是否设置了robots.txt文件,搜索引擎都会频繁地抓取该文件,因为搜索引擎不知道您稍后是否要设置或更新该文件,为了遵守因特网协议,只能频繁地抓取该文件。而且搜索引擎一天只抓几次robots.txt文件,不会浪费抓到网站的时间。
一般而言,站群robots.txt文件可用于屏蔽不希望被搜索引擎抓取的页面,但这些“不希望被抓取的页面”通常是什么呢?以下给出了一些简单的例子。
(1)多版本URL是指非主显URL的不同版本。例如,在站点链接伪静态之后,就不想让搜索引擎抓取动态版本,这时可以用robots.txt屏蔽掉站内的所有动态链接。
如果网站中有大量交叉合并查询产生的网页,那么肯定有大量网页是无内容的,对无内容的网页可以单独设置URL特征,然后用robots.txt屏蔽,以免被搜索引擎认为网站制造了垃圾网页。
(3)如果网站因某种原因更改或突然删除大量网页,则会广为人知。大量死链接的出现,对网站在搜索引擎上的表现是不利的。尽管现在百度可以直接提交死链接,但还是不如直接屏蔽百度抓死链接,理论上百度不会突然发现网站有太多死链接,或者两者同时进行。当然最好是站长本人将站内死链接清理干净。
(4)如果网站具有类似于UGC的功能,并且为了提高用户提供内容的积极性,也没有禁止用户在内容中添加链接,那么此时为了避免浪费网站的权重或使网站受到影响,可以将这些链接设置为跳转链接,然后用robots.txt屏蔽。目前已有很多论坛都这样操作。
(5)常规的内容不希望被搜索引擎索引,例如隐私数据、用户信息、管理后台页面等等,可以用robots.txt屏蔽。
这是robots.txt的常见功能。适当在站群使用robots.txt,不仅能保护网站的隐私数据,而且能仅向搜索引擎展示网站高质量的一面,还能使搜索引擎多抓取其他允许抓取的网页。然而,站群站长和SEO人员必须谨慎考虑是否需要将后台地址写到robots.txt文件中,现在许多黑客经常会扫描不同网站的后台地址,如果将其直接写入robots.txt文件中,那就相当于直接将Sitemap地址提交给黑客网站;此外,Google目前只支持将其写入robots.txt文件,而百度不支持此文件,而且站长现在完全可以通过GoogleWebmaster提交Sitemap,因此使用robots.txt文件来声明网站XML地图的位置并不是很有必要的。如今,很多从事收集工作的人都会通过robots.txt文件查找网站的Sitemap,然后批量提取出URL链接到目标内容,如果网站上有比较有价值的资源(如关键词词库等),就很容易被竞争对手抢先获取。因此,在制作robots.txt文件时,一定要综合考虑所有需要写的内容,而不能仅仅从SEO的角度考虑。
此外,SEO人员不受robots.txt文件本身的原始作用的限制,他们可以多想一些,多想一些。例如,为了防止被搜索引擎抓到把柄,不让搜索引擎抓到暴露网站缺点的网页链接;为了在搜索引擎的眼里提高网站的整体质量等等,不让搜索引擎抓到没有搜索价值的网页。

 
该 文 章出 自 蚂 蚁 镜 像站 群, 官 网地 址 : https://www.mayisoft.com/
未经允许不得转载:蚂蚁站群软件 » 站群中Robots.txt文件有什么作用

相关推荐