蚂蚁软件

MAYISOFT.COM

站群robots文件的使用的使用方法

2021-01-08 作者:mayisoft 访问量:99999
  首先,了解什么是robots文件文件。例如,在蚂蚁镜像站群的主页地的主页地址后添加“/robots.txt”,打开该网站的robots文件,。文件中显示的内容是告诉搜索引擎哪些网页要抓取,哪些不要抓取。因为网站中有一些无关紧要的网页,比如“给我留言”或者“联系方式”,不参与SEO排名,只供用户查看。这时候robots文件可以用来屏蔽,就是告诉搜索引擎不要爬这个页面。
 
  蜘蛛抓取站群网页的精力是有限的,就是每次抓取一个网站,它不会一次抓取网站的所有文章和页面,尤其是当网站上的内容越来越多的时候,一次只能抓取一部分。那么如何让它在有限的时间和精力下,每次抓取更多自己想抓取的内容,从而提高效率呢?
 
  此时可以使用robots文件。小网站没有这个文件也没关系,但是robots文件对于大中型网站尤其重要。因为这些站群网站的数据库很大,蜘蛛来的时候应该给他们看好朋友之类最重要的东西。因为这个朋友时间精力有限,每次来都不能什么都看,所以需要robots文件屏蔽一些不重要的东西。由于各种原因,有些文件不想被搜索引擎抓取。比如为了隐私保护,robots文件也可以用来屏蔽搜索引擎。
 
  “百度Encyclopedia”提到“有人会问,既然robots文件没有完成或者出错,会影响整个网站的收录,那你为什么需要这个文件?”这句话里的“错”字是指不应该被屏蔽的网站被屏蔽了,这样蜘蛛就无法抓取这些页面,所以搜索引擎不会收录,那么排名呢?因此,robots文件的格式必须正确。
 
  (1)“user-agent  : * disallow  3360 l”是指“禁止所有搜索引擎访问网站的任何部分”,相当于网站在搜索引擎中没有记录,所以离排名很远。
 
  (2)“user-agent  : * disallow  3360”表示“允许所有robots访问”,即允许蜘蛛随意抓取和记录网站。这里需要注意的是,前两个语法之间只有一个“/”的区别。
 
  (3)“用户代理: bad  bot  disallow  :/”表示“禁止访问搜索引擎”。
 
  (4)“用户代理:百度蜘蛛不允许:用户代理3360 *不允许:/”表示“允许搜索引擎访问”。正如我前面所说,“白蜘蛛”是百度蜘蛛的名字。这个语法允许百度抓取网站,但不能抓取其他搜索引擎。“百度百科全书”也给出了一个简单的例子,两个“/”之间是网站的具体文件夹。类似“百度百科全书”这样的共享robots文件的编写相当全面,这里就不一一介绍了。
 
  本节介绍robots文件的主要用途。我们再举一个例子。一个网站以前是镜像站群,现在要做汽车了,网站的内容要彻底更换。如果你删除关于镜像站群的文章,会有大量的404页和很多死链接,这些都是百度之前收录的。但是网站被替换后,蜘蛛回来发现这些页面并不存在,会留下不好的印象。这时,你可以用robots文件屏蔽所有的死链接,以免让百度访问这些不存在的页面。
 
  使用robots文件需要注意什么?首先,在您不确定如何编写文件格式之前,您可以创建一个新的文本文档。注意robots文件名必须是“robots.txt”,后缀是“txt”,小写,不能随意更改,否则搜索引擎无法识别。然后打开文件,可以直接复制粘贴别人的格式,robots文件格式是命令行,下一条命令必须换行。“Disallow:”后面一定要有空格,这是标准写法。
 
  如果写为“Disallow:/jxzq/”,板块的所有文章都被屏蔽了,蜘蛛无法抓取中,的任何文章,说明这些文章不参与排名。但如果写为“Disallow:/jxzq”的话,末尾就少了一个“/”,也就是说本网站中地址前面包含“/jxzq”的所有网页,如“www.mayisoft.com/jxzq333/”或特定网页“www.mayisoft.com/jxzq3465”。HTML”,不能被蜘蛛爬行。这种写法有一个优点。比如我的网站有很多分页页面,很有规律。前面部分一模一样,但是最后的数字不一样。如果想屏蔽所有页面,可以写“disallow : /cat/”,不需要一一写。
未经允许不得转载:蚂蚁站群软件 » 站群robots文件的使用的使用方法

相关推荐