观察理会网站的日志,发现网站page的页面被蜘蛛重复抓取很多,这模样对网站的优化并不是很好。那么我们要如何避免网站页面被蜘蛛重复的抓取呢? 一、通过robots文件来把这个页面来屏蔽掉,具体做法语法花式:限制抓取Wordpress分页如查你的网站有需要也可以翱砺面的语句一并写上,避免出现过多的重复页面。限制抓取分类的分页 限制抓取标签页面 限制抓取Trackback内容 限制抓取所有分类列表 什么是蜘蛛,也叫爬虫,其实是一段程序。这个程序的功能是,沿着你的网站的URL一层层的读取一些信息,做简单处理后,然后返馈给后台服务器进行集中处理。我们必需领会蜘蛛的喜好,对网站优化才能做到更好。接下来我们谈谈蜘蛛的工作过程。 二、蜘蛛遇到动态页面 蜘蛛在处理**页信息是面临的困难。**页,是指由程序自动生成的页面。现在互联网兴旺程序开发脚本语言越来越多,自然开发出来的**页类型也越来越多,如jsp、asp、php等等一些语言。蜘蛛很难处理这些脚本语言生成的网页。优化人员在优化的时候,总是夸大尽量不要采用JS代码,蜘蛛要完善处理这些语言,需要有自己的脚本程序。在进行网站优化,减少一些没必要要的脚本代码,以便蜘蛛爬行抓取,少导致page页面的重复抓取! 3、蜘蛛的时间 网站的内容经常变化的,不是更新就是改模板。蜘蛛也是不休地更新和抓取网页的内容,蜘蛛的开发者会为爬虫设定一个更新周期,让其依照指定的时间去扫描网站,查看比较出哪些页面是需要进行更新工作的,诸如:主页的题目是否有更改,哪些页面是网站新增页面,哪些页面是已经过期失效的死链接等等。一个功能强太的搜索引擎的更新周期是不休优化的,果为搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。不过假如更新周期过长,便会使搜索引擎的搜索精确性和完整性降低,会有一些新生成的网页搜索不到;若更新周期太过于短,则技术实现难度加大,而且会对带宽、服务器的资源造成华侈。 四、蜘蛛不重复抓取策略 网站的网页数目非常大,蜘蛛进行抓取是一个很大的工程,网页的抓取需要费非常多线路带宽、硬件资源、时间资源等等。如果经常对同一个网页重复抓取不只会大大的降低了系统的效率,还造成精确度不高档问题
