收录 质量网页
2017/11/27 14:37:23来源:德道网络
阶段:大小通吃
搜索引擎的网页抓取都是采取「大小通吃」的策略,也就是把网页中能发现的链接逐 加入到待抓取URL中,机械性的将新抓取的网页中的URL提取出来,这种方式虽然 较古老,但效果很 ,这就是为什么很多站长反应蜘蛛来访问了,但没有收录的 因,这 是 阶段。
第二阶段:网页评级
而第二阶段则是对网页的重要性进行评级,PageRank是 种著名的链接分析算法,可以用来衡量网页的重要性,很自然的,站长可以用PageRank的思路来对URL进行排序,这就是各位 衷的「发外链」,据 位朋友了解,在中国「发外链」这个市场每年有 亿元的规模。
爬虫的目的就是去下载网页,但PageRank是个 局性算法,也就是当所有网页有下载完成后,其计算结果才是可靠的。对于中小网站来讲,服务器如果质量不 ,如果在抓取过程中, 看到部分内容,在抓取阶段是 法获得可靠的PageRank得分。
第三阶段:OCIP策略
OCIP策略 像是PageRank算法的改进。在算法开始之 ,每个网页都给予相同的「现 」,每当下载某个页面A后,A将自己的「现 」平均分给页面中 含的链接页面,把自己的「现 」清空。这就是为什么导出的链接越少,权重会越 的 因之 。
而对于待抓取的网页,会根据手头拥有的现 多少排序, 先下载现 充裕的网页,OCIP大致与PageRank思路 致,区别在于:PageRank每次要迭代计算,而OCIP则不需要,所以计算速度远远快于PageRank,适合实时计算使用。这可能就是为什么很多网页会出现「秒收」的情况了。
第四阶段:大站 先策略。
大站 先的思路很直接,以网站为单位来衡量网页的重要性,对于待抓取的URL队列中的网页,根据所述网站归类,如果哪个网站等待下载的页面 多,则 先下载这些链接。其本质思想是「倾向于 先下载大型网站URL」。因为大型网站往往 含 多的页面。鉴于大型网站往往是名站,其网页质量 般较 ,所以这个思路虽然简单,但有 定依据。
实验表明这个算法虽然简单粗暴,但却能收录 质量网页,很有效果。这也是为什么许多网站的内容被转载后,大站却能排到你 面的 重要 因之 。