徐工951

新闻中心

公司新闻行内资讯建站知识

网络爬虫有助于地化网站

2018/11/5 9:59:03来源：德道网络

、网络爬虫简介

网络爬虫，是指按照定的规则、自动抓取互联网息的程序组件或脚本程序。在搜索引擎中，网络爬虫就是搜索引擎发现和抓取文档的自动化程序。

二、网络爬虫产生的背景

互联网息大爆炸，人们不满足于依靠开放目录等传统方式在网络寻找些东西，为了满足不同的人的不同需求，于是出现了网络爬虫。

三、网络爬虫面临的问题

搜索引擎架构的两个目标是效果和效率，这同样也是对网络爬虫提出的要求。面对亿级网页数量，重复内容很，在SEO行业重复率可能在50%以，网络爬虫面临的问题是为了提效率和效果，就需要在定的时间内获得多有质量页面，摒弃那些创度低、复制内容、拼接内容等页面。

PS：当然，在大网站发布出来的文章，尤其大站效应，尽管不是首发，但依然排名很，甚至首发站排名还。

四、网络爬虫的分类和策略

① 通用网络爬虫

通用网络爬虫，又称为“ 网爬虫”，从些种子网站开始爬行，逐步扩展到整个互联网。

通用网络爬虫策略：深度先策略和广度先策略。

② 聚焦网络爬虫

聚焦网络爬虫，又称为“主题网络爬虫”，预先择个(或几个)相关主题，爬行并抓取这类的相关页面。

聚焦网络爬虫策略：聚焦网络爬虫增加了链接和内容评价模块，所以其爬行策略的关键是评价页面的链接和内容后再进行爬行。

③ 增量式网络爬虫

增量式网络爬虫，是指对已收录的页面进行新、爬行新页面和发生变化的页面。

增量式网络爬虫策略：广度先策略和PageRank 先策略等。

④ Deep Web爬虫

搜索引擎蜘蛛可以爬行并抓取的页面称之为“表层网页”，某些不能通过静态链接获得的页面称之为“深层网页”，Deep Web爬虫就是抓取深层网页的爬虫体系。

小结：般来讲，网络爬虫抓取策略分为三种：

1)广度先

搜索完当页面所有链接，才开始进入下层。

2) 先

根据定的网页分析算法，如链接算法和页面加权算法等，先抓取具有价的页面。

3)深度先

顺着个链接直爬行，直到某页面再也没有链接，再开始爬行另外条。但是般都是从种子网站开始抓取，如果采用这种形式可能会造成抓取的页面质量越来越低，所以这种策略使用较少。

德道网络一站式网络服务专家