24小时服务热线400-856-0618
新闻中心
网络爬虫如何采集页面?
2019/1/4 16:23:36来源:德道网络

    、网络爬虫在网络 息采集中的任务
网络爬虫在网络 息采集的两个任务:
 
① 发现URL
 
网络爬虫的任务之 就是发现URL,通常会以 些种子网站作为起点。
 
② 下载页面
 
般搜索引擎的网络爬虫在发现URL之后,判断这个链接是否已收录、是否与已收录链接相似度 、是否为 质量内容、 创度有多少等等,再决定是否需要下载这个页面。
 
二、网络爬虫在 息采集中的策略
通常网络爬虫采用以下的方式进行 息采集:
 
① 从 个种子网站集合出发
 
网络爬虫会从预先 定的 批种子网站开始爬行和抓取工作,这批种子网站通常是权威性 的网站。通常 旦对某个页面进行了下载,就会对这个页面进行解析,找到链接的标签,如果 含可爬行的URL链接,则可能继续顺着这个链接进行爬行。而这个锚文本链接则是这个页面对另外 个页面进行的描述,可纯文本链接却没有这种描述,所以效果差 点也是情理之中的。
 
② 网络爬虫使用多线程
 
如果是单线程,效率会很低,因为大量的时间会耗在等待服务器相应 ,故启用多线程来提 息采集效率。
 
多线程可能会 次抓取 几 个页面,对搜索引擎而言是 事,但对别人的网站而言却不 定是 事了, 如可能导致对方服务器拥塞,让 些真实用户 法正常访问该网站。
 
③ 网络爬虫的抓取策略
 
网络爬虫不会在同 时间对 次性对同 网络服务器抓取多个页面,每次抓取都会有 定的间隔时间。当使用这种策略时, 须将请求队列 别大,这样才不会降低抓取效率。
 
如,网络爬虫每秒可以抓取1000个页面,在同 网站的每次抓取间隔为10秒,那么队列应该为来自10000个不同服务器的URL。
 
通常,如果发现搜索引擎抓取频率过大可以在官方进行调整或反馈,如果不希望搜索引擎抓取某些页面或整个网站,则需要设置网站根目录下的robots.txt文件即可。
 

德道网络 一站式网络服务专家
江苏省徐州市矿山路21号 服务热线:400-877-5679 德道网络©版权所有 05039780