24小时服务热线400-856-0618
新闻中心
SEO 化人 懂的搜索引擎 理(二)
2016/11/26 14:38:45来源:德道网络

 

SEO 化人 懂的搜索引擎 理(二)

         做为 个称职的seo 化人,搜索引擎的守护者,在了解了什么是搜索引擎及其 理之后我们还不得不对它的运行规律、工作 理、习性、 缺点做了解,同时也不是了解理论就可以,还需要不断地实践,通过实践得真理,通过实践得到 验。那么搜索引擎到底是如何工作的呢?

、搜索引擎爬行抓取

1)爬行抓取是搜索引擎工作 重要的 部分,爬取网页回来分析,其实可以分为三小部分来理解:

       1、批量抓取所有网页,这种技术的缺点是浪费带宽,时效性不 。

       2、增量收集,在 者的基础 进行技术改进,爬取 新的网页,并删除掉重复的内容以及 效的链接。

       3、主动提交地址到搜索引擎,当然这种主动提交的方式被认为是审核期加长,这在部分seo资深人员看来是这样。

2)在链接爬取的过程中通常有两种方式我们需要理解,现在我们来了解 下深度 先以及广度 先

     1、深度 先

蜘蛛从 级A开始抓取, 如先从A ——F——G,再从A——E——H——I,依次类推。
深度 先
     2、广度 先
主要指蜘蛛在 个页发现多个链接,先爬取所有 层,然后接着是第二层,第三层。。依次类推。
广度 先
 
3)针对重复网页,我们需要访问列,同时也需要收集重要网页的机制
      1、目 ,搜索引擎可以用已访问列表以及未访问表来记录这个过程,这样 大的减少了搜索引擎的工作量。
      2、重要的网页需要重点收录,主要可以通过几方面来实现, 如:目录越小有 于用户体验,节 蜘蛛爬行时间; 质量外链增加网页权重; 息 新及时,提 搜索引擎的光顾率;网站内容 质量, 创。
第二、预处理是搜索引擎 理的第二步
1、把网页爬取回来,就需要多个处理阶段,其中之 就是关键词提取,把代码爬取下来,对排名 意义的统统去除掉,剩下的是用于关键词排名的文字。
2、去除停用词,有些 家也称之为停止词, 如我们常见的:的、地、得、啊、呀、哎等 意义词。
3、中文分词技术,基于字符串匹配的分词方法以及统计分词方法。
4、消除噪声,把网站 的广告图片、登录框之类的 息去队掉。
5、分析网页,建立倒排文件方法倒排文件
6、相关链接关系算法
第三、用户服务输出
过多重处理,我们就已 得到了数据,并且能够得到重要关键词组合,当用户搜索时,就可以立即返回所需要的 息。并且随着发展,搜索引擎的输出展示也越来越重视用户体验。
 

德道网络 一站式网络服务专家
江苏省徐州市矿山路21号 服务热线:400-877-5679 德道网络©版权所有 05039780