徐工951

新闻中心

公司新闻行内资讯建站知识

搜索引擎的理

2017/6/28 9:43:00来源：德道网络

搜索引擎的理

步：爬行和抓取

搜索引擎有种自动爬行网站页面的程序（蜘蛛），沿着网站的链接进行爬行所对应的页面。我们网站是由链接构成，所以我们网站中就不能够有死链接（打不开的链接）须要让蜘蛛能够在网站里面畅通阻的抓取页面。

、蜘蛛抓取策略

1.深度先

什么是深度先，简单的说，就是搜索引擎蜘蛛在个页面发现发现个链接然后顺着这个链接爬下去，然后在下个页面又发现个链接，然后就又爬下去并且部抓取，这个就是深度先抓取策略。

2.宽度先

就是搜索引擎蜘蛛先把整个页面的链接部抓取次，然后在抓取下个页面的部链接。所以网页的层级不能太多。否则会导致网站收录难，妨碍了搜索引擎蜘蛛宽度先策略。

宽度和深度并行使用，这样可以照顾到深度先的网站，又可以照顾到宽度先的网站。蜘蛛抓取的页面也就会多。做网站的时候层级控制在3-4 个级别。

二、如何吸引蜘蛛

1.网站和页面权重。质量，资格老的网站往往会被蜘蛛认识，所以蜘蛛爬行深度也较，因此内页的收录就会越多。

2.页面新，页面新快，蜘蛛就是频繁的访问你的网站。喜欢新的内容，它顺着新的链接进行爬行。

3.导入链接，质量的导入链接越多会使爬行深度增加。网站收录也会增加。

4.与首页的点击距离，离首页点击距离越近，页面权重越，被蜘蛛爬行的机会就越大。

第二步：存储

蜘蛛抓取了链接所对应的页面，会把这些页面的内容存储到搜索引擎数据库里面。抓取都是文本内容，所以我们在化的时候不要盲目的给网站些图片动画，这些文件不于蜘蛛的抓取。抓到数据库的内容都会被度采纳。不代表内容就会被度所采纳，搜索引擎还需处理。

第三步：预处理

1.提取文字

搜索引擎主要还是以文字内容为基础，html的格式标签和js程序等法用于排名，所以在网站页面当中不要放JS的程序。

2.分词

搜索引擎化，蜘蛛将步中提取的文字进行拆分重组，组成新的单词。

3.去重处理

去掉些重复的内容，搜索引擎数据库里面已存在的内容进行去重处理。

要求我们SEO 化人员在化网站的时候不能完抄袭别人的网站。

4.去停止词

停止词：的，得，地这类助词。美丽的中国。啊，哈，呀这类感叹词，从而，以，却这类副词或者介词。搜索引擎在索引之会去掉这些停止词，减少畏的计算量；要求我们在抄写文章修改力度要大，不能是简单的修改两字，要求我们在做SEO 化的时候修改力度大，写的和别人不样，尤其标题千万不能样。

第四步：建立索引

根据面的预处理的结果，把页面关键词密度合理，内容匹配度，其次反向链接多的，导出链接少的，这些页面实现排序，建立索引目录。

第五步：排名

搜索引擎过搜索词处理，文件匹配，相关性计算，过滤调整，排名显示等系列的复杂工作不步骤完成终的排名，当我们的用户在度搜索框里面搜索关键词的时候，度会把匹配度，流量的站点排序展示给用户。

德道网络一站式网络服务专家