搜索引擎的 理
2017/6/28 9:43:00来源:德道网络
搜索引擎的 理
步:爬行和抓取
搜索引擎有 种自动爬行网站页面的程序(蜘蛛),沿着网站的链接进行爬行所对应的页面。我们网站是由链接构成,所以我们网站中就不能够有死链接(打不开的链接) 须要让蜘蛛能够在网站里面畅通 阻的抓取页面。
、蜘蛛抓取策略
1.深度 先
什么是深度 先,简单的说,就是搜索引擎蜘蛛在 个页面发现发现 个链接然后顺着这个链接爬下去,然后在下 个页面又发现 个链接,然后就又爬下去并且 部抓取,这个就是深度 先抓取策略。
2.宽度 先
就是搜索引擎蜘蛛先把整个页面的链接 部抓取 次,然后在抓取下 个页面的 部链接。所以网页的层级不能太多。否则会导致网站收录难,妨碍了搜索引擎蜘蛛宽度 先策略。
宽度和深度并行使用,这样可以照顾到深度 先的网站,又可以照顾到宽度 先的网站。蜘蛛抓取的页面也就会 多。做网站的时候层级 控制在3-4 个级别。
二、如何吸引蜘蛛
1.网站和页面权重 。质量 ,资格老的网站往往会被蜘蛛认识,所以蜘蛛爬行深度也 较 ,因此内页的收录就会越多。
2.页面 新,页面 新快,蜘蛛就是频繁的访问你的网站。喜欢新的内容,它顺着新的链接进行爬行。
3.导入链接, 质量的导入链接越多会使爬行深度增加。网站收录也会增加。
4.与首页的点击距离,离首页点击距离越近,页面权重越 ,被蜘蛛爬行的机会就越大。
第二步:存储
蜘蛛抓取了链接所对应的页面,会把这些页面的内容存储到搜索引擎数据库里面。抓取都是文本内容,所以我们在 化的时候不要盲目的给网站 些图片动画,这些文件不 于蜘蛛的抓取。抓到数据库的内容都会被 度采纳。不代表内容就会被 度所采纳,搜索引擎还需处理。
第三步:预处理
1.提取文字
搜索引擎主要还是以文字内容为基础,html的格式标签和js程序等 法用于排名,所以在网站页面当中 不要放JS的程序。
2.分词
搜索引擎 化,蜘蛛将 步中提取的文字进行拆分重组,组成新的单词。
3.去重处理
去掉 些重复的内容,搜索引擎数据库里面已 存在的内容进行去重处理。
要求我们SEO 化人员在 化网站的时候不能完 抄袭别人的网站。
4.去停止词
停止词:的,得,地这类助词。美丽的中国。啊,哈,呀这类感叹词,从而,以,却这类副词或者介词。搜索引擎在索引之 会去掉这些停止词,减少 畏的计算量;要求我们在抄写文章修改力度要大,不能 是简单的修改 两字,要求我们在做SEO 化的时候修改力度大,写的和别人不 样,尤其标题千万不能 样。
第四步:建立索引
根据 面的预处理的结果,把页面关键词密度合理,内容匹配度 ,其次反向链接多的,导出链接少的,这些页面实现排序,建立索引目录。
第五步:排名
搜索引擎 过搜索词处理,文件匹配,相关性计算,过滤调整,排名显示等 系列的复杂工作不步骤完成 终的排名,当我们的用户在 度搜索框里面搜索关键词的时候, 度会把匹配度 ,流量 的站点排序展示给用户。