化之搜索引擎 理之网页去重 理
2018/5/10 9:23:10来源:德道网络
去重的工作 般会在分词之后和索引之 进行,搜索引擎会在页面已 分出的关键词中,提取部分具有代表性的关键词,然后计算这些关键词的“指纹”。每 个网页都会有个这样的 征指纹,当新抓取的网页的 建辞职文和已索引网页的关键词指纹有重合时,那么该网页就可能会被搜索引擎视为重复内容而放弃索引。
实际工作中的搜索引擎,不 使用分词步骤所分出的有意义的关键词,还会使用连续切割的方式提取关键词,并进行指纹计算。连续切割就是以单个字向后移动的方式进行切词, 如,“ 度开始打击 链接”会被切成“ 度开”“度开始”“开始打”“始打击”“打击 ”“击 ”“ 链接”“ 链接”。然后从这些词中提取部分关键词进行指纹计算,参与是否重复内容的对 ,具体的可以参考搜索引擎 理之中文分词技术这篇文章,这 是搜索引擎识别重复网页的基本算法,还有很多其他对付重复网页的算法。
因此网络 流星的大部分伪 创工具,不是不能欺骗搜索引擎,就是把内容做的鬼都读不通,所以理论 使用普通伪 创工具不能得到搜索引擎的正常收录和排名。但是由于搜索 度并不是对所有的重复页面都直接抛弃不索引,而是会根据重复网页所在网站的权重适当放宽索引标准,这样使得部分作弊者有机可乘, 用网站的 权重,大量采集其他站点的内容获取搜索流量。不过 过 度搜索多次升级算法,对采集重复 息,垃圾页面进行了多次重量级打击。
所以SEO在面对网站内容时,不应该再以伪 创的角度去建设,而需要以对用户有用的角度去建设,虽然后者的内容不 定 是 创, 般如果网站权重没有大问题,都会得到健康的发展。
另外,不 是搜索引擎需要“网页去重”,自己做网站也需要对站内页面进行去重。 如分类 息、B2B平台等UGC类的网站,如果不加以 制,用户所发布的 息 然会有大量的重复,这样不 在SEO方面表现不 ,站内用户体验也会降很多。
又如SEOer在设计流量产品大批量产生页面时,也需要做 个重复过滤,否则就会大大降低产品质量。seoer所设计的流量产品常见的 般以“聚合”为基础的索引页、 题页或目录页,“聚合”就 须有核心词,不加以过滤,海量核心词所扩展出来的页面就可能会有大量重复,从而导致该产品效果不 ,甚至会因此被搜索引擎降权。