24小时服务热线400-856-0618
新闻中心
搜索引擎如何判断互联网页面价
2018/10/13 9:31:32来源:德道网络

、什么页面价
 
面我们说了,某个页面满足了某 用户的 定需求,就体现了这个页面对用户的价 。那么对搜索引擎而言,价 体现在哪些方面呢? 个简单的推论,所有可能会对用户产生价 的页面都是对搜索引擎有价 的,将这些页面建入搜索引擎的索引中能够满足 终检索到它们用户的需求,我们称这种价 为检索价 。 要是能解决某个用户 息需求的,并且是可以通过某些正常检索需求到达的,那么就是有检索价 的。
 
有 些 息单元, 有“浏览”价 ,而没有到达该 息的检索途径,那么该资源可能是有价 的,但检索价 就很低。 如 张 度大厦附近的地图,从浏览角度,是有价 的;但是如果没有任何周边文字说明(或者link的anchor text), 有 张光秃秃的地图,就没有检索价 。当然,如果图片的内容识别技术,有朝 日能自动识别出这个是“ 度大厦附近地图”,或者能够自动分析出地图内的各种大厦、街道、餐馆等的名称,那么这张图 样变得有检索价 了。所以 个页面是否有检索价 ,应该取决于两点:
 
1) 是否能解决某个 定的需求(价 )
2) 是否可以通过某个常规的搜索方式获得该 息(检索)
 
那么,没有检索价 的页面,是否对搜索引擎就没有价 了呢?仔细想想,答案是否定的。索引 是搜索引擎的 个环节,对于其他环节而言,没有检索价 的页面有可能对我们 的收录那些检索价 的页面有帮助。 如对负责抓取互联网资源的spider而言,有 些页面,本身没有检索价 ,但通过这些页面的抓取和分析,能够 快的帮助我们掌握这 类页面没有检索价 这 重要 息,从而节 多的流量进行 加有效的抓取。
 
考虑到这种价 可以算作 种“间接的”检索价 , 终还是立足于索引价 的,在本文中就不再展开论述,我们 关注“检索价 ”这 根本问题。下文中提到的“页面价 ” 指页面的“检索价 ”。
 
二、为什么要研究页面价
 
首先,互联网 的页面是 穷尽的,而搜索引擎的硬件资源是有 的,想用有 的资源去覆盖 穷尽的互联网,我们就需要对页面价 做出判断,不收录那些 检索价 的页面,少收录那些检索价 低的页面。这是页面价 在收录控制方面的应用。
 
第二,搜索引擎spider的抓取能力是有 的,出于访问友 性的考虑,对于 个网站或 个IP抓取速率需要有 个抓取速率的 。在这 制下,抓取或页面 新就需要有 个先后顺序,而这 排序的主要参考依据就是页面价 ,或者说对页面价 的预测(未抓取时)。这是页面价 在spider调度方面的应用。
 
第三,对于某些页面,页面内容发生变化,导致它的检索价 从有到 ,典型的就是变为“死链”,或者“被黑”。对于这些页面, 的搜索引擎会在 时间将其排除出索引,或在检索时对其进行屏蔽,以保证返回给用户的结果是 多检索价 的“ 页面”。对于另 些页面,它不 具有很 的检索价 ,而且有很 的“时效性”,能够 时间让用户检索到这些页面对搜索体验有很大的提升。对搜索引擎而言,越快的收录和索引页面意味着越多的额外资源开 ,以多快的速度收录和以多短的周期 新索引,需要通过页面价 的分析来指导。这两方面是页面价 在死链率和时效性两大搜索引擎指标提升 的应用。
 
后,普遍意义 的页面价 低对搜索引擎返回给用户的结果排序 也存在着指导意义。理想情况下搜索引擎的结果是按照与查询请求的相关性进行排序的,在相关性大体相当的情况下,用户 倾向与浏览普遍意义 页面价 的网页。这是页面价 在ranking方面的应用。
 
三、如何判断页面价
 
文中提到过 个小学生张三qzone日记的例子。我们认为这个页面是有价 的,对张三的同学,朋友,家人都有价 。
 
另外,页面检索价 ,还受到页面质量的影响。相似的页面,对于满足用户需求来说,往往会有很大差异, 如资源下载速度,页面的布局,广告的多寡。这类差异,姑且称之为页面质量。
 
后,有些页面具有明显的公众话题性质,且这些资源往往在刚刚产生时有 的关注度,随着时间的推移 度显著下降,有着“新闻”的 征。典型的像各种“门”事件,地震、 灾等大型的自然灾害。我们认为这类资源具有“时效性” 征。
 

德道网络 一站式网络服务专家
江苏省徐州市矿山路21号 服务热线:400-877-5679 德道网络©版权所有 05039780