搜索引擎的处理的过程是怎么样的
2018/8/18 9:14:09来源:德道网络
、索引是什么?
① 索引在搜索引擎 化简单解释
指已 被收录且参与关键词排名的页面。
② 索引的通俗解释
索引就像是图书的目录,根据目录中的页码快速找到所需内容。
③ 索引在 度 科中的解释
在关系数据库中,索引是 种单 的、物理的对数据库表中 列或多列的 进行排序的 种存储结构,它是某个表中 列或若干列 的集合和相应的指向表中物理标识这些 的数据页的逻辑指针清单。
二、索引的作用
① 保证数据的准确性
唯 的索引 对应着唯 的数据。
② 加快检索速度
索引可以 大加快检索速度。
③ 提 系统性能
索引可以有效提 系统性能。
三、 度索引量——索引的处理过程
① 提取文字
搜索引擎蜘蛛抓取页面之后,从HTML中找出单纯文字 息,JavaScript代码、HTML标记语言的普通标签对搜索引擎来讲是毫 意义的。
除了提取普通文章外,还会提取图片或Flash的alt属性中的文字、以及链接锚文本等,同时,还有meta标签中的标题与页面描述 息。
② 中文分词
中文分词:指的是将 个汉字序列切分成 个个单 的词。
在英文的行文中,单词之间是以空格作为自然分界符的,而中文 是字、句和段能通过明显的分界符来简单划界,唯 词没有 个形式 的分界符,虽然英文也同样存在短语的划分问题,不过在词这 层 ,中文 之英文要复杂得多、困难得多。
中文分词有三类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
字符匹配:它是按照 定的策略将待分析的汉字串与 个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出 个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度 先匹配的情况,可以分为 大( 长)匹配和 小( 短)匹配。
理解法:这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析, 用句法 息和语义 息来处理歧义现象。
统计法:从形式 看,词是稳定的字的组合,因此在 下文中,相邻的字同时出现的次数越多,就越有可能构成 个词。因此字与字相邻共现的频率或概率能够较 的反映成词的可 度。
到底哪种分词算法的准确度 ,目 并 定论。对于任何 个成熟的分词系统来说,不可能单 依靠某 种算法来实现,都需要综合不同的算法。
了解完中文分词之后,对SEO有帮助吗?当然是有的。
当我们搜索 个词或词组或短语,在搜索引擎结果页面 点击那些页面的快照,根据颜色不同可以看到是否是 个词,还是两个词。
然而搜索“搜索引擎 化培训”这个词时, 显示 种颜色哦。词很长可能也是 个词,词很短,也可能会被分成多个词。
每个搜索引擎都有不同的分词技术,可以 用快照的方式简单来了解,但快照 是了解并 真正就是那样分词的。
③ 消除噪声
消除噪声是什么呢?
文章页面的右侧几乎都是相同的,那么消除噪生就是将这些因素排除在外,因为本身没有任何意义。
④ 去重处理
去重处理是指同 网站或不同网站拥有了几乎相同的页面,搜索引擎蜘蛛在进行索引之 需要识别和删除这些内容。
这种情况 般发生在采集站 较多,如果是 权重站点,有 些转载也是正常的,也是可以参与索引排序的。
⑤ 去停止词
停止词就是指那些在文章中用的 较多的词,如“的”、“得”、“地”、“这”、“那”等,还有英文中的“the”、“of”、“or”等。
⑥ 正向索引
正向索引就是将 个页面与多个关键词对应。
页面对应多关键词。
例如首页可以有很多个关键词,其实文章页面也是如此。
⑦ 反向索引
反向索引,是指某 关键词与多个页面对应。
关键词对应多页面。
反向索引是 用了正向索引数据进行重新构造而成,这也就是用户搜索关键词之后,为什么能立刻找到所有 含这个关键词的页面的 因。
⑧ 链接算法
链接算法让这些页面拥有了不同的网站权重与页面权重,也是让这些页面拥有不同排名的重要 因之 。
如,在搜狐自媒体 发布 篇文章,可能就 般小站点的权重 很多。这就是网站权重带来的文章页面的权重也随之提 。
再 如,某 文章被很多网站引用并留下了链接,这篇文章的排名也会很 。
常见链接算法:Google PR、THIS算法、李彦宏 链算法、TruskRank算法、Hilltop算法。
⑨ 质量与 创评估
搜索引擎通过 定的算法可以评估文章的质量与是否为 创, 度熊掌号的 创保护功能就是 的证明。
除了文字 创与数量的质量外,还有页面的打开速度、落地页是否符合规范等等,都是质量评估的重要因素。
⑩ 图片、视频、office等文件
搜索引擎目 法很 地识别与抓取这些文件中的内容,所以大部分都是以标题与描述来得知其内容,几乎 有大站的视频页面排名很 , 般的站点的页面假如 有视频,排名都不 。目 的方法是与 度搜索视频合作。