24小时服务热线400-856-0618
新闻中心
搜索引擎的工作 理
2017/5/18 9:19:24来源:德道网络

 

 

搜索引擎的工作 理

 

 

     搜索引擎的基本工作 理 括如下三个过程:首先在互联网中发现、搜集网页 息;同时对 息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

     1、抓取网页。每个 立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的 链接,从这个网站爬到另 个网站,通过 链接分析连续访问抓取 多网页。被抓取的网页被称之为网页快照。由于互联网中 链接的应用很普遍,理论 ,从 定范围的网页出发,就能搜集到 大多数的网页。

     2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中, 重要的就是提取关键词,建立索引库和索引。其他还 括去除重复网页、分词(中文)、判断网页类型、分析 链接、计算网页的重要度/丰富度等。

     3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供 段来自网页的摘要以及其他 息。

     在搜索引擎分类部分我们提到过 文搜索引擎从网站提取 息建立网页数据库的概念。搜索引擎的自动 息搜集功能分两种。 种是定期搜索,即每隔 段时间( 如Google 般是28天),搜索引擎主动派出“蜘蛛”程序,对 定IP地址范围内的互联网站进行检索, 旦发现新的网站,它会自动提取网站的 息和网址加入自己的数据库。

     另 种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在 定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关 息存入数据库,以备用户查询。由于搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目 的办法是多获得 些外部链接,让搜索引擎有 多机会找到你并自动将你的网站收录。

     当用户以关键词查找 息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用 殊的算法——通常根据网页中关键词的匹配程度,出现的位置、频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度 低,按顺序将这些网页链接返回给用户。

  

德道网络 一站式网络服务专家
江苏省徐州市矿山路21号 服务热线:400-877-5679 德道网络©版权所有 05039780