服务与支持 |咨询热线 0931-8733767
  • 金城在线
  • 公司简介
  • 发展历程
  • 企业文化
  • 售后服务
  • 工作机会
  • 联系我们

搜索引擎对我们的网站做了什么

来源:发布时间:2018-4-28 9:41:26

搜索引擎主要是通过爬虫程序定期的遍历互联网,将网页的统一资源定位符(URL)、内容和采集的时间等相关信息收集到Web服务器上,然后通过必要的信息索引和存储优化处理,利用特定的检索界面为Web用户直接提供服务。它的具体工作流程包括下面几步:


(1)网页搜集:搜索引擎网页的搜索过程不是在用户提交关键词之后进行及时的搜索,而是预先搜集好网页并进行相关处理之后等待用户的查询。而网页的搜集一般利用网络爬虫程序,按照一定的搜索原则采集互联网上的网页,系统维护一个超链队列或者堆栈,从给定的起始的URL开始,下载相应的页面并分析其URL看是否已被搜集,若是还未被遍历过,就将其加入到队列或者堆栈中。并不断重复上述过程,直到队列为空。为了保证搜集网页的效率,搜索引擎一般都会有多个爬虫程序同时工作,搜集不同的Web子空间的网页。


商业搜索引擎的爬虫工作方式略有不同:允许网站的拥有者向搜索引擎提交它们站点的网址,系统收到请求后会在一定的时间内向这些网站派出爬虫程序,将该网站的所有网页及其相关信息存入数据库中。


(2)网页处理:爬虫程序将网页搜集过来之后,要分析这些网页用于索引。网页大部分都是以HTML格式存在的,而索引只处理文本信息,因此要将网页的文本提取出来,将那些和文本无关的内容去除,它主要包括4个方面的工作:关键词提取、重复或者转载网页的消除、链接分析和网页重要程度的计算。


(3)服务查询:建立索引库,并为每个网页分配一个编号,并记录该网页中出现的关键词个数和每个关键词出现的次数,位置,大小写格式等,并给该关键词一个特定的编号,这样就可以形成网页和关键词的互逆链表。


检索程序首先利用分词技术对用户查询进行分词,在索引库中进行匹配之后将和用户查询请求相关的网页从索引库中抽调出来,最后将相关度高于给定阈值的网页,按照相关度大小依次排列搜索结果返回给用户。


相关文章
  • 预约专家

    为您提供一对一解决方案
    立即预约
  • 售前咨询

    周一至周五9:00——17:30
    立即咨询
  • 联系方式

    13919049954

    全国7×24小时热线服务
  • 免费报价

    专属专业顾问1对1报价
    免费报价