13919049954

搜索引擎对我们的网站做了什么

作者:金城在线 日期:2018/4/28 9:41:26 人气:312

搜索引擎主要是通过爬虫程序定期的遍历互联网,将网页的统一资源定位符(URL)、内容和采集的时间等相关信息收集到Web服务器上,然后通过必要的信息索引和存储优化处理,利用特定的检索界面为Web用户直接提供服务。它的具体工作流程包括下面几步:


(1)网页搜集:搜索引擎网页的搜索过程不是在用户提交关键词之后进行及时的搜索,而是预先搜集好网页并进行相关处理之后等待用户的查询。而网页的搜集一般利用网络爬虫程序,按照一定的搜索原则采集互联网上的网页,系统维护一个超链队列或者堆栈,从给定的起始的URL开始,下载相应的页面并分析其URL看是否已被搜集,若是还未被遍历过,就将其加入到队列或者堆栈中。并不断重复上述过程,直到队列为空。为了保证搜集网页的效率,搜索引擎一般都会有多个爬虫程序同时工作,搜集不同的Web子空间的网页。


商业搜索引擎的爬虫工作方式略有不同:允许网站的拥有者向搜索引擎提交它们站点的网址,系统收到请求后会在一定的时间内向这些网站派出爬虫程序,将该网站的所有网页及其相关信息存入数据库中。


(2)网页处理:爬虫程序将网页搜集过来之后,要分析这些网页用于索引。网页大部分都是以HTML格式存在的,而索引只处理文本信息,因此要将网页的文本提取出来,将那些和文本无关的内容去除,它主要包括4个方面的工作:关键词提取、重复或者转载网页的消除、链接分析和网页重要程度的计算。


(3)服务查询:建立索引库,并为每个网页分配一个编号,并记录该网页中出现的关键词个数和每个关键词出现的次数,位置,大小写格式等,并给该关键词一个特定的编号,这样就可以形成网页和关键词的互逆链表。


检索程序首先利用分词技术对用户查询进行分词,在索引库中进行匹配之后将和用户查询请求相关的网页从索引库中抽调出来,最后将相关度高于给定阈值的网页,按照相关度大小依次排列搜索结果返回给用户。


            金城在线专注网站、软件、APP、微信公众平台、小程序、抖音、头条等开发推广,如果您有这方面的需求或者不同的观点,欢迎联系交流。

    官方微信

    本文网址:http://lz.net.cn/SEOyouhua/914.html
    读完这篇文章后,您心情如何?
    • 0
    • 0
    • 0
    • 0
    • 0
    • 0
    • 0
    • 0
    更多>>网友评论
    发表评论