13919049954

搜索引擎的两种最基础的排名算法

作者:金城在线 日期:2018/4/27 9:51:38 人气:314

通过调查发现,用户在查看搜索引擎返回的查询结果时只会点击查看前几页的网页。排名算法是搜索引擎的重要环节,每个独立的搜索引擎都有自己独特的排名算法,所以在使用不同的搜索引擎进行相同的查询时返回的文档结果也是不同的。


1、基于超链接的排名算法


基于超链接的排名算法有两种具有代表性的算法:PageRank算法和HITS算法。


PageRank算法根据指向一个网页的数量或者是被权重较大的网页指向等来衡量该网页的重要程度,是客观衡量该网页的价值的标准,而且计算该网页的重要程度可以实现离线计算,减少了查询时的处理时间。


HITS算法是对PageRank算法的改进和补充,它考虑到这种状况,一个网页本身可能并不重要但是它指向很多其他重要的网页,所以这种网页也具有很大的价值。所以在进行查询时,要充分的进行匹配将以上两种网页按照权值大小依次输出。


2、基于向量空间的排名算法


作为表示文档的工具,向量空间模型把文档看做是t维特征组成的一个向量,特征的定义可以采取不同方式,可以是单词、词组、N-gram片段等多种形式,最常用的还是以单词作为特征。其中每个特征会根据一定的依据计算其权重,这t维带有权重的特征共同组成了一个文档,用这些表示文档的主题内容。


用户查询和文本都可以表示为向量,这样就可以计算查询和文档之间的相似度了,相似度值越大,就说明查询词和该文档的相关性越大,越符合用户的查询。


该方法是经常用到的排名方法,也取得了不错的效果。但是还存在一个问题,就是有些文档没有直接包含和查询词一致的特征词,所以利用该算法时对于有歧义和相似性的特征词进行查询时,就会漏检一部分相关文档。


            金城在线专注网站、软件、APP、微信公众平台、小程序、抖音、头条等开发推广,如果您有这方面的需求或者不同的观点,欢迎联系交流。

    官方微信

    本文网址:http://lz.net.cn/SEOyouhua/909.html
    读完这篇文章后,您心情如何?
    • 0
    • 0
    • 0
    • 0
    • 0
    • 0
    • 0
    • 0
    更多>>网友评论
    发表评论