13919049954

搜索引擎个性化模块超强升级

作者: 日期:2017/8/25 15:09:26 人气:310

        1、数据爬取模块:作用就是利用爬虫程序追踪网上的超链接找到并下载新的页面,为建立初始的数据库做好充足的资源准备;通过回访已经抓到的互联网网页看其是否发生了变化,依次保证抓取到的信息有效;并将抓取到的 HTML、XML、AdobePDF 等格式的网页转换成文本文档的格式。


        2、索引模块:对网络爬虫抓取到的网页进行数据清洗、数据分类等,即对文本进行去除停用词、分词之后,从中找到索引项,并且用来表示文档以及生成文档库的索引表,并存储在索引数据库中。


        3、用户兴趣建模模块:利用用户查看网页的内容以及查看信息过程中的行为特征,找到用户的兴趣爱好点,为用户建立兴趣模型并保证用户兴趣的更新,为用户进行查询优化提供基础。


        4、查询日志:存放用户查看的历史网页,为查询扩展提供候选查询词文本集。


        5、查询扩展模块:根据已有的用户兴趣和用户的历史查询日志,在用户查询时对用户的查询进行优化扩展。


        6、信息检索模块:搜索引擎的功能模块,抓取网页、网页预处理,进行查询和网页的匹配计算,给出和用户查询词相关网页结果列表。该模块输入的是查询词和处理后的文档,输出的是按照相关度大小进行排序的相关文档和检索结果。


        7、用户界面模块:与用户交互的接口,可以注册登录,输入查询词进行搜索并可以查看返回结果。


            金城在线专注网站、软件、APP、微信公众平台、小程序、抖音、头条等开发推广,如果您有这方面的需求或者不同的观点,欢迎联系交流。

    官方微信

    本文网址:http://lz.net.cn/zixunzhongxin/212.html
    读完这篇文章后,您心情如何?
    • 0
    • 0
    • 0
    • 0
    • 0
    • 0
    • 0
    • 0
    更多>>网友评论
    发表评论