服务与支持 |咨询热线 0931-8733767
  • 金城在线
  • 公司简介
  • 发展历程
  • 企业文化
  • 售后服务
  • 工作机会
  • 联系我们

搜索引擎的内容分类收录原理

来源:发布时间:2018-5-2 10:00:39

信息能够及时更新,网页内容能够进行去重过滤,查询信息准确是垂直搜索引擎的几个特点。垂直搜索引擎能够根据定义好的主题进行选择性的搜集特定类型的网页。由于垂直搜索引擎对某一领域进行信息获取,选择性的收集网页,从而使得信息收集难度降低。网络爬虫技术,网页内容提取技术,中文分词技术,索引技术,是垂直搜索引擎的几大关键技术。垂直搜索引擎的工作流程如下:


1.首先网络蜘蛛根据预先设定好的初始url种子,然后根据网络爬虫的爬取策略(深度或广度搜索等),爬取深度,爬取方式(多线程或单线程)遍历该站点下的超链接url,爬虫根据所获取的url,通过网页信息提取模块对网页的主题内容进行抽取,网页主题提取过程中,需要过滤掉无用的html标签、广告等跟页面主题无关的内容,同时提取出网页的标题,页面的编码方式,meta数据,网页主题等。


2.网络爬虫模块和信息提取模块在收集完信息后,接着需要对信息进行索引。网页索引建立过程中,需要利用中文分词技术对收集到的信息进行处理。然后把建立后的索引放入索引数据库。索引的建立是为检索服务,良好的索引技术能够加快用户的检索速度。


3.用户建立索引后,开始建立搜索模块,为了达到一个良好的人机交互效果,需要建立一个呈现良好的搜索界面,搜索模块主要负责建立一个供用户查找信息的界面。通过这个搜索界面,用户输入关键词,然后搜索模块进行处理,最后把结果呈现给用户。


相关文章
  • 预约专家

    为您提供一对一解决方案
    立即预约
  • 售前咨询

    周一至周五9:00——17:30
    立即咨询
  • 联系方式

    13919049954

    全国7×24小时热线服务
  • 免费报价

    专属专业顾问1对1报价
    免费报价