13919049954

搜索引擎的信息清洗抽取流程

作者:金城在线 日期:2018/4/23 10:47:37 人气:314

根据搜索引擎文本相似度算法,需要从网页中提取出相关特征信息。从网页HTML代码中提取指定的特征信息,一般先要清洗掉网页HTML编码中的无用信息或噪声数据,然后再从清洗好数据中提取出想要的信息。根据文本相似度算法,我们需要从网页中提取标题,网页中定义的关键字、描述性文本、粗体字,网页正文,网页中的链接、图片等供排序分析使用。


信息清洗抽取流程描述如下:

(1)线程采集程序首先获取当前任务(URL)的网页编码。


(2)启动清洗器,并初始化。


(3)清洗掉网页编码中的样式编码和注解编码。


(4)清洗掉网页编号中的JAVASCRIPT代码,并同时根据JS编码信息识别当前网页是否存在视频。如果存在视频,则进行保存。


(5)将网页代码分成head和body两部分。


(6)从head部分中,获取到网页的标题、摘要描述信息、网页关键字。


(7)从body部分的编码中获取到这个网页的子链接与外链接、粗体字、网页正文、图片、未知的站点、邮箱地址、音乐、文档等信息。


(8)将提取后的信息进行压缩转换成易于存储的格式并进行存储。


(9)清洗结束。


            金城在线专注网站、软件、APP、微信公众平台、小程序、抖音、头条等开发推广,如果您有这方面的需求或者不同的观点,欢迎联系交流。

    官方微信

    本文网址:http://lz.net.cn/zixunzhongxin/885.html
    读完这篇文章后,您心情如何?
    • 0
    • 0
    • 0
    • 0
    • 0
    • 0
    • 0
    • 0
    上一篇: 搜索引擎的分类
    更多>>网友评论
    发表评论