网页的自动聚类一般包括四个步骤:
(1)网页表示:包括特征抽取和特征选择。特征选择是选择那些最具有区分性的特征,也就是最能把不同类别区分开来的特征,而不是大多数对象都具有的特征。
(2)相似度计算。主要根据网页表示的距离函数来定义。
(3)聚类:根据网页表示和相似度计算的结果,按照一定的规则将聚类网页分成不同的类。
(4)给出聚类的标识。在最后形成的每一类中抽取一定具有代表性的特征,作为该类的标识。
常用的聚类方法有单遍聚类法、逆中心距聚类法、密度测试法、图聚类法等。下面对以上方法做一简要介绍。
单遍聚类法是按照一定的顺序从待分类的网页集合中取出一篇网页,任意赋予它一个新的类别,其标引向量作为该新类的聚类中心向量,此后取出的各篇网页与该类中心向量进行运算得到相似系数,当相似系数大于给定的一个预定值的时候,就将该网页归入此类,同时调整类中心向量。如果相似系数不在给定的预定值范围内,则该网页就另立新类并且创建该类中心向量。要处理的每一篇网页依次与已有的类中心向量进行比较,将其归入相似度最大(且在预定值范围之内)的类中,并且及时调整该类的中心向量。
逆中心聚类法与单遍聚类法比较类似,具体过程如下:任取一篇网页作为第一个聚类中心,计算剩下的网页到该网页的距离,距离最大的作为第二个聚类中心。计算所有非聚类中心的网页到每个聚类中心的距离,将每一篇网页到每个中心距的最小距离求出,选择出最大的最小中心距者作为新的聚类中心。当然,这个还要结合所定义的中心距离制约机制等其它条件。
密度测试法的原理是如果某个网页的附近集聚有较多的网页,并且在其周围较广的范围内也分布有一定的网页,那么该网页可作为一个聚类中心。在密度测试中,网页被划分为三种类型:未聚类网页,即还没有被集聚到任何一类中的网页;松散型网页,它们与己经存在的类中心相似度比较小,尚不具备被聚于某类的条件;己被聚类的网页。在聚类开始时,所有的网页都可以看作未聚类网页。用Di表示某篇网页,如果它同时满足以下两个条件,则可以将Di作为类别中心:至少有nl篇网页,它们与Di的相似系数都超过Tl;至少有n2篇网页,它们与Di的相似系数都超过T2,其中TI≥T2且nl≤n2。TI、T2、nl、n2都是事先给定的参数。聚类的过程如下:在未聚类网页中任取一篇,把它作为聚类中心并对其进行密度测试,测试范围为尚未聚类和松散型的网页。如果测试失败,即被测试的网页周围不具有指定数量的网页,则该网页被作为松散型网页。然后在未聚类网页中重新选取网页测试聚类中心;如果测试成功,即被测试网页周围集聚一定预定值范围内的相似网页,则该网页被作为一个聚类中心,并将其中相似度超过Tl的网页视为已聚类网页,对于相似度小于Tl又大于T2的网页,视为松散型网页,其他网页不改变原有类型。聚类过程一直持续下去到没有未聚类网页为止。最后将剩下的松散型网页就近聚集到己存在的类别中。
金城在线专注网站、软件、APP、微信公众平台、小程序、抖音、头条等开发推广,如果您有这方面的需求或者不同的观点,欢迎联系交流。
本文网址:http://lz.net.cn/zixunzhongxin/158.html