可置换的流数据聚类
本文从流数据的角度出发,设计新的适应于流数据的动态可置换聚类方法,让人们可以从多个角度去观察理解流数据,从而对很多的实际应用产生巨大的指导意义。该算法命名为AltStream,由在线和离线两部分组成。在线部分同时保持两组统计信息从而记录流数据的不断变化过程,这些信息保存在微簇结构中并定期存储数据快照。当用户需要两个可置换的聚类结果时,离线部分会根据时间区域和已知的簇个数来用一种无监督的方式获取最终的宏观簇。首先针对第一组微簇集合使用dec-kmeans算法找到两个宏观簇并将其中质量较好的作为最终结果返回给用户,而另外一个宏观簇的簇心则被抽取出来作为半监督信息来引导第二组微簇得到可置换的聚类结果。大量的实验结果表明,我们的新算法无论在质量上,还是在相异度上,都优于其它一些算法。
版权所有:中国教育和科研计算机网网络中心 Copyright © 1994-2017 CERNIC,CERNET,京ICP备05078770号,京网文[2014]2106-306号
关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@cernet.com