Web文本聚类技术及聚类结果可视化研究
【摘要】:
随着Internet和计算机网络技术的飞速发展,Web已经成为一个海量的、动态的、异构的信息资源库。人们急需从大量的Web数据资源中快速、有效地获取感兴趣的知识和模式。而Web文本聚类是Web数据挖掘的核心基础研究课题之一。聚类分析具有压缩搜索空间、加快检索速度等多方面的作用,它能帮助知识工作者高效而准确的发现与某个文本最相似的文本;提高信息检索系统的返回率(Recall)和精确度(Precision);能提高搜索引擎的个性化推荐度。因为在Web网络上最常见的数据格式就是以HTML标记语言表示的Web文本,所以对Web文本进行聚类分析是一项非常重要并且很有价值的工作。本文主要研究Web文本聚类及聚类结果的可视化技术。
本文首先介绍了文本聚类的概念和Web数据挖掘分类,以及常用的文本聚类方法,以及相关数据预处理、簇评估和聚簇可视化等相关技术。
其次,系统阐述了Web文本聚类系统的处理流程,以及涉及到的关键技术,分析了这些技术的研究现状和存在的问题。
然后,分析了K-Means基本算法思想基础上,提出一种新的针对Web文本聚类的特征权重调整公式,该权重优化公式综合考虑了HTML文本标签信息和Web文本位置语义,同时,增加了信息增益权重计算因子,提高特征词的类区分能力。本文同时在总结和分析现有数据可视化基础上,对传统的平行可视化方法和2D散点图进行改进,实现了基于平行坐标数据动态可视化聚类分析和更直观的维嵌套数据表示方法。增强了传统平行坐标数据可视化方法的交互性、实用性和信息反馈的即时性。
最后,在以上研究基础上,设计并实现了一个并行K-means聚类算法和Web文本聚类原型系统,可进行并行K-means算法的划分聚类和基于层次的组平均聚类。利用几组Web文本数据集对基本的K-means算法和改进的算法以及基于层次的组平均算法进行试验和比较,验证改进算法的有效性。实验结果表明:并行K-means算法的聚类结果与串行算法相同,但执行效率得到了很大的提高。