引力聚类及其应用研究
【摘要】:数据挖掘是近年来热门的计算机应用技术,聚类是数据挖掘中重要的研究分支。聚类技术是将未分类的样本,通过其相似度进行分类,使得类簇内部样本间相似度最大,而不同类簇间相似度最小,从而发现数据集的特性和内部模式。然而,一些数据集的结构和分布呈现高度复杂性,数据挖掘也为聚类带来了大量亟待解决的问题。因此,聚类分析方法进一步研究的空间还很大。
层次聚类方法是一种常用的聚类算法,通过分解目标数据集来创建一个层次。按照层次的分解方向,它分为自下而上(凝聚方法)和自上而下(分裂方法)两种类型。
覆盖算法是构造型学习算法,通过找到一组覆盖,使得属于同一类的样本属于同一覆盖,不同类的样本不属于同一覆盖。覆盖聚类算法借鉴覆盖算法的构造性思想,找出一组覆盖,使得属于同一覆盖的样本间距离较小,不同覆盖间的样本间距离较大。我们生活的宇宙,从最初的宇宙大爆炸,宇宙所有的物质都处于混沌状态中,杂乱无章。由于万有引力的作用,使得宇宙中的物质相互吸引、靠近,进而融合形成了星系,恒星,行星等天体。这一过程和数据聚类过程极为相似,都是从最初混沌,通过对混沌中的个体进行某种聚类运算,最终得到结构清晰的聚类结果。正是由于这种相似性,我们把万有引力融入聚类算法中,改进相似度的度量方法,即从单纯的距离作为相似度,到距离与类簇的大小比值作为相似度。本文中研究了层次聚类算法(Hierarchical Clustering, HC)和覆盖聚类算法(Covering clustering algorithm, CCA),在这两个算法中,本文用引力替代距离作为相似度计算公式,提出基于引力的层次聚类算法(Hierarchical Clustering Based on Gravity, HCBG)和基于引力的覆盖聚类算法(Covering Clustering Based on Gravity, CCBG)。实验结果表明以引力作为相似度的聚类结果有一定的改进。
客户关系管理(Customer Relationship Management, CRM)将最佳的商业实践与数据挖掘、数据仓库、一对一营销、销售自动化以及其它信息技术紧密结合在一起,为企业的销售、客户服务和决策支持等领域提供了一个业务自动化的解决方案。客户细分是CRM技术中一项重要研究内容,通过对客户的有效分类,采用针对性销售策略,达到销售利润最大化。在客户细分中,最重要的两个步骤是数据挖掘和决策支持,数据挖掘即通过聚类算法找出具有相似行为的客户;决策支持即通过贝叶斯分类、决策树等方法,根据某一客户的个人资料,预测他的行为。本文在数据挖掘过程中采用基于引力的层次聚类算法,并通过朴素贝叶斯分类方法,对客户的行为进行了预测。