一般分布区间型符号数据的聚类分析方法研究
【摘要】:
在现代社会中,互联网技术的快速发展带来信息大爆炸和数据的极大丰富,然而传统的聚类分析方法面对庞大的样本空间时有两大局限性:其一,计算的繁琐度和复杂度呈平方增长。其二,研究对象为样本点,焦点的分散导致难以从整体上把握数据特性。符号数据分析方法通过“数据打包”,将数据性质从“点数据”变为“符号对象”,从全局上把握符号对象的内在关系,挖掘深层次的规律。
区间数是一种重要的符号数据类型。现有的关于区间数据的聚类分析的研究均假定变量在区间内服从均匀分布,然而实际问题中常见非均匀分布的区间数据,如正态分布。在现有的针对均匀分布区间数据聚类分析的研究成果基础上,本论文以一般分布的区间型符号数据为研究对象,从区间变量的经验密度函数入手,逐步推导了区间变量的均值和方差等描述性统计量,继而研究了区间数据标准化问题;基于Hausdorff距离,定义了针对一般分布的区间型符号数据聚类分析方法中符号对象或类之间的距离。在此基础上,进行了系统聚类分析方法、Hierarchy-Pyramid聚类分析方法、模糊c均值聚类分析方法的研究。针对著名的C2C电子商务网站淘宝商城中主营业务为美容护肤的客户,在中国范围内选取十个有代表性的城市为符号对象,以客户客观发展状况相关指标为变量,形成区间型符号数据。分别应用上述三种聚类分析方法进行了客户分类的应用研究。
本论文提出了新的聚类分析方法,同时应用研究表明,针对一般分布的区间型符号数据聚类分析方法与针对均匀区间型符号数据的聚类分析方法相比,聚类结果更加客观、可信。