收藏本站
《西安电子科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

高维高噪声数据聚类中关键问题研究

彭柳青  
【摘要】:随着科技的进步,高维高噪声数据聚类在数据挖掘研究领域中处于越来越重要的地位。聚类分析作为数据挖掘的一项主要研究课题,已引起广泛重视,同时产生了大量的理论和方法,并取得了丰硕的研究成果。尽管如此,聚类仍面临着许多问题,尤其随着数据挖掘技术的广泛应用,数据对象变得日趋复杂,大量的高维数据和高噪声数据不断出现,使得聚类研究面临着“维数灾难”和聚类结果对噪声敏感等问题的挑战。这要求改进现有聚类技术,同时提出新的聚类理论和方法以适应新的应用。 本文对高维数据聚类以及健壮聚类等问题进行了较为深入的研究,主要内容包括以下几个方面: 1.针对高维数据聚类任务中类簇的形状体积常存在差异,提出了一种基于高斯混合模型(Gaussian mixture model, GMM)的子空间聚类算法。高维数据中,样本类簇通常处于子空间,且不同类簇形状可能存在差异。许多现有高维数据聚类算法仅考虑前一个因素,而对不同类簇采用同一形状体积参数。针对此问题,扩展了现有GMM聚类过程,对每个类簇计算一个权矢量和一个局部方差,并利用它们分别鉴定类簇的主要特性,包括类簇的相关维度和形状体积,从而区分不同类簇。该问题通过在GMM目标函数中加入权矢量的负熵项及自适应系数得到求解。在仿真数据和真实数据上的实验结果表明了该算法在高维数据集应用中的优越性。 2.针对高维数据聚类任务对噪声敏感的问题,提出了一种健壮的样本加权子空间聚类(Sample weighting subspace clustering, SWSC)算法。该算法基于样本加权思想,为每个样本分配一个反映离群程度的尺度参数,从而实现健壮聚类。各类簇所处的子空间继而由尺度加权的样本所确定。该算法首次将样本加权思想运用于硬划分类型的聚类算法。在二维仿真数据集、高维仿真数据集以及真实基因数据集上的对比实验结果表明,对于具有不同噪声比例的各种维度数据集,该算法均能取得较高的聚类精度,表现出较强的健壮性。 3.从特征选择角度,针对高维数据聚类任务中不同类簇常具有不同相关特征子集的特点,提出了一种基于约束混合模型(Constraint weighting mixture model, CWMM)的局部特征选择聚类算法。该算法基于现有局部特征选择混合模型,将类簇在任一维度上不相关特定分布改进为与其他类簇共同服从的同一分布,从而捕获类簇间的共性分布。类簇在任一维度上的分布由相关固有分布和同一分布加权和组合而成,两种分布的权重高低决定相应维度参与识别类簇的相关程度。算法通过对相应模型的似然函数引入各类维度权重参数的约束项实现参数估计。那些对类簇固有分布具有较大权重的维度,即组成相应类簇的局部特征子集。实验对比了不同算法在仿真数据和真实数据上的聚类性能,结果表明所提算法在类簇重叠现象的高维数据上表现出较现有子空间聚类算法更强的性能。 4.为了提高迭代优化健壮聚类算法对噪声污染数据的聚类质量,提出了一种基于K-Means均匀效应的健壮聚类初始化算法。K-Means聚类结果中各子簇样本量具有均匀一致的特点,当使用超过实际聚类数进行聚类时,将出现稀疏子簇范围大,稠密子簇范围小,以及相邻稠密子簇范围相当等现象。算法利用超过实际聚类数的K-Means聚类,通过合并邻近小子簇、丢弃稀疏大子簇,自动获得聚类初始簇并有效地消除噪声,从而实现健壮的聚类初始化。理论和实验证明了该算法的有效性。 5.针对严重噪声污染数据聚类问题,提出了一种基于自适应多测度Lq范数的健壮聚类算法。该算法利用Lq范数求解数据中心时对噪声不敏感的特性,对各类簇采用Lq范数距离测度,且对不同类簇设定相应参数qk(qk∈(1,2]),以适应类簇中不同噪声污染程度的建模需求。通过为各类簇建立一个有关参数qk的非线性变换,自适应求解参数qk,并获得健壮类簇中心。此外,算法基于聚类所得中心,给出了噪声检测过程。在仿真数据和真实数据上的实验结果均证实了所提算法在健壮中心估计和噪声检测等方面的优越性。
【学位授予单位】:西安电子科技大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP311.13

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 周静波;殷俊;金忠;;一种新的基于局部保持投影的高维数据聚类成员构造方法[J];计算机科学;2011年09期
2 李云飞;王丽珍;周丽华;;不确定数据的高效聚类算法[J];广西师范大学学报(自然科学版);2011年02期
3 支晓斌;范九伦;;基于模糊最大散度差判别准则的自适应特征提取模糊聚类算法[J];电子学报;2011年06期
4 蒋勇;谭怀亮;李光文;;基于量子遗传谱聚算法的聚类[J];计算机应用;2011年09期
5 张宇;史忠科;;快速高维均值平移算法及其在航空图像分割中的应用[J];交通信息与安全;2011年04期
6 龚卫国;张旋;李正浩;;基于改进局部敏感散列算法的图像配准[J];光学精密工程;2011年06期
7 彭宇;罗清华;彭喜元;;UIDK-means:多维不确定性测量数据聚类算法[J];仪器仪表学报;2011年06期
8 张雯雰;高守平;;改进共享策略的简单群搜索优化算法[J];计算机工程与科学;2011年07期
9 刘悦婷;;基于ISFLA的K均值聚类算法[J];工业仪表与自动化装置;2011年04期
10 孙锋利;何明一;高全华;;一种引入密度因子的改进粒子群优化算法[J];计算机应用研究;2011年08期
中国重要会议论文全文数据库 前10条
1 张岩;成利荣;;基于相对熵的基因芯片数据聚类分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 徐望;丁琦;王炳锡;;一种基于高维嵌入的词边界检测算法[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
3 邱家俊;段昊昱;;高维网机系统的失稳振荡研究及分岔分析[A];2003大型发电机组振动和转子动力学学术会议论文集[C];2003年
4 张伟;;高维非线性系统动力学的一些新进展[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
5 崔江涛;肖斌;詹海生;;面向高维数据集的近邻顺序查询方法[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
6 荆建平;孟光;孙毅;夏松波;;实际高维转子—轴承系统非线性动力学行为研究[A];第八届全国振动理论及应用学术会议论文集摘要[C];2003年
7 王霞;董远;JuhaIso-Sipil;;高维倒谱参数在抗噪声汉语语音识别中的应用[A];第六届全国人机语音通讯学术会议论文集[C];2001年
8 王秋生;高绍坤;崔勇;;基于人工免疫网络和AR模型的聚类与预测算法[A];第三届全国虚拟仪器大会论文集[C];2008年
9 刘德刚;邵国凡;;高维遥感数据分析的特征提取方法[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
10 周新华;黄道;;基于改进蚁群聚类算法的最优状态集划分[A];第二十三届中国控制会议论文集(下册)[C];2004年
中国重要报纸全文数据库 前10条
1 本报记者 显隐;高维模式软件企业突围新思路[N];经理日报;2005年
2 记者 大林;高维信诚打响进军西南第一炮[N];经理日报;2003年
3 ;江苏 坚持制度创新 提高维权水平[N];中国老年报;2003年
4 本报记者 汪若菡;两次“1+1>2”:高维信诚的移动商务“美丽新世界”[N];21世纪经济报道;2003年
5 张志峰;点滴铸就永恒[N];人民日报;2007年
6 本报记者 魏劲松实习生 柳洁;激流中谱写生命壮歌[N];经济日报;2007年
7 CPW记者 谢涛;高维信诚:搭上SAP的顺风车[N];电脑商报;2003年
8 ;高维信诚打造企业移动商务引擎[N];人民邮电;2005年
9 记者王旭燕;进一步提高维稳防控工作能力[N];铜川日报;2009年
10 李秉诚 王春;英雄未名[N];科技日报;2005年
中国博士学位论文全文数据库 前10条
1 彭柳青;高维高噪声数据聚类中关键问题研究[D];西安电子科技大学;2011年
2 杨风召;高维数据挖掘中若干关键问题的研究[D];复旦大学;2003年
3 颜学峰;高维复杂模式识别的新方法[D];浙江大学;2002年
4 曹树谦;高维复杂转子系统非线性动力学的若干现代问题研究[D];天津大学;2003年
5 张伟;网络核心节点异常流量检测与控制技术研究[D];苏州大学;2008年
6 刘正军;高维遥感数据土地覆盖特征提取与分类研究[D];中国科学院研究生院(遥感应用研究所);2003年
7 葛宏立;面向类的图像分割方法研究[D];北京林业大学;2004年
8 王晓华;一个椭圆—抛物方程组的自由边界问题[D];苏州大学;2002年
9 张志兵;空间数据挖掘关键技术研究[D];华中科技大学;2004年
10 李强;动点聚类算法及其量子化研究[D];浙江大学;2009年
中国硕士学位论文全文数据库 前10条
1 马金徽;高维混合类型数据聚类算法研究[D];内蒙古科技大学;2011年
2 马金徽;高维混合类型数据聚类算法研究[D];内蒙古科技大学;2011年
3 代志军;高维特征非线性快速筛选及其在生物信息学应用[D];湖南农业大学;2011年
4 宁晓菊;基于脉冲耦合神经网络的图像检索与数据聚类[D];西安电子科技大学;2004年
5 杜育林;基于信息熵的高维分类型数据子空间聚类算法研究[D];汕头大学;2011年
6 俞智君;基于流数据聚类的网络行为分析研究[D];哈尔滨理工大学;2011年
7 王志飞;基于遗传算法进行高维数据聚类的新算法[D];汕头大学;2011年
8 李景成;流数据聚类算法研究[D];安徽大学;2010年
9 贾江涛;基于PCNN聚类和分类的图像纹理特征提取与分割研究[D];西安电子科技大学;2005年
10 熊琅环;基于遗传算法的高维数据聚类研究[D];汕头大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026