收藏本站
《山西大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

聚类学习的理论分析与高效算法研究

白亮  
【摘要】:聚类学习是机器学习的一个重要研究内容,被广泛应用于金融欺诈、医疗诊断、图像处理、信息检索和生物信息学等领域.目前,不同类型的聚类模型和算法已被广泛地提出和发展.然而,随着信息技术和采样技术不断地发展,需要处理的数据不断呈现出属性类型的多样性、高维性、规模的海量性、分布的不均匀性、时空特征的动态性等复杂结构.由于聚类分析是数据驱动的,不同的数据特征往往导致不同的聚类模型及算法,没有适合于所有特征的聚类学习方法.因此,当复杂数据成为现代社会中数据资源的主体时,如何从它们中发现隐藏的类结构已成为聚类学习的一个重要研究内容,并引起了广泛地关注. 本文将以复杂数据为研究对象,构建符合其相应特征的聚类模型,并对相关理论与高效算法进行了深入的研究.本文的主要研究成果有: (1)提出了一种面向高维分类数据的属性双加权优化聚类算法.在该算法中,一种新的属性加权模式被提出,并将其应用于聚类过程中形成新的聚类优化问题.严格地获得了该算法的划分矩阵、类中心集和属性权值在迭代过程中的更新规则,从而保证了算法能够在有限次迭代中获得局部最优解.证明了该算法的收敛性.实验结果表明新提出的算法既继承了Chan等人提出的属性加权算法的简单性,又有效地克服了它们在面对高维分类数据时的加权失效问题. (2)提出了一种针对快速全局K-Means聚类算法(FGKM)的加速机制.在该机制中,利用数据点的局部几何信息在保证FGKM聚类结果的同时减少其大量不必要的距离计算,从而使得FGKM聚类算法能够有效地处理大规模数据.分析了基于提出的加速机制的FGKM算法的空间和时间复杂度.实验结果表明加速后的FGKM算法相比原始的FGKM和其它改进的FGKM算法需要更少的聚类时间和距离计算次数.值得注意的是,新算法的有效性随着数据的维数和聚类数目的增加而变得更加明显. (3)揭示了非平衡数据对模糊K-Means聚类算法的表现影响以及聚类结果的“均匀效应”产生的原因.理论分析表明了模糊K-Means聚类算法相比K-Means聚类算法在聚类非平衡数据时更倾向于产生“均匀效应”,并且随着模糊因子α值的增加而变得严重.为了避免聚类结果受到“均匀效应”的影响,提出了一种基于多类中心的模糊K-Means聚类算法.在该算法中,首先应用了全局模糊K-Means聚类算法产生可信赖的类中心.进一步,基于模糊因子α和所产生的类中心之间的最大最小距离,提供了一种确定聚类数目的方法.最后,将提出的一个分离测度应用于组织多类中心去代表每个类.实验结果表明该多类中心聚类算法能够有效地聚类非平衡数据. (4)提出了一种新的面向动态分类数据流的聚类框架.在该框架中,首先提出了一种新的融合类内和类间信息的类特征描述方式以及基于它的数据类别标记方法.该方法弱化了滑动窗口中的类尺度对标记结果的影响.接着,定义了一个有效性函数,并将其应用于去评测新窗口中对象标记结果的有效性.基于该函数,概念漂移检测问题被转化为一个凸规划问题.利用该问题的最优解来帮助人们去发现漂移的概念,从而使得检测结果能够独立于数据类别标记结果.实验结果表明新的聚类框架相比其它框架不仅能够有效地标记新窗口的对象而且能准确地发现漂移的概念. (5)提出了一个泛化的聚类有效性函数,并在此基础上,分析了K-Modes目标函数、分类效用函数和信息熵函数之间的关系.分析结果表明分类效用函数在评测聚类结果的有效性上等效于信息熵函数,且优于K-Modes目标函数.由于泛化的有效性函数仅仅基于类内信息,因此,进一步回答了仅用类内信息也能够有效地评测聚类结果的问题.最后分析了聚类有效性函数的归一化在评测同一算法在不同数据集上的表现时的重要性,并给出了泛化的有效性函数在一些情况下的归一化方法. 本文的研究成果进一步丰富了面向复杂数据的聚类学习研究,为生物信息数据、Web数据、客户交易数据等相关领域的数据挖掘与知识发现提供了新的技术支撑.
【学位授予单位】:山西大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP181

【引证文献】
中国期刊全文数据库 前2条
1 滕少华;吴昊;李日贵;张巍;刘冬宁;梁路;;可调多趟聚类挖掘在电信数据分析中的应用[J];广东工业大学学报;2014年03期
2 王玲;吴璐璐;付冬梅;;一种基于密度的模糊自适应聚类算法[J];北京科技大学学报;2014年11期
中国博士学位论文全文数据库 前1条
1 张谢华;煤矿智能视频监控系统关键技术的研究[D];中国矿业大学;2013年
中国硕士学位论文全文数据库 前1条
1 樊中奎;地质资料全文聚类分析及信息提取的研究[D];中国地质大学(北京);2014年
【参考文献】
中国期刊全文数据库 前8条
1 于剑,程乾生;模糊聚类方法中的最佳聚类数的搜索范围[J];中国科学E辑:技术科学;2002年02期
2 黎铭;周志华;;基于多核集成的在线半监督学习方法[J];计算机研究与发展;2008年12期
3 张讲社,梁怡,徐宗本;基于视觉系统的聚类算法[J];计算机学报;2001年05期
4 于剑;论模糊C均值算法的模糊指标[J];计算机学报;2003年08期
5 王珏,姚一豫,王飞跃;基于Reduct的“规则+例外”学习[J];计算机学报;2005年11期
6 王开军;张军英;李丹;张新娜;郭涛;;自适应仿射传播聚类[J];自动化学报;2007年12期
7 常建龙;曹锋;周傲英+;;基于滑动窗口的进化数据流聚类[J];软件学报;2007年04期
8 肖宇;于剑;;基于近邻传播算法的半监督聚类[J];软件学报;2008年11期
中国博士学位论文全文数据库 前1条
1 张谢华;煤矿智能视频监控系统关键技术的研究[D];中国矿业大学;2013年
【共引文献】
中国期刊全文数据库 前10条
1 张晓杰,王巍巍;基于C—均值模糊聚类的工程结构构件自动归并方法研究[J];四川建筑科学研究;2005年04期
2 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
3 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
4 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
5 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
6 郇正军;赵国富;;基于土地利用的空间数据挖掘系统的设计与实现[J];安徽农业科学;2011年07期
7 李翠霞,于剑;一种模糊聚类算法归类的研究[J];北京交通大学学报;2005年02期
8 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
9 钟尚平;林静;;一个基于TSVM的GIF图像通用隐写检测方法[J];北京交通大学学报;2009年02期
10 李玉鑑;;基于最小树切割的自适应聚类方法[J];北京工业大学学报;2007年03期
中国重要会议论文全文数据库 前10条
1 ;Incremental Clustering for Categorical Data Using Clustering Ensemble[A];第二十九届中国控制会议论文集[C];2010年
2 杨青;刘晔;张东旭;刘畅;;快速查找最优初始聚类数K的改进K-means算法[A];中国自动化学会控制理论专业委员会A卷[C];2011年
3 蒋全胜;贾民平;胡建中;许飞云;;一种基于流形学习的故障模式识别方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
4 杨晓霞;朱庆;李海峰;;知识导航的遥感信息处理服务分类选择方法[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
5 陈军;潘艳;唐世星;张吉强;易东;;小脑基因表达数据的模糊多尺度聚类分析[A];重庆市预防医学会2010年论文集[C];2011年
6 李丹丹;;基于遗传模糊聚类的电子商务推荐算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 徐云峰;;一种新的取证计算模型的研究与实现[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
8 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
9 高荣;刘晓华;;短期负荷预测的模糊聚类多支持向量机模型研究[A];2009中国控制与决策会议论文集(2)[C];2009年
10 朱艳辉;王平;周咏梅;;一种基于Agent的中文Web信息自动检索系统(英文)[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
中国博士学位论文全文数据库 前10条
1 张泽宝;空间数据库的索引技术研究[D];哈尔滨工程大学;2009年
2 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
3 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
4 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
5 刘美;WSN多目标跟踪节点任务分配及跟踪算法研究[D];华南理工大学;2010年
6 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
7 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
8 杨树忠;复杂网络中的社团检测问题研究[D];北京交通大学;2009年
9 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
10 邵纪东;非线性过程监测中的数据降维及相关问题研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 马冉冉;集成学习算法研究[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
5 左国辉;基于子空间方法的人脸识别技术研究[D];哈尔滨工程大学;2009年
6 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
7 杨欣颖;潜器光视觉目标识别技术的研究与设计[D];哈尔滨工程大学;2010年
8 路瑞强;基于均值和标准差的空间索引方法研究[D];哈尔滨工程大学;2010年
9 骆永健;基于聚类的数据流异常检测算法的研究[D];哈尔滨工程大学;2010年
10 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 孙抗;汪渤;周志强;郑智辉;;基于双边滤波的实时图像去雾技术研究[J];北京理工大学学报;2011年07期
2 张立;孟相如;马志强;周华;;边界偏转覆盖增量支持向量机[J];北京邮电大学学报;2010年04期
3 高灵渲;张巍;霍颖翔;滕少华;;改进的聚类模式过滤推荐算法[J];江西师范大学学报(自然科学版);2012年01期
4 易倩;滕少华;张巍;;基于马氏距离的K均值聚类算法的入侵检测[J];江西师范大学学报(自然科学版);2012年03期
5 闫爱云;李海朋;李晶皎;王骄;;视频运动目标提取的实现[J];东北大学学报(自然科学版);2011年11期
6 汤军;孙伟;;弹道目标跟踪的自适应多维分配相关算法[J];弹道学报;2011年02期
7 郭烈;张明恒;李琳辉;赵一兵;;一种基于支持向量机的行人识别方法研究[J];大连理工大学学报;2011年04期
8 熊子源;徐振海;张亮;吴迪军;肖顺平;;基于聚类算法的最优子阵划分方法研究[J];电子学报;2011年11期
9 甘明刚;陈杰;刘劲;王亚楠;;一种基于三帧差分和边缘信息的运动目标检测方法[J];电子与信息学报;2010年04期
10 陈香苹;李生红;苏波;金波;;基于图像噪声分析的计算机生成图像检测算法[J];光电子.激光;2010年02期
中国博士学位论文全文数据库 前10条
1 许志远;雾天降质图像增强方法研究及DSP实现[D];大连海事大学;2010年
2 汤义;智能交通系统中基于视频的行人检测与跟踪方法的研究[D];华南理工大学;2010年
3 王永生;地质资料信息服务集群化产业化政策研究[D];中国地质大学(北京);2011年
4 刘献如;视频图像序列目标跟踪算法及其应用研究[D];中南大学;2011年
5 常甜甜;支持向量机学习算法若干问题的研究[D];西安电子科技大学;2010年
6 胡学友;雾天降质图像的增强复原算法研究[D];安徽大学;2011年
7 周磊;基于注意机制的煤矿监控图像知觉编组研究[D];中国矿业大学;2010年
8 厉丹;视频目标检测与跟踪算法及其在煤矿中应用的研究[D];中国矿业大学;2011年
9 王爱平;视频目标跟踪技术研究[D];国防科学技术大学;2011年
10 姚志均;目标跟踪系统中的鲁棒性研究[D];华中科技大学;2012年
中国硕士学位论文全文数据库 前1条
1 郑茜茜;基于数据挖掘的客户细分研究[D];重庆交通大学;2013年
【二级参考文献】
中国期刊全文数据库 前7条
1 于剑,程乾生;模糊划分的一个新定义及其应用[J];北京大学学报(自然科学版);2000年05期
2 范九伦,裴继红,谢维信;基于可能性分布的聚类有效性[J];电子学报;1998年04期
3 高新波,裴继红,谢维信;模糊c-均值聚类算法中加权指数m的研究[J];电子学报;2000年04期
4 于剑,程乾生;模糊聚类方法中的最佳聚类数的搜索范围[J];中国科学E辑:技术科学;2002年02期
5 高新波,谢维信;模糊聚类理论发展及应用的研究进展[J];科学通报;1999年21期
6 朱蔚恒;印鉴;谢益煌;;基于数据流的任意形状聚类算法[J];软件学报;2006年03期
7 王玲;薄列峰;焦李成;;密度敏感的半监督谱聚类[J];软件学报;2007年10期
【相似文献】
中国期刊全文数据库 前10条
1 谢娟英;马箐;谢维信;;一种确定最佳聚类数的新算法[J];陕西师范大学学报(自然科学版);2012年01期
2 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期
3 于慧娟;崔军;毋晓志;李伟;;一种改进的凝聚图聚类方法[J];山西煤炭管理干部学院学报;2010年03期
4 于剑,程乾生;模糊聚类方法中的最佳聚类数的搜索范围[J];中国科学E辑:技术科学;2002年02期
5 崔军;郭春艳;贾宗维;;一种连通非加权图的快速聚类方法[J];计算机工程与应用;2008年07期
6 岳清华;郑刚;;一种动态心电图波形聚类策略的研究[J];天津理工大学学报;2008年01期
7 王士同;陈晓峰;曹苏群;钟富礼;;基于力的类同传播聚类方法[J];江南大学学报(自然科学版);2009年04期
8 张逸清;刘文才;;聚类数的确定[J];计算机与数字工程;2007年02期
9 程慈;柴瑞敏;;聚类数的自动确定[J];科技信息(科学教研);2008年14期
10 刘燕驰;;基于密度的最佳聚类数确定方法[J];中国管理信息化;2011年09期
中国重要会议论文全文数据库 前9条
1 高翠芳;吴小俊;;基于二阶差分的聚类数自动确定方法[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
2 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 李浪波;傅彦;刘红;;基于范例推理的网格和密度聚类算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 娄冬梅;陈明;朱有娜;;一种基于密度的无参数聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 程尊平;周鼎;王晨;周皓峰;汪卫;施伯乐;;SDPHC——基于密度的分割和分层的自校聚类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 张晓峰;王丽珍;陆叶;;一种基于属性加权的不确定K-means聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 蔡军;袁华鹏;陈金海;施伯乐;;一种基于相似性分析的聚类新算法:PDS算法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 胡仲义;郭超;王永炎;刘胜航;王宏安;;基于时间衰减和特征变量的数据流聚类算法[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
中国博士学位论文全文数据库 前10条
1 胡雅婷;可能性聚类方法研究及应用[D];吉林大学;2012年
2 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
3 周世兵;聚类分析中的最佳聚类数确定方法研究及应用[D];江南大学;2011年
4 杨燕;基于计算智能的聚类组合算法研究[D];西南交通大学;2006年
5 冯永;基于计算智能的聚类技术及其应用研究[D];重庆大学;2006年
6 刘晨;高伸缩性聚类分析方法研究[D];哈尔滨工程大学;2013年
7 王强;局部叠加基因表达模式聚类分析方法研究[D];哈尔滨工业大学;2012年
8 姜磊;混合演化聚类算法研究及其应用[D];武汉大学;2012年
9 尹学松;半监督聚类分析策略设计及其拓展性研究[D];南京航空航天大学;2009年
10 白亮;聚类学习的理论分析与高效算法研究[D];山西大学;2012年
中国硕士学位论文全文数据库 前10条
1 陈奇明;基于投票策略聚类融合算法的研究和实现[D];安徽工业大学;2010年
2 高昇;基于密度聚类算法的改进方法研究[D];大连理工大学;2007年
3 吴书;类属型数据的聚类算法研究[D];厦门大学;2007年
4 谢信喜;符号聚类新方法的研究及应用[D];江南大学;2008年
5 黄海超;基于领域知识的半监督聚类算法研究[D];北京化工大学;2009年
6 朱国红;基于特征点选择的聚类算法研究与应用[D];山东大学;2010年
7 晏寒冰;结构聚类分析方法及应用研究[D];江南大学;2014年
8 张斌;基于模糊核聚类的基因芯片数据的研究[D];燕山大学;2010年
9 盛荣芬;聚类融合算法及其在移动渠道管理中的应用[D];中南大学;2011年
10 何堃;基于聚类的用户特征分析[D];扬州大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026