收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

聚类分析优化关键技术研究

王纵虎  
【摘要】:聚类分析作为数据挖掘的一个重要研究领域,可以有效地帮助我们分析数据的分布、了解数据的特征、确定所感兴趣的数据类,寻找隐藏在数据中的结构,以便作进一步分析和利用。本文针对现有某些聚类算法存在的不足,结合粒子群优化等方法对现有某些聚类算法存在的需要人工设置算法初始参数及提高聚类性能等问题进行了探讨并提出了解决方案。研究了成对约束先验信息如何扩展和指导聚类以提高聚类质量。针对文本数据高维稀疏的特性,对如何提高文本聚类效果进行了研究。本文研究具有一定的理论研究价值与现实的应用意义。具体研究内容包括以下几个方面: 1)提出了一种简单有效的粒子编码方法,采用新的粒子编码方法的粒子群优化K均值算法有效地解决了已有粒子群优化聚类算法当样本维数较大及样本各维的取值范围变化较大时,造成粒子群搜索空间过大,在有限次迭代搜索时影响算法的收敛速度和聚类效果,且在搜索过程中样本各维的值在一定范围内变化时可能会取到不符合样本实际情况的数值而出现空簇的情况等问题。当数据集较大时,通过将凝聚层次聚类、K均值算法与粒子群优化有机结合提出了一种两阶段混合聚类方法,通过凝聚层次聚类获得若干纯度较高的子簇作为下一阶段粒子群优化聚类的初始聚类中心搜索空间,并引入混沌思想保持粒子群的多样性,以避免粒子群优化算法可能出现的早熟现象。在多个UCI数据集和文本数据集上的实验结果表明新方法对初始聚类中心敏感性较小、收敛速度快、能有效抑制早熟现象,聚类结果的精度和稳定性显著增加。 2)提出了一种利用粒子群优化自动搜索合适的算法初始参数,同时获得对应的聚类划分的方法,解决了一些聚类算法需要人工设定初始参数,而参数选择不当将严重影响聚类性能的问题。通过将模糊C均值算法(FCM)与粒子群优化有机结合,同时对初始聚类中心和加权指数m进行编码与搜索,解决了FCM算法对初始聚类中心敏感和需要人工设置加权指数m值的问题。DBSCAN算法能够发现任意形状的类簇,但对邻域半径Eps与邻域内样本数MinPts这两个输入参数敏感。根据DBSCAN类簇扩展的特点,以DBSCAN聚类结果类簇数目与输入的预期聚类个数的符合情况作为粒子群优化适应度值,通过粒子群优化搜索,寻找最优的Eps值,同时生成预期聚类个数的聚类划分结果,解决了DBSCAN算法对输入参数Eps与MinPts敏感的问题。在已有的粒子群优化聚类算法和聚类有效性指标研究的基础上,设计了一个基于粒子群优化聚类的聚类有效性验证框架,同时对聚类个数和初始聚类中心进行编码,将聚类有效性函数作为粒子群优化适应度函数进行自动搜索,能自动确定聚类划分的最佳类簇数目,同时可以用于对不同的聚类有效性指标进行测试比较。在多个UCI数据集上比较了Sil、DB和IGP等聚类有效性指标的性能。 3)提出了一种半监督粒子群优化聚类算法。采用改进的Floyd最短路径算法对初始加入的Must-link和Cannot-link成对约束信息同时进行扩展,用扩展后的成对约束信息对相异度矩阵中相关样本间的相异度值进行修正,结合简化的粒子编码方法和融合先验信息的相异度矩阵进行粒子群优化聚类,最后将样本间的成对约束信息融合在聚类结果适应度函数的计算中,根据聚类结果中违反成对约束的情况来指导粒子群优化搜索。在多个UCI数据集上的实验结果表明本方法加入少量的成对约束先验信息就能获得聚类准确率的较大提升,聚类效果优于半监督近邻传播算法。 4)提出了一种新的初始聚类中心选择方法。通过在聚类过程中动态统计已划分和未划分的数据集合的相关信息,将这些统计信息应用到下一步类簇的划分中,逐步探测数据集中未划分归属类簇部分的相对密集区域,若此密集区域与已划分类簇覆盖度小于一定阈值,则将此区域作为一个初始聚类中心。寻找到K个初始聚类中心集合后,将剩余未划分的数据划分到最相似的类簇中,最后通过准则函数对聚类结果进行进一步优化。目前典型的聚类算法都需要不同程度人工选择阈值,而阈值选择的优劣将直接影响聚类效果。本文提出的文本聚类算法中阈值均通过在聚类过程中对数据集划分情况进行动态统计得到,避免了根据经验对不同数据集阈值设定的盲目性。该方法能够很好地排除类边缘点和噪声点的影响,能够适应数据集中各个实际类别大小及密度分布不平衡的情况。与著名的CLUTO聚类工具集的比较实验表明该方法在不同数据集上聚类效果更好,鲁棒性更强。在提出的文本聚类算法基础上进一步研究了将成对约束监督信息进行扩展并指导文本聚类,提出了一种半监督文本聚类方法。通过将成对约束嵌入文档相似度矩阵,在初始聚类中心选择、剩余文档划分及聚类结果优化过程中充分利用成对约束先验信息改进文本聚类效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 朱敏琛;魏祯;;一种基于粒子群的模糊聚类图像分割算法[J];福州大学学报(自然科学版);2010年01期
2 周世兵;徐振源;唐旭清;;新的K-均值算法最佳聚类数确定方法[J];计算机工程与应用;2010年16期
3 肖立中;邵志清;钱夕元;;一种用于网络入侵检测的杂交聚类算法研究[J];计算机工程;2007年04期
4 王桐;刘大昕;;一种基于改进粒子群优化的XML结构聚类方法[J];小型微型计算机系统;2007年05期
5 王琳;罗可;罗永红;;基于捕食-被捕食粒子群优化的模糊聚类[J];计算机工程与应用;2008年35期
6 刘志勇;耿新青;;基于模糊聚类的文本挖掘算法[J];计算机工程;2009年05期
7 崔宝珍;王泽兵;潘宏侠;;改进的FCM聚类算法[J];机械管理开发;2010年04期
8 李英;吴圆圆;宁福锦;;基于PSO的K-means改进算法在证券客户细分中的应用[J];现代图书情报技术;2010年Z1期
9 向长城;黄席樾;杨祖元;杨欣;;小生境粒子群优化算法[J];计算机工程与应用;2007年15期
10 周世兵;徐振源;唐旭清;;K-means算法最佳聚类数确定方法[J];计算机应用;2010年08期
11 冯林,张名举,贺明峰,戚正君;用改进的粒子群算法实现多模态刚性医学图像的配准[J];计算机辅助设计与图形学学报;2004年09期
12 卢冰原;古春生;谷峰;;基于粒子群优化的模糊交货期惩罚问题的研究[J];计算机工程与应用;2006年19期
13 吴延科;徐晨;李国;;基于粒子群统计规律的PSO算法[J];郑州大学学报(理学版);2006年04期
14 周国雄;吴敏;曹卫华;雷琪;;基于粒子群优化的集气管压力变结构模糊控制[J];信息与控制;2008年03期
15 袁成;蔡自兴;陈白帆;;粒子群优化的同时定位与建图方法[J];计算机工程;2009年11期
16 许相莉;张利彪;刘向东;于哲舟;周春光;;基于粒子群的图像检索相关反馈算法[J];电子学报;2010年08期
17 冯纪强;谢维信;徐晨;;T-S模糊粒子群优化建模及稳定性分析[J];电子学报;2011年05期
18 侯志荣,吕振肃;基于MATLAB的粒子群优化算法及其应用[J];计算机仿真;2003年10期
19 王岩,周春光,黄艳新,丰小月;基于最小不确定性神经网络的茶味觉信号识别[J];计算机研究与发展;2005年01期
20 刘淳安,何广平,雍龙泉;解多目标优化问题的新粒子群存档算法[J];陕西理工学院学报(自然科学版);2005年03期
中国重要会议论文全文数据库 前10条
1 赵建玉;贾磊;陈月辉;张勇;;基于粒子群优化的信号交叉口交通流预测模型[A];第二十六届中国控制会议论文集[C];2007年
2 高翠芳;吴小俊;;基于二阶差分的聚类数自动确定方法[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
3 王晓燕;王东风;韩璞;;一种分数阶系统的粒子群优化辨识方法[A];全国第三届信号和智能信息处理与应用学术交流会专刊[C];2009年
4 范业坤;梁新荣;;基于粒子群优化的高速公路匝道PI控制器[A];第二十七届中国控制会议论文集[C];2008年
5 薛艳红;胡立坤;;基于粒子群优化的配电网静止同步补偿器PI控制器整定[A];中南六省(区)自动化学会第二十九届学术年会论文集[C];2011年
6 徐俊杰;忻展红;;粒子群优化在0/1背包问题中的应用[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
7 冯祎;李霞;;一种K最近邻分类的改进算法及应用[A];2011年全国通信安全学术会议论文集[C];2011年
8 赵秋玲;周雅莉;张奇志;;基于粒子群优化的结构振动分布式反馈控制[A];2005年中国智能自动化会议论文集[C];2005年
9 薛云灿;郑东亮;岳兴汉;杨启文;;混沌粒子群优化算法及其在水库优化调度中的应用[A];PCC2009—第20届中国过程控制会议论文集[C];2009年
10 张奇志;周亚丽;;移动机器人运动规划的粒子群优化算法[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
中国博士学位论文全文数据库 前10条
1 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
2 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
3 窦全胜;求解优化问题的演化计算方法研究[D];吉林大学;2005年
4 刘丽;人工免疫网络研究及应用[D];江南大学;2008年
5 李磊;六自由度并联平台位置正解及控制方法研究[D];哈尔滨工程大学;2008年
6 马瑞新;基于粒子群的网络社区动态角色挖掘研究[D];大连理工大学;2012年
7 陈伟;群体智能算法及其在基因表达数据聚类中的应用[D];江南大学;2011年
8 陈虹;分离流动的电磁力主动控制[D];华中科技大学;2011年
9 林川;粒子群优化与差分进化算法研究及其应用[D];西南交通大学;2009年
10 宗瑜;聚类质量改进方法的研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 杨腾飞;基于量子粒子群优化的粮库选址模型研究[D];河南工业大学;2011年
2 姚丽娟;基于粒子群和粗糙集的聚类算法研究[D];长沙理工大学;2012年
3 雷烨;基于粒子群最小二乘支持向量机的故障诊断算法研究[D];兰州交通大学;2010年
4 马培培;基于粒子群的图像阈值化分割的研究及应用[D];合肥工业大学;2010年
5 姚杰;基于PSO混沌神经网络电力系统负荷预测[D];大庆石油学院;2009年
6 刘杨;粒子群优化算法在电力系统无功优化中的应用[D];天津大学;2005年
7 任晓娜;DNA计算中的编码设计优化算法[D];湖南大学;2010年
8 王琳;基于粒子群优化的数据流挖掘的聚类算法分析[D];长沙理工大学;2010年
9 王宁;基于粒子群优化的聚类算法研究[D];合肥工业大学;2010年
10 李涛;基于SVM和PSO的非线性模型预测控制及应用研究[D];上海交通大学;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978