收藏本站
《山西大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

面向分类数据的聚类算法研究

曹付元  
【摘要】: 聚类分析作为一种非监督学习方法,是机器学习领域中一个重要的研究方向.同时,聚类技术也是数据挖掘中进行数据处理的重要分析工具和方法.目前,针对数值数据的聚类分析研究已经取得了丰硕的成果,然而,在现实世界中,存在大量分类数据.由于分类数据缺乏固有的几何特性不能直接进行数值运算,相应的聚类模型及其算法的设计与数值数据有较大不同,且相对来说也比较复杂.近年来,针对分类数据的聚类分析研究引起了广泛的关注. 本文对分类数据聚类分析中的若干问题进行了研究,包括分类数据的初始类中心选择算法、相似性度量以及针对高维、海量、时序分类数据的聚类算法.本文的主要研究成果有: (1)提出了一个针对分类数据的初始类中心选择算法,该算法扩展了传统的最大最小距离算法.通过定义对象的密度给出了第一个类中心的确定方法,克服了最大最小距离算法任意选择一个对象作为第一个类中心的不足;在计算剩余类中心时,不仅考虑了已有类中心和对象之间的距离,而且考虑了对象的密度,克服了孤立点作为初始类中心的可能性.实验结果表明,提出的初始类中心选择算法较随机选择能显著提高k-modes和Fuzzy k-modes算法的聚类精度. (2)基于生物遗传分类学原理,通过粗糙隶属函数定义了对象在给定属性集下的相似性,进一步改进了文[64]提出的相异性度量.改进的相异性度量统一了对象之间以及对象与"mode"之间的相异性度量,并将其应用于k-modes聚类算法中,分析了算法的收敛性和时间复杂度.实验结果表明基于改进相异性度量的k-modes算法能有效地在处理大规模数据,特别是在具有遗传分类特征的数据集上较目前的聚类方法有明显的优势. (3)针对海量分类数据,基于数据抽样技术和粗糙集理论中的粗糙隶属函数,给出了一种未标签对象和抽样数据聚类结果之间的相似性度量,并设计了一种数据标签算法,并分析了算法的时间复杂度.实验结果表明提出的算法较传统的k-modes算法和一些数据标签算法在聚类精度上有一定的提高. (4)针对高维分类数据,基于信息熵给出了一种属性在聚类过程中重要性的度量方法,并提出了一个软子空间聚类算法,同时分析了算法的时间复杂度.实验结果表明提出的算法较k-modes算法和一种带权的混合数据聚类算法不仅在聚类精度上有显著提高,而且可以通过属性权重阈值的设置给出不同类对应的不同属性子集,有助于用户理解和解释聚类结果. (5)提出了时序分类数据的聚类算法,主要包括:①基于粗糙集理论中的粗糙隶属函数和滑动窗口技术,给出了两个概念之间的相似性度量,并提出了概念漂移检测算法;②基于粗糙隶属函数给出了当前滑动窗口中的对象和上一个滑动窗口聚类结果之间的相似性度量,并提出了数据标签算法;③基于两个概念之间的相似性度量,提出了不同时刻聚类结果的可视化算法.同时,分析了提出算法的时间复杂度.实验结果表明,提‘出的算法不仅能够有效地提高聚类精度、检测到漂移的概念,而且能观测到不同时刻聚类结果的演化趋势. (6)基于B/S架构,设计并实现了一个智能数据挖掘实验系统.系统包括数据输入、数据处理、统计分析、数据挖掘、图形可视化、系统维护等功能,并在山西某电信运营商的数据分析中得到应用.系统采用组件式开发和Ajax技术,保证了系统具有良好的可扩充性和交互性. 本文的研究成果进一步丰富了分类数据聚类分析的研究,为生物信息数据、Web数据、客户交易数据等相关领域的数据挖掘与知识发现提供了新的技术支撑.
【学位授予单位】:山西大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP181

【相似文献】
中国期刊全文数据库 前10条
1 贺杨成;王士同;江南;;成对约束的属性加权半监督模糊核聚类算法[J];计算机工程与应用;2011年24期
2 王国辉;林果园;;基于图聚类的入侵检测算法[J];计算机应用;2011年07期
3 赵杰;;基于聚类算法的硬件维护求解方法初探[J];太原城市职业技术学院学报;2011年07期
4 彭宇;罗清华;彭喜元;;UIDK-means:多维不确定性测量数据聚类算法[J];仪器仪表学报;2011年06期
5 史迎春;刘继超;;基于分类聚类技术的影视数据挖掘研究[J];软件导刊;2011年06期
6 程德志;李言俊;余瑞星;;基于改进SIFT算法的图像匹配方法[J];计算机仿真;2011年07期
7 张桂芬;;数据挖掘技术在图书馆中的应用研究[J];煤炭技术;2011年07期
8 黄韬;刘胜辉;谭艳娜;;基于k-means聚类算法的研究[J];计算机技术与发展;2011年07期
9 李艳灵;魏涛;;基于轮廓波变换的模糊聚类图像分割[J];信阳师范学院学报(自然科学版);2011年03期
10 石慧;翁福利;;一种基于关联矩阵的直觉模糊聚类算法[J];重庆文理学院学报(自然科学版);2011年04期
中国重要会议论文全文数据库 前10条
1 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
2 马凯;苏一丹;;一种基于序列相似性的蚁群聚类算法[A];广西计算机学会2009年年会论文集[C];2009年
3 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
5 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
6 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
7 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
9 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国重要报纸全文数据库 前5条
1 ;视频数据中挖“宝”[N];计算机世界;2002年
2 甘仞初(中国):北京理工大学管理与经济学院首席教授,IFIP中国计算机辅助生产管理专委会主席;基于案例推理的信息系统总体设计[N];中国计算机报;2000年
3 中科院自动化所生物特征认证与测评中心 李江伟;知人知面 知身份[N];计算机世界;2003年
4 本报记者 赵凤华 通讯员 戴世勇 陶春明;本科生登上全国学术会议讲坛[N];科技日报;2008年
5 本报记者 于翔;多元管理防范金融风险[N];网络世界;2010年
中国博士学位论文全文数据库 前10条
1 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
2 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
3 曹付元;面向分类数据的聚类算法研究[D];山西大学;2010年
4 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
5 黎刚果;基因模块识别与分析相关问题研究[D];国防科学技术大学;2010年
6 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年
7 张鸿雁;基于DNA计算的聚类算法研究[D];山东师范大学;2011年
8 李珊珊;计算机视觉中特征与相似性度量研究[D];中国科学技术大学;2010年
9 孙鹏岗;聚类算法研究及其在网络模块性分析中的应用[D];西安电子科技大学;2011年
10 梅娟;复杂生物网络聚类分析方法[D];江南大学;2010年
中国硕士学位论文全文数据库 前10条
1 金晓慧;基于流形距离和核函数的进化聚类算法研究及其应用[D];西安电子科技大学;2010年
2 卜德云;自适应谱聚类算法的研究与应用[D];南京航空航天大学;2010年
3 孙玉侠;数据挖掘中的谱聚类算法研究[D];中国海洋大学;2010年
4 刘荣辉;基于主动学习的半监督谱聚类算法研究[D];重庆大学;2011年
5 石洪竺;量子进化聚类算法研究[D];西安电子科技大学;2010年
6 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年
7 张珠玉;聚类算法及其在日志数据处理中的应用研究[D];山东师范大学;2011年
8 叶冲轶;高维海量数据联合聚类算法的研究与应用[D];浙江工商大学;2010年
9 王蓓金;蛋白质网络模块分解的密度聚类算法研究[D];西安电子科技大学;2010年
10 姚毓凯;一种有效的自适应网格密度聚类算法研究[D];兰州大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026