收藏本站
《山东师范大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向不确定性数据的聚类算法研究

刘位龙  
【摘要】:聚类作为数据挖掘/知识发现的基础方法,其应用涉及工程领域(如机器学习、模式识别、信号处理、信息压缩)、计算机科学(包括Web挖掘、信息检索、图像分割等)、生命医学领域的基因功能识别与疾病诊断、天文与地球学(星体分类、地理地貌分析等)、社会科学领域(人的行为模式分析、社会网络分析、犯罪心理学、考古发现等)以及经济领域中的客户特征与购买模式分析、企业分类和股票趋势分析等。在聚类的广泛应用中,由于测量不精确、采样误差、过时数据源以及人们的认知不足等造成数据本身存在模糊、随机等各种不确定性。数据的不确定性给数据的聚类分析带来巨大挑战。一方面,在传统数据预处理中采用消除数据的不确定成分,往往会影响聚类结果的质量,另一方面,已有的面向确定性数据聚类算法中引入数据的不确定性特征会带来算法复杂性问题。 聚类作为数据挖掘的重要领域,在不确定数据聚类技术方面也得到了广泛研究。学者们通过采用概率密度函数对不确定对象进行建模并扩展已有聚类算法,提出了包括K-Means算法的改进版本UK-Means、改进的EM算法、基于密度的FDBSCAN算法以及面向层次聚类的FOPTICS算法;Benjamin等结合蒙特卡洛数据库系统中的可能世界方法对不确定数据进行聚类;而Aggarwal和Yu针对数据流中不确定数据设计了相应算法UMicro,Chau等应用UK-Means算法解决移动对象的不确定聚类,并产生较好结果。 上述算法的共同基础在于将不确定性成分(概率密度函数表示)引入距离度量中,势必引起在期望距离计算时,增加算法的时间复杂度,同时距离的近似计算也制约了算法的扩展性。在相关文献中通过计算公式进行变换(类似力学中的平行轴定理)、最小——最大剪枝法以及切面函数法来简化上述期望距离的计算复杂度,但由于采用松弛约束条件的方法以求得计算量的减少,往往导致算法的扩展能力较弱。不确定数据聚类研究作为未来发展趋势,其所面对的最直接的挑战,就是数据规模(聚类计算要处理的)呈指数倍的增长。目前在针对可能世界实例的聚合查询(相当于聚类)研究,主要涉及Top-k聚合算法,分别采用分枝定界、计算松弛降低计算复杂性。由于数据采集技术、数据库技术以及Internet等技术的发展,在巨量数据上进行聚类分析凸显其重要性。已有的聚类算法扩展到大规模数据上,常常采用随机采样、数据压缩、基于格的方法、分而治之等方法解决计算时间或存储空间上复杂度。另外聚类的研究对多属性、多特征的高维、动态变化(如随时间变化)数据是学术界关注的另一种计算的复杂性,如对基因数据、金融数据、卫星图像数据以及Web文档数据聚类分析。维度诅咒(curse of dimensionality)使得聚类中许多距离函数计算在高维空间不再有效。 本文针对不确定数据环境下,研究了如何对不确定数据进行表达、不确定数据间相似性度量,在此基础上,提出了面向不确定数据集的聚类算法,并对算法有效性进行验证。具体内容包括: (1)提出了不确定域的概念和基于不确定域的几种聚类算法。在建立不确定域的概念基础上,提出了两类聚类算法和基于不确定域的聚类有效性度量。第一类是基于不确定域的硬C均值聚类算法,包括U-aHCM和U-sqHCM,U-aHCM算法是离线更新聚类中心(即批更新聚类中心),而U-sqHCM是在线更新聚类中心(即当有一个数据对象从一个分配到另一聚类中,则更新数据对象变动的两个聚类);第二类是基于不确定域的模糊C均值聚类算法,也包括两种:U-sFCM和U-eFCM。这些算法基于提出的数据的不确定域概念较好地处理数据的不确定性。 (2)提出了基于超矩形的数据不确定域概念和基于超矩形不确定域的聚类算法。基于超矩形不确定域聚类算法能够更灵活处理数据的不确定性和发现不同形状与大小的聚类(簇),本论文主要提出了三类基于超矩形不确定域的聚类算法:SU-aHCM与SU-sHCM、SU-sFCM与SU-eFCM以及SU-sPCM与SU-ePCM。 (3)为了解决基于超矩形不确定域聚类算法中不适定问题(ill-posed problem),提出了基于正则化的超矩形不确定域概念,构建了两类基于Lx正则化的超矩形不确定域聚类算法。一类是基于L2正则化的超矩形不确定域模糊C均值聚类算法(L2 -SU-sFCM与L2 -SU-eFCM),另一类基于L1正则化的超矩形不确定域模糊C均值聚类算法(L1—SU—sFCM与L1—SU—eFCM),该算法体现对数据对象稀疏化,从而更能发现数据结构关系。 (4)为了表达模糊C均值聚类算法中隶属函数的不确定性,本论文结合直觉模糊集理论与方法提出了基于直觉模糊集的聚类算法,包括基于基于直觉模糊集的模糊C均值聚类算法(IFS-sFCM)和基于直觉模糊和信息熵的模糊C均值聚类算法(IFS-eFCM)。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王奎实,马兰芝,胡文科;进入人才市场的人才特征评估——R型聚类法应用试验[J];科学学研究;1997年03期
2 张帅钦;张波涛;;基于Potts系统的数据聚类元胞自动机[J];信息工程大学学报;2008年02期
3 张晓茹;肖珂;;基于角点匹配图像拼接方法的改进[J];河北农业大学学报;2008年04期
4 赵珩君;;基于OCA的客户细分研究[J];情报杂志;2009年01期
5 刘敏娴;;类算法在保险行业的运用与分析[J];电脑知识与技术;2009年11期
6 张鹄藻;机械零件的包容聚类法[J];成组技术与生产现代化;1989年02期
7 邹志;唐建博;;基于USAN原则的昼夜星体检测技术[J];红外与激光工程;2006年S1期
8 李广军;张晶;曾安平;;基于改进RBF神经网络的PID整定[J];长春大学学报;2008年06期
9 王萍;正确识别建模样本所含类别[J];天津大学学报;1993年02期
10 陈继明,周源远,宋顺林;PAC:一种结合了分割和凝聚技术的聚类方法[J];计算机工程;2005年17期
11 何虎翼;姚莉秀;沈红斌;杨杰;;一种新的子空间聚类算法[J];上海交通大学学报;2007年05期
12 刘高峰;王飞;;基于聚类分析的粗糙集模型及其应用[J];内江师范学院学报;2008年08期
13 韦相;李志勇;朱永缤;;基于质心的样本加权聚类算法[J];成都大学学报(自然科学版);2011年02期
14 何夏青;倪志伟;刘玉;;利用数据挖掘技术构造范例库的新方法探究[J];计算机工程与应用;2006年06期
15 章霖;李德敏;倪姬娜;;传感器网络的容错研究[J];传感器与微系统;2006年11期
16 曾喜良;王金娟;;指纹分割的块图像梯度因子聚类法[J];计算机与数字工程;2008年07期
17 张媛;高冠东;贾克斌;;运用特征点匹配的柱面全景图像快速拼接算法[J];中国图象图形学报;2009年06期
18 宋英;;数据挖掘技术中聚类算法的研究[J];科学咨询(科技管理);2010年08期
19 郭皎;鄢沛;;面向用户的高校图书馆网站信息架构[J];现代计算机(专业版);2010年12期
20 刘永前;朴金姬;韩爽;;风电场输出功率预测中两种神经网络算法的研究[J];现代电力;2011年02期
中国重要会议论文全文数据库 前10条
1 张岩;张亮;周一鸣;安爽;果德安;周玉祥;曾令文;程京;;抗真菌物质与酵母细胞作用后全基因表达谱的聚类法分析[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
2 何昭珩;阮樟材;;判别优树类型方法的新探讨—应用主组元聚类法揭示广东杉木优树的特徵[A];全国林木遗传育种第五次学术报告会论文汇编[C];1986年
3 张崇武;何琼璋;;一种新的直接聚类法及其若干注记[A];模糊数学和系统成果会论文集[C];1991年
4 王明文;陶红亮;熊小勇;;双向聚类迭代的协同过滤推荐算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 郭莉;刘鹏熙;林毅;司徒红林;陈前军;;聚类与改良德尔菲法对乳腺癌巩固期证型研究的比较[A];第十一届全国中医及中西医结合乳腺病学术会议论文集[C];2009年
6 邹志;唐建博;;基于USAN原则的昼夜星体检测技术[A];2006年全国光电技术学术交流会会议文集(A 光电系统总体技术专题)[C];2006年
7 许文来;张建强;赵红颖;许宗林;;基于指数法和聚类法的土壤重金属污染评价[A];2008中国环境科学学会学术年会优秀论文集(中卷)[C];2008年
8 岳玉芳;毛剑琴;;T-S模糊模型建模的一种改进方法[A];2001中国控制与决策学术年会论文集[C];2001年
9 冯明权;樊长华;刘丽;龙三;;用聚类法分析岩溶系统的初步探讨[A];西部水利水电开发与岩溶水文地质论文选集[C];2004年
10 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 吕宗磊;对聚类及聚类评价若干问题的研究[D];南京航空航天大学;2009年
2 孙海蓉;模糊神经网络的研究及其应用[D];华北电力大学(河北);2006年
3 潘龙;岩土工程不确定性系统研究及其工程应用[D];合肥工业大学;2011年
4 颜峻;基于时空数据挖掘的社会安全(刑事)事件成因研究[D];清华大学;2009年
5 殷瑞飞;数据挖掘中的聚类方法及其应用[D];厦门大学;2008年
6 李俊林;可适应不良数据的数据分类若干方法研究[D];电子科技大学;2012年
7 侯新文;环胶州湾地区城市地质及工程建设适宜性研究[D];中国矿业大学(北京);2011年
8 苏木亚;谱聚类方法研究及其在金融时间序列数据挖掘中的应用[D];大连理工大学;2011年
9 李宝红;对应分析方法及其在肿瘤学中的应用研究[D];中南大学;2011年
10 张建萍;基于计算智能技术的聚类分析研究与应用[D];山东师范大学;2014年
中国硕士学位论文全文数据库 前10条
1 张云;图聚类质量评价指标体系的对比分析研究[D];山西大学;2012年
2 李东晗;对于系统发育谱法聚类算法的改进[D];东北师范大学;2011年
3 张灿灿;中国股票市场数字文化下的价格聚类研究[D];西南交通大学;2013年
4 宋清栋;模糊c均值聚类技术研究[D];广西师范大学;2012年
5 李丹丹;基于权重设计的聚类融合算法研究及应用[D];辽宁工程技术大学;2009年
6 钱秋霞;RADIALL公司射频连接器业务发展战略[D];复旦大学;2008年
7 宋传超;社交网络中基于概率的可伸缩聚类算法研究[D];山东建筑大学;2013年
8 李彦琴;RBF型神经网络预测控制在卫星姿态仿真系统中的应用技术研究与试验[D];北京化工大学;2003年
9 郝建斌;基于模糊理论的Web用户聚类的研究[D];北京理工大学;2011年
10 陶红亮;双向聚类迭代的协同过滤推荐算法[D];江西师范大学;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978