收藏本站
《山东师范大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向不确定性数据的聚类算法研究

刘位龙  
【摘要】:聚类作为数据挖掘/知识发现的基础方法,其应用涉及工程领域(如机器学习、模式识别、信号处理、信息压缩)、计算机科学(包括Web挖掘、信息检索、图像分割等)、生命医学领域的基因功能识别与疾病诊断、天文与地球学(星体分类、地理地貌分析等)、社会科学领域(人的行为模式分析、社会网络分析、犯罪心理学、考古发现等)以及经济领域中的客户特征与购买模式分析、企业分类和股票趋势分析等。在聚类的广泛应用中,由于测量不精确、采样误差、过时数据源以及人们的认知不足等造成数据本身存在模糊、随机等各种不确定性。数据的不确定性给数据的聚类分析带来巨大挑战。一方面,在传统数据预处理中采用消除数据的不确定成分,往往会影响聚类结果的质量,另一方面,已有的面向确定性数据聚类算法中引入数据的不确定性特征会带来算法复杂性问题。 聚类作为数据挖掘的重要领域,在不确定数据聚类技术方面也得到了广泛研究。学者们通过采用概率密度函数对不确定对象进行建模并扩展已有聚类算法,提出了包括K-Means算法的改进版本UK-Means、改进的EM算法、基于密度的FDBSCAN算法以及面向层次聚类的FOPTICS算法;Benjamin等结合蒙特卡洛数据库系统中的可能世界方法对不确定数据进行聚类;而Aggarwal和Yu针对数据流中不确定数据设计了相应算法UMicro,Chau等应用UK-Means算法解决移动对象的不确定聚类,并产生较好结果。 上述算法的共同基础在于将不确定性成分(概率密度函数表示)引入距离度量中,势必引起在期望距离计算时,增加算法的时间复杂度,同时距离的近似计算也制约了算法的扩展性。在相关文献中通过计算公式进行变换(类似力学中的平行轴定理)、最小——最大剪枝法以及切面函数法来简化上述期望距离的计算复杂度,但由于采用松弛约束条件的方法以求得计算量的减少,往往导致算法的扩展能力较弱。不确定数据聚类研究作为未来发展趋势,其所面对的最直接的挑战,就是数据规模(聚类计算要处理的)呈指数倍的增长。目前在针对可能世界实例的聚合查询(相当于聚类)研究,主要涉及Top-k聚合算法,分别采用分枝定界、计算松弛降低计算复杂性。由于数据采集技术、数据库技术以及Internet等技术的发展,在巨量数据上进行聚类分析凸显其重要性。已有的聚类算法扩展到大规模数据上,常常采用随机采样、数据压缩、基于格的方法、分而治之等方法解决计算时间或存储空间上复杂度。另外聚类的研究对多属性、多特征的高维、动态变化(如随时间变化)数据是学术界关注的另一种计算的复杂性,如对基因数据、金融数据、卫星图像数据以及Web文档数据聚类分析。维度诅咒(curse of dimensionality)使得聚类中许多距离函数计算在高维空间不再有效。 本文针对不确定数据环境下,研究了如何对不确定数据进行表达、不确定数据间相似性度量,在此基础上,提出了面向不确定数据集的聚类算法,并对算法有效性进行验证。具体内容包括: (1)提出了不确定域的概念和基于不确定域的几种聚类算法。在建立不确定域的概念基础上,提出了两类聚类算法和基于不确定域的聚类有效性度量。第一类是基于不确定域的硬C均值聚类算法,包括U-aHCM和U-sqHCM,U-aHCM算法是离线更新聚类中心(即批更新聚类中心),而U-sqHCM是在线更新聚类中心(即当有一个数据对象从一个分配到另一聚类中,则更新数据对象变动的两个聚类);第二类是基于不确定域的模糊C均值聚类算法,也包括两种:U-sFCM和U-eFCM。这些算法基于提出的数据的不确定域概念较好地处理数据的不确定性。 (2)提出了基于超矩形的数据不确定域概念和基于超矩形不确定域的聚类算法。基于超矩形不确定域聚类算法能够更灵活处理数据的不确定性和发现不同形状与大小的聚类(簇),本论文主要提出了三类基于超矩形不确定域的聚类算法:SU-aHCM与SU-sHCM、SU-sFCM与SU-eFCM以及SU-sPCM与SU-ePCM。 (3)为了解决基于超矩形不确定域聚类算法中不适定问题(ill-posed problem),提出了基于正则化的超矩形不确定域概念,构建了两类基于Lx正则化的超矩形不确定域聚类算法。一类是基于L2正则化的超矩形不确定域模糊C均值聚类算法(L2 -SU-sFCM与L2 -SU-eFCM),另一类基于L1正则化的超矩形不确定域模糊C均值聚类算法(L1—SU—sFCM与L1—SU—eFCM),该算法体现对数据对象稀疏化,从而更能发现数据结构关系。 (4)为了表达模糊C均值聚类算法中隶属函数的不确定性,本论文结合直觉模糊集理论与方法提出了基于直觉模糊集的聚类算法,包括基于基于直觉模糊集的模糊C均值聚类算法(IFS-sFCM)和基于直觉模糊和信息熵的模糊C均值聚类算法(IFS-eFCM)。
【学位授予单位】:山东师范大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP311.13

【引证文献】
中国期刊全文数据库 前2条
1 任培花;王丽珍;;不确定域环境下基于DKC值改进的K-means聚类算法[J];计算机科学;2013年04期
2 孙永倩;王培东;;基于支持向量机的并行CT图像分割方法[J];哈尔滨理工大学学报;2013年03期
中国博士学位论文全文数据库 前1条
1 曾华;随机顾客和需求的配送优化[D];山东大学;2012年
【参考文献】
中国期刊全文数据库 前5条
1 宗瑜;李明楚;江贺;;近似骨架导向的归约聚类算法[J];电子与信息学报;2009年12期
2 李艳红;迟忠先;阎德勤;;Vague相似度量与Vague熵[J];计算机科学;2002年12期
3 周傲英;金澈清;王国仁;李建中;;不确定性数据管理技术研究综述[J];计算机学报;2009年01期
4 李凡,徐章艳;Vague集之间的相似度量[J];软件学报;2001年06期
5 戴东波;赵杠;孙圣力;;基于概率数据流的有效聚类算法[J];软件学报;2009年05期
【共引文献】
中国期刊全文数据库 前10条
1 高冲;;高速铁路工程地质勘察中的不确定性问题研究[J];安徽建筑;2011年05期
2 夏少云,查建中,李志辉,唐晓君;Vague集之间相似度量的分析与研究[J];北方交通大学学报;2004年01期
3 周珍;吴祈宗;刘福祥;关桂霞;;一种新的基于核函数的Vague集间的相似度量[J];北京理工大学学报;2006年07期
4 王爽;王国仁;;基于不确定数据的分布式Top-k查询算法[J];东北大学学报(自然科学版);2010年02期
5 信俊昌;黄健美;王国仁;公丕臻;;基于状态空间搜索的不确定轮廓查询算法[J];东北大学学报(自然科学版);2010年03期
6 王爽;杨广明;朱志良;;基于不确定数据的频繁项查询算法[J];东北大学学报(自然科学版);2011年03期
7 张一楠;邹兆年;李建中;;不确定图间α-β子图同构匹配算法[J];智能计算机与应用;2011年05期
8 万绪江;班显秀;刘小东;万朔;;网络安全的防御方法和可行性研究[J];电脑编程技巧与维护;2010年08期
9 万绪江;李洋;李子云;万朔;;网络硬盘检测与维修技术的研究[J];电脑编程技巧与维护;2010年10期
10 万绪江;班显秀;袁健;罗晶;万朔;;多普勒雷达DATA文件安全模型的设计[J];电脑编程技巧与维护;2010年20期
中国重要会议论文全文数据库 前10条
1 苏毅娟;;一种新的Vague集相似度量方式[A];广西计算机学会2006年年会论文集[C];2006年
2 ;Similarity Measure of Vague Value Based on Depentment Function[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
3 杨增芳;张海强;唐合文;;随机模拟方法在数据挖掘中的应用探讨[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
4 丁国辉;王国仁;赵宇海;;基于使用信息和聚类方法的多模式集成[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
5 周逊;李建中;石胜飞;;不确定数据上聚集查询的分布式处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
6 刘德喜;万常选;刘喜平;;不确定数据库中基于x-tuple的高效Top-k查询处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
7 信俊昌;王国仁;公丕臻;吴俊杰;;不确定数据库中的阈值轮廓查询处理[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 李传文;谷峪;李芳芳;于戈;;一种障碍空间中不确定对象的连续最近邻查询方法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
9 韩蒙;张炜;李建中;;RAKING:一种高效的不确定图K-极大频繁模式挖掘算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
10 艾文凯;张剡;柏文阳;;基于用户偏好的不确定数据阈值轮廓查询算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国博士学位论文全文数据库 前10条
1 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
2 窦亚玲;基于直觉模糊集的多约束网络路由决策方法研究[D];华中科技大学;2010年
3 凌海风;面向装备保障的多准则决策相关方法和技术研究[D];南京大学;2011年
4 高明;不确定数据的世系管理和相似性查询[D];复旦大学;2011年
5 高峰;图像配准中的几何特征不确定性建模及匹配方法研究[D];国防科学技术大学;2011年
6 丁男;基于WSN的实时动态交通流数据获取相关技术研究[D];大连理工大学;2011年
7 蒲海涛;物联网环境下基于上下文感知的智能交互关键技术研究[D];山东科技大学;2011年
8 谷峪;不确定性RFID流数据管理关键技术研究[D];东北大学;2010年
9 李艳红;信息系统敏捷性及其相关技术的研究[D];大连理工大学;2002年
10 金英伟;在模糊不完全定义下多目标系统模糊优选模型的研究[D];大连理工大学;2003年
中国硕士学位论文全文数据库 前10条
1 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
2 于洋;一种改进的COBWEB算法研究[D];哈尔滨工程大学;2010年
3 王琳;基于粒子群优化的数据流挖掘的聚类算法分析[D];长沙理工大学;2010年
4 王瑛;基于模糊聚类的入侵检测算法研究[D];江西理工大学;2010年
5 马翔;应急物资两阶段调度研究[D];沈阳建筑大学;2011年
6 赵登绍;基于粗糙集的复杂工业过程故障诊断研究与实现[D];电子科技大学;2010年
7 杜加萍;多传感器信息融合算法的研究及应用[D];江南大学;2011年
8 张旭慧;基于模糊集、Vague集的模糊度量的研究[D];西北大学;2011年
9 朱倩;属性不确定数据关联分类算法研究[D];大连理工大学;2011年
10 刘彦红;企业应用系统中不确定性数据集成研究[D];曲阜师范大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 陈萍;黄厚宽;董兴业;;基于多邻域的车辆路径优化迭代局部搜索算法[J];北京交通大学学报;2009年02期
2 王茜;张鲲鹏;;隐私保护数据挖掘算法MASK的改进[J];重庆理工大学学报(自然科学);2012年06期
3 宋伟刚;张宏霞;佟玲;;有时间窗约束非满载车辆调度问题的节约算法[J];东北大学学报;2006年01期
4 周伟;蒲晓蓉;屈鸿;;LT递归神经网络求解旅行商问题研究[J];电子科技大学学报;2011年04期
5 杜占玮;杨永健;孙永雄;张池军;;基于互信息的混合蚁群算法及其在旅行商问题上的应用[J];东南大学学报(自然科学版);2011年03期
6 贾永基,谷寒雨,席裕庚;动态车辆调度系统的滚动时域调度算法(英文)[J];Journal of Southeast University(English Edition);2005年01期
7 祝崇隽,刘民,吴澄,吴晓冰;针对模糊需求的VRP的两种2-OPT算法[J];电子学报;2001年08期
8 杨臻;;基于2k-距离的孤立点算法研究[J];福建电脑;2009年02期
9 郭耀煌,谢秉磊;一类随机动态车辆路径问题的策略分析[J];管理工程学报;2003年04期
10 李云飞;王丽珍;周丽华;;不确定数据的高效聚类算法[J];广西师范大学学报(自然科学版);2011年02期
中国博士学位论文全文数据库 前8条
1 吴斌;车辆路径问题的粒子群算法研究与应用[D];浙江工业大学;2008年
2 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
3 井祥鹤;陆路物流物资配载及输送路径优化问题的模型与算法[D];南京理工大学;2007年
4 胡大伟;设施定位和车辆路线问题模型及其启发式算法研究[D];长安大学;2008年
5 钟石泉;物流配送车辆路径优化方法研究[D];天津大学;2007年
6 陈宝文;蚁群优化算法在车辆路径问题中的应用研究[D];哈尔滨工业大学;2009年
7 汪廷华;支持向量机模型选择研究[D];北京交通大学;2010年
8 胡文军;关于模式识别中大样本分类技术的几个关键问题研究[D];江南大学;2012年
中国硕士学位论文全文数据库 前7条
1 李雪;不确定数据聚类研究[D];大连理工大学;2009年
2 刘永才;基于OMAP3530的羊绒羊毛图像识别系统的研究[D];北京服装学院;2012年
3 申继龙;车牌定位和倾斜校正的关键技术研究[D];南京邮电大学;2013年
4 杨雯斌;支持向量机在大规模数据中的应用研究[D];华东理工大学;2013年
5 周波;第二类样条权函数神经网络算法复杂度研究及其应用[D];南京邮电大学;2013年
6 王阳洋;早期乳腺肿瘤检测的超宽带成像算法研究[D];南京邮电大学;2013年
7 程慕鑫;基于改进最小二乘支持向量机的颗粒粒度软测量研究[D];华东理工大学;2013年
【二级引证文献】
中国期刊全文数据库 前1条
1 石亚冰;黄予;覃晓;元昌安;;基于优化初始种子新策略的K-Means聚类算法[J];广西师范大学学报(自然科学版);2013年04期
中国硕士学位论文全文数据库 前1条
1 王俊杰;密度敏感的K-means聚类算法研究[D];山东师范大学;2014年
【二级参考文献】
中国期刊全文数据库 前5条
1 江贺;张宪超;陈国良;李明楚;;二次分配问题的骨架分析与算法设计[J];中国科学(E辑:信息科学);2008年02期
2 江贺;张宪超;陈国良;;图的二分问题唯一全局最优解实例与骨架计算复杂性[J];科学通报;2007年17期
3 谷峪;于戈;张天成;;RFID复杂事件处理技术[J];计算机科学与探索;2007年03期
4 李建中,李金宝,石胜飞;传感器网络及其数据管理的概念、问题与进展[J];软件学报;2003年10期
5 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期
【相似文献】
中国期刊全文数据库 前10条
1 张帅钦;张波涛;;基于Potts系统的数据聚类元胞自动机[J];信息工程大学学报;2008年02期
2 张晓茹;肖珂;;基于角点匹配图像拼接方法的改进[J];河北农业大学学报;2008年04期
3 赵珩君;;基于OCA的客户细分研究[J];情报杂志;2009年01期
4 刘敏娴;;类算法在保险行业的运用与分析[J];电脑知识与技术;2009年11期
5 张鹄藻;机械零件的包容聚类法[J];成组技术与生产现代化;1989年02期
6 邹志;唐建博;;基于USAN原则的昼夜星体检测技术[J];红外与激光工程;2006年S1期
7 李广军;张晶;曾安平;;基于改进RBF神经网络的PID整定[J];长春大学学报;2008年06期
8 王萍;正确识别建模样本所含类别[J];天津大学学报;1993年02期
9 陈继明,周源远,宋顺林;PAC:一种结合了分割和凝聚技术的聚类方法[J];计算机工程;2005年17期
10 何虎翼;姚莉秀;沈红斌;杨杰;;一种新的子空间聚类算法[J];上海交通大学学报;2007年05期
中国重要会议论文全文数据库 前10条
1 张岩;张亮;周一鸣;安爽;果德安;周玉祥;曾令文;程京;;抗真菌物质与酵母细胞作用后全基因表达谱的聚类法分析[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
2 何昭珩;阮樟材;;判别优树类型方法的新探讨—应用主组元聚类法揭示广东杉木优树的特徵[A];全国林木遗传育种第五次学术报告会论文汇编[C];1986年
3 张崇武;何琼璋;;一种新的直接聚类法及其若干注记[A];模糊数学和系统成果会论文集[C];1991年
4 王明文;陶红亮;熊小勇;;双向聚类迭代的协同过滤推荐算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 郭莉;刘鹏熙;林毅;司徒红林;陈前军;;聚类与改良德尔菲法对乳腺癌巩固期证型研究的比较[A];第十一届全国中医及中西医结合乳腺病学术会议论文集[C];2009年
6 邹志;唐建博;;基于USAN原则的昼夜星体检测技术[A];2006年全国光电技术学术交流会会议文集(A 光电系统总体技术专题)[C];2006年
7 许文来;张建强;赵红颖;许宗林;;基于指数法和聚类法的土壤重金属污染评价[A];2008中国环境科学学会学术年会优秀论文集(中卷)[C];2008年
8 岳玉芳;毛剑琴;;T-S模糊模型建模的一种改进方法[A];2001中国控制与决策学术年会论文集[C];2001年
9 冯明权;樊长华;刘丽;龙三;;用聚类法分析岩溶系统的初步探讨[A];西部水利水电开发与岩溶水文地质论文选集[C];2004年
10 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 吕宗磊;对聚类及聚类评价若干问题的研究[D];南京航空航天大学;2009年
2 孙海蓉;模糊神经网络的研究及其应用[D];华北电力大学(河北);2006年
3 潘龙;岩土工程不确定性系统研究及其工程应用[D];合肥工业大学;2011年
4 颜峻;基于时空数据挖掘的社会安全(刑事)事件成因研究[D];清华大学;2009年
5 殷瑞飞;数据挖掘中的聚类方法及其应用[D];厦门大学;2008年
6 李俊林;可适应不良数据的数据分类若干方法研究[D];电子科技大学;2012年
7 侯新文;环胶州湾地区城市地质及工程建设适宜性研究[D];中国矿业大学(北京);2011年
8 苏木亚;谱聚类方法研究及其在金融时间序列数据挖掘中的应用[D];大连理工大学;2011年
9 李宝红;对应分析方法及其在肿瘤学中的应用研究[D];中南大学;2011年
10 张建萍;基于计算智能技术的聚类分析研究与应用[D];山东师范大学;2014年
中国硕士学位论文全文数据库 前10条
1 张云;图聚类质量评价指标体系的对比分析研究[D];山西大学;2012年
2 李东晗;对于系统发育谱法聚类算法的改进[D];东北师范大学;2011年
3 张灿灿;中国股票市场数字文化下的价格聚类研究[D];西南交通大学;2013年
4 宋清栋;模糊c均值聚类技术研究[D];广西师范大学;2012年
5 李丹丹;基于权重设计的聚类融合算法研究及应用[D];辽宁工程技术大学;2009年
6 钱秋霞;RADIALL公司射频连接器业务发展战略[D];复旦大学;2008年
7 宋传超;社交网络中基于概率的可伸缩聚类算法研究[D];山东建筑大学;2013年
8 李彦琴;RBF型神经网络预测控制在卫星姿态仿真系统中的应用技术研究与试验[D];北京化工大学;2003年
9 郝建斌;基于模糊理论的Web用户聚类的研究[D];北京理工大学;2011年
10 陶红亮;双向聚类迭代的协同过滤推荐算法[D];江西师范大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026