收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

不确定数据聚类研究

苏书宾  
【摘要】:随着科学技术不断进步,越来越多的数据被存储在数据库之中,这些数据由于不精确的测量、过时的数据、采样误差等各种因素存在着不确定性,同时很多数据还存在着噪声数据、分布稀疏、高维度等特点。 作为数据挖掘的一个重要研究领域,聚类研究在处理不确定数据也得到了广大学者的青眯。本文对不确定数据的特点、不确定数据挖掘理论、聚类的理论和一些经典的不确定聚类算法进行了探讨研究。在此基础上针对不确定数据含有噪声、任意形状的聚类提出了新的高效的聚类算法,针对不确定数据的高维度问题定义了新的相似度度量函数并设计了高维度不确定数据高效的聚类算法。 对于含有噪声数据、发现任意形状的聚类以及输入参数对领域知识的强依耐性等仍然是不确定数据聚类领域中很具有挑战性的研究。本文引用ck-means算法的不确定对象期望中心的概念,然后结合最近邻优先聚类的思想提出了不确定期望中心最近邻搜索聚类(UECNNSC)算法。同时,算法采用了最大阈值策略,当进行最近邻搜索时把搜索范围限制在一定的范围以内,这样进一步降低了算法的时间开销。新算法首先计算各个不确定对象的期望中心,然后对这些不确定对象按照期望中心在给定的阈值之内进行最近邻搜索聚类。在聚类过程中,算法只要扫描一遍数据,这样避免计算所有的簇心到期望中心的距离。最后对算法提出了一种扩展应用,对于数据集中新增加的有限数据对象,根据它们的期望中心到它们近邻点的距离就可以归并到不同的簇中。理论和实验证明,与目前一些算法相比,UECNNSC算法需要的先验知识较少、可以有效去除噪声数据、可以快速有效得到任意形状的不确定聚类。 针对高维数据给不确定聚类算法地带来的新挑战,本文结合数据对象的不确定性和高维度特性定义了能够准确表达不确定高维对象之间的相似度的度量函数,并在此基础之上结合凝聚层次聚类的思想提出了高维不确定数据高效聚类(HDUDEC)算法。算法根据相似度的阈值进行搜索聚类,每一次搜索产生一个簇,这样避免了对数据对象进行多次的迭代计算。同样,对于新增加的有限的高维数据对象,只要计算它跟各个簇的相似度就可以进行归类。理论和实验证明,与现在的一些不确定聚类算法相比较,HDUDEC算法可以快速有效得到任意形状的高维不确定数据的聚类。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 崔斌;卢阳;;基于不确定数据的查询处理综述[J];计算机应用;2008年11期
2 周逊;李建中;石胜飞;;不确定数据上两种查询的分布式聚集算法[J];计算机研究与发展;2010年05期
3 徐雪松;;时间序列不确定数据流中异常数据检测方法[J];电子设计工程;2011年19期
4 徐雪松;李玲娟;郭立玮;;基于优化策略的不确定数据流预测方法[J];计算机工程;2011年21期
5 徐雪松;沈红红;陶帆;胡晓璐;崔伟;;基于小波分析的不确定数据流异常数据检测[J];软件导刊;2011年11期
6 钱江波;王志杰;陈华辉;王海斌;;不确定数据流自适应并行连接算法及应用[J];电信科学;2012年02期
7 向剑平;乔少杰;胡剑;;基于不确定数据理论的道路相关度度量方法[J];计算机工程与设计;2012年06期
8 曹振丽;孙瑞志;李勐;;面向不确定数据的农产品追溯方法[J];农业机械学报;2013年07期
9 蒋涛;高云君;张彬;周傲英;乐光学;;不确定数据查询处理[J];电子学报;2013年05期
10 王爽;杨广明;朱志良;;基于不确定数据的频繁项查询算法[J];东北大学学报(自然科学版);2011年03期
11 王意洁;李小勇;祁亚斐;孙伟东;;不确定数据查询技术研究[J];计算机研究与发展;2012年07期
12 陈爱东;刘国华;肖瑞;万小妹;石丹妮;;均匀分布下不确定数据的关联规则变粒度查询[J];计算机工程与科学;2013年10期
13 胡健;苏书宾;毛伊敏;;高维不确定数据高效聚类算法[J];电脑知识与技术;2014年04期
14 刘卫明;杨健;毛伊敏;;基于约束的不确定数据频繁项集挖掘算法研究[J];计算机应用研究;2012年10期
15 陈爱东;刘国华;费凡;周宇;万小妹;貟慧;;满足均匀分布的不确定数据关联规则挖掘算法[J];计算机研究与发展;2013年S1期
16 张晨;金澈清;周傲英;;一种不确定数据流聚类算法[J];软件学报;2010年09期
17 杨金伟;王丽珍;陈红梅;赵丽红;;基于距离的不确定数据异常点检测研究[J];山东大学学报(工学版);2011年04期
18 杨雷;赵春晖;廖艳苹;杨莘元;;基于多源不确定数据融合的研究[J];弹箭与制导学报;2007年03期
19 赵娟;王明春;李小亮;;基于不确定数据决策树分类算法的软件外包评价模型[J];天津职业技术师范大学学报;2011年03期
20 邓慧挺;毛宇光;;不确定数据的重复记录检测[J];计算机技术与发展;2012年08期
中国重要会议论文全文数据库 前7条
1 高聪;申德荣;于戈;聂铁铮;寇月;;一种基于不确定数据的挖掘频繁集方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 周逊;李建中;石胜飞;;不确定数据上聚集查询的分布式处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
3 王晓伟;黄九鸣;贾焰;;分布式不确定数据上的概率Skyline计算[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
4 艾文凯;张剡;柏文阳;;基于用户偏好的不确定数据阈值轮廓查询算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 陆叶;王丽珍;张晓峰;;从不确定数据集中挖掘频繁Co-location模式[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
6 孙永佼;王国仁;;P2P环境中不确定数据Top-k查询处理算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
7 张潮;李晨;王勇;张阳;;uPOSC4.5:一种针对不确定数据的PU学习决策树算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国博士学位论文全文数据库 前5条
1 汤克明;不确定数据流中频繁数据挖掘研究[D];南京航空航天大学;2012年
2 梁春泉;不确定数据流分类算法研究[D];西北农林科技大学;2014年
3 高明;不确定数据的世系管理和相似性查询[D];复旦大学;2011年
4 董俊;不确定数据中数据挖掘方法的研究[D];燕山大学;2012年
5 王晓伟;基于概率数据库的偏好查询研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 李雪;不确定数据聚类研究[D];大连理工大学;2009年
2 周逊;不确定数据聚集查询的分布式处理算法[D];哈尔滨工业大学;2009年
3 朱倩;属性不确定数据关联分类算法研究[D];大连理工大学;2011年
4 刘明建;不确定数据的代价敏感决策树分类器研究[D];西北农林科技大学;2012年
5 邓慧挺;不确定数据的重复检测及清洗研究[D];南京航空航天大学;2012年
6 夏菁;基于可信度计算的不确定数据起源研究[D];南京航空航天大学;2012年
7 宋明;基于密度的不确定数据流聚类算法的研究与实现[D];东北大学;2011年
8 王莹莹;基于密度的不确定数据聚类研究[D];长春工业大学;2013年
9 苏书宾;不确定数据聚类研究[D];江西理工大学;2014年
10 覃香菊;不确定数据上的关联分类器[D];西北农林科技大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978