收藏本站
《燕山大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

数据流中基于区间划分的高维聚类算法研究

徐丽娜  
【摘要】: 随着数据规模的不断增大以及数据维数的不断增长,传统的聚类算法已经无法获得有意义的聚类结果。针对高维数据流的聚类问题,本文将重点放在聚类过程中存储空间的有效利用、聚类结果的更新以及聚类算法对数据的适用性上,并提出两种聚类算法:基于最优区间划分的动态聚类算法和基于空间划分的信息熵聚类算法。 本文首先定义了基于内存的数据集划分方法,这种区间划分方法使得划分后的区间大小与存储单元大小匹配,避免了存储单元内部闲置带来的资源浪费问题。在此基础之上,提出两种区间划分方式:将最优区间划分为高密网格和将数据空间划分为单位空间。 其次,设计了一种基于最优区间划分的动态聚类算法DOIC。该算法通过基于内存的数据集划分和最优区间划分得到高密网格,使数据集的划分更贴近数据的实际分布特征;通过HDU树的创建和合并,以解决数据的聚类及更新问题;同时,为了消除历史数据对聚类结果的影响,利用权值以实现在聚类过程中对历史数据的逐步废弃。该算法的数据空间伸缩性和聚类效果较以往算法都有所提高。 最后,提出了一种数据流中基于空间划分的信息熵聚类算法IEC。IEC算法利用信息熵指导聚类过程,为了减少聚类过程中的计算量,将数据集划分为单位空间,然后通过单位空间的信息熵及各单位空间之间的信息熵指导完成聚类过程。
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.131

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 高新波,裴继红,谢维信;模糊c-均值聚类算法中加权指数m的研究[J];电子学报;2000年04期
2 刘静,钟伟才,刘芳,焦李成;免疫进化聚类算法[J];电子学报;2001年S1期
3 姜园,张朝阳,仇佩亮,周东方;用于数据挖掘的聚类算法[J];电子与信息学报;2005年04期
4 岳士弘,王正友;二分网格聚类方法及有效性[J];计算机研究与发展;2005年09期
5 周晓云;孙志挥;张柏礼;杨宜东;;高维数据流子空间聚类发现及维护算法[J];计算机研究与发展;2006年05期
6 孙玉芬;卢炎生;;流数据挖掘综述[J];计算机科学;2007年01期
7 行小帅,潘进,焦李成;基于免疫规划的K-means聚类算法[J];计算机学报;2003年05期
8 金阳;左万利;;一种基于动态近邻选择模型的聚类算法[J];计算机学报;2007年05期
9 颜晓龙;沈鸿;;一种适用于高维数据流的子空间聚类方法[J];计算机应用;2007年07期
10 晁永胜;郑秋梅;;软件安全建模与检测[J];计算机仿真;2007年10期
【共引文献】
中国期刊全文数据库 前10条
1 段宗志;彭志胜;;建筑业行业竞争力综合评价及其提升对策研究——基于安徽及其邻近省份的比较研究[J];安徽建筑工业学院学报(自然科学版);2011年02期
2 张振伟;马建琴;程瑶;;基于模糊对向传播神经网络的水库径流预报[J];安徽农业科学;2010年01期
3 郇正军;赵国富;;基于土地利用的空间数据挖掘系统的设计与实现[J];安徽农业科学;2011年07期
4 苏瑞;;基于层次的模糊K均值聚类算法研究[J];安阳师范学院学报;2010年02期
5 张文朋;;模糊故障树分析法在真空系统维修中的应用[J];半导体技术;2011年04期
6 李拥军,余晨,彭志奇;数据仓库、OLAP、数据挖掘之间的关系[J];包钢科技;2005年05期
7 宋志丹,王玉森;基于故障树最小割集的故障诊断方法[J];兵工自动化;2004年06期
8 高明霞;姚文集;毛国君;;XML数据流中面向聚类的指数直方图[J];北京工业大学学报;2011年08期
9 刘敬伟;徐美芝;;Bezdek型模糊属性C均值聚类算法[J];北京航空航天大学学报;2007年09期
10 宋天恒;李大字;高彦臣;;分布式Q学习多目标函数优化策略[J];北京化工大学学报(自然科学版);2011年05期
中国重要会议论文全文数据库 前10条
1 丁丽洁;唐昊;周雷;;基于对等SAP的Q学习在机器人作业分配中的应用[A];第二十六届中国控制会议论文集[C];2007年
2 ;Reinforcement Strategy Using Quantum Amplitude Amplification for Robot Learning[A];第二十六届中国控制会议论文集[C];2007年
3 ;Incremental Clustering for Categorical Data Using Clustering Ensemble[A];第二十九届中国控制会议论文集[C];2010年
4 杨晓霞;朱庆;李海峰;;知识导航的遥感信息处理服务分类选择方法[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
5 陈志坤;杨树强;李爱平;郑黎明;;数据流与数据库之间混合连接查询算法的研究[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
6 李宇宁;;电信企业综合评价中的外部因素处理办法研究[A];第七届国有经济论坛“大型国有企业集团公司治理”学术研讨会论文集[C];2007年
7 江杨;;流数据存储系统体系结构研究[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
8 韩矞;贾焰;甘亮;;一种基于网络安全数据流的混合CUBE模型[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
9 王亦兵;杨树强;王晓伟;;一个面向数据流的多维分析系统的研究与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
10 刘东;韩伟红;郑黎明;;基于数据流管理系统的网络安全事件多维分析[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
中国博士学位论文全文数据库 前10条
1 李高云;大型船舶航向/航迹智能容错控制研究[D];哈尔滨工程大学;2010年
2 张泽宝;空间数据库的索引技术研究[D];哈尔滨工程大学;2009年
3 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
4 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
5 吴海;移动实时数据库中的数据广播策略研究[D];华中科技大学;2010年
6 张琦;多核系统中的程序性能优化研究[D];中国科学技术大学;2010年
7 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
8 李晋江;海量数据点三维重构中一类关键问题研究[D];山东大学;2010年
9 关大宇;基于货币政策传导的金融条件指数构建及应用研究[D];东北财经大学;2010年
10 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 张书春;数据挖掘技术在SMS系统中的应用研究[D];郑州大学;2010年
2 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
3 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
4 于洋;一种改进的COBWEB算法研究[D];哈尔滨工程大学;2010年
5 孟庆海;基于社会书签的个性化查询词扩展技术研究[D];哈尔滨工程大学;2010年
6 徐艳红;基于倾斜时间窗口的频繁项集挖掘算法研究[D];哈尔滨工程大学;2010年
7 骆永健;基于聚类的数据流异常检测算法的研究[D];哈尔滨工程大学;2010年
8 韩君;近期数据流频繁项集挖掘[D];大连理工大学;2010年
9 孙丽萍;流形学习算法ISOMAP的改进与实现[D];大连理工大学;2010年
10 卢晓伟;基于GPU的数据流处理方法研究[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 许俊刚,柯有安;自组织神经网络雷达目标识别的研究[J];北京理工大学学报;1992年03期
2 李碧,雍正正;一种改进的基于遗传算法的聚类分析方法[J];电路与系统学报;2002年03期
3 刘健庄;基于二维直方图的图象模糊聚类分割方法[J];电子学报;1992年09期
4 宋爱国,陆佶人;基于进化规划的Kohonen网络用于被动声呐目标聚类研究[J];电子学报;1998年07期
5 高新波,裴继红,谢维信;模糊c-均值聚类算法中加权指数m的研究[J];电子学报;2000年04期
6 王磊,潘进,焦李成;免疫算法[J];电子学报;2000年07期
7 刘静,钟伟才,刘芳,焦李成;免疫进化聚类算法[J];电子学报;2001年S1期
8 张艳宁,赵荣椿,梁怡;一种有效的大规模数据的分类方法[J];电子学报;2002年10期
9 刘健庄,谢维信,黄建军,李文化;聚类分析的遗传算法方法[J];电子学报;1995年11期
10 高新波,裴继红,谢维信;基于统计检验指导的聚类分析方法[J];电子科学学刊;2000年01期
【相似文献】
中国期刊全文数据库 前10条
1 夏师;梁碧珍;陆月然;罗明山;;聚类分析研究进展[J];现代计算机(专业版);2009年03期
2 沈谦;王涛;王上飞;;多级模糊协方差聚类算法[J];模式识别与人工智能;2002年03期
3 贾瑞玉;耿锦威;宁再早;何成刚;;基于代表点的快速聚类算法[J];计算机工程与应用;2010年33期
4 邱磊;李国辉;代科学;;遥感图像的半监督的改进FCM算法[J];计算机应用研究;2006年07期
5 杨志国;韩彦明;黄晓涛;周智敏;;应用形态学方法提高SAR目标检测中的聚类效果[J];武汉理工大学学报(交通科学与工程版);2007年02期
6 杨志国;黄晓涛;周智敏;;SAR目标检测中的聚类算法改进[J];中国图象图形学报;2008年11期
7 沙金;张翠肖;贾玉锋;胡迎新;;HGHD:一种基于超图的高维空间数据聚类算法[J];微电子学与计算机;2006年06期
8 尚俊平;邱保志;刘合兵;;一种基于距离的聚类和孤立点检测算法[J];河南科学;2007年06期
9 陈晓峰;王士同;曹苏群;;基于半监督学习的核信任力传播聚类算法[J];江南大学学报(自然科学版);2008年05期
10 薛耿剑,王毅,赵海涛,魏梦琦,郝重阳;一种改进的模糊核聚类算法[J];中国医学影像技术;2005年10期
中国重要会议论文全文数据库 前10条
1 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
2 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
4 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
5 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
6 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
8 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 余琳;邓玲;;常见聚类算法的比较以及DSS系统中的应用[A];湖北省通信学会、武汉通信学会2009年学术年会论文集[C];2009年
中国重要报纸全文数据库 前9条
1 ;视频数据中挖“宝”[N];计算机世界;2002年
2 本报记者 姜培峰;著名经济学家克莱因亮出四大观点[N];中国信息报;2000年
3 宇航;剖析小灵通的核心技术[N];人民邮电;2003年
4 ;小灵通网络核心技术分析[N];人民邮电;2005年
5 ;实达网络树起“星网数码”品牌[N];计算机世界;2003年
6 刘丽;把握通讯与数码融合先机[N];通信产业报;2003年
7 本报记者 赵凤华 通讯员 戴世勇 陶春明;本科生登上全国学术会议讲坛[N];科技日报;2008年
8 本报记者 于翔;多元管理防范金融风险[N];网络世界;2010年
9 山东省青岛市工商局 郝虹;应重视数据资源挖掘及数据分析[N];中国工商报;2010年
中国博士学位论文全文数据库 前10条
1 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
2 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
3 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
4 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年
5 张鸿雁;基于DNA计算的聚类算法研究[D];山东师范大学;2011年
6 曹付元;面向分类数据的聚类算法研究[D];山西大学;2010年
7 孙鹏岗;聚类算法研究及其在网络模块性分析中的应用[D];西安电子科技大学;2011年
8 梅娟;复杂生物网络聚类分析方法[D];江南大学;2010年
9 潘鸿飞;形状特征描述及聚类算法研究[D];安徽大学;2011年
10 李强;动点聚类算法及其量子化研究[D];浙江大学;2009年
中国硕士学位论文全文数据库 前10条
1 徐丽娜;数据流中基于区间划分的高维聚类算法研究[D];燕山大学;2010年
2 卜德云;自适应谱聚类算法的研究与应用[D];南京航空航天大学;2010年
3 石洪竺;量子进化聚类算法研究[D];西安电子科技大学;2010年
4 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年
5 张珠玉;聚类算法及其在日志数据处理中的应用研究[D];山东师范大学;2011年
6 叶冲轶;高维海量数据联合聚类算法的研究与应用[D];浙江工商大学;2010年
7 姚毓凯;一种有效的自适应网格密度聚类算法研究[D];兰州大学;2011年
8 王帆;基于优化目标可调控的免疫聚类算法的研究[D];太原理工大学;2010年
9 李长进;基于蚁群算法的混合聚类算法研究[D];中国石油大学;2010年
10 武彩丽;基于规范切和分水岭的聚类算法研究[D];西安电子科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026