收藏本站
《安徽大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

流数据聚类算法研究

李景成  
【摘要】: 传统数据挖掘的对象是传统数据或静态数据,其主要来源于关系数据库、数据仓库和事务数据库。但是伴随着计算机、网络、通信技术以及传感器等具体应用的迅猛发展,一种具有高速、连续、动态、快速变化和海量等特点的动态数据正呈爆炸的趋势不断涌现,使得现在缺少的已不再是足够的信息数据,而是处理如此庞大流数据的分析技术。由于流数据的上述特点,使得如何使用有限的内存空间和计算机处理速度进行快速而又准确的数据挖掘已成为流数据聚类分析领域的重要研究课题。 本文提出的PMC (Parallel MST CluStream)算法,该算法引入了CluStream算法包含联机和脱机两部分的思想,分为在线处理和离线聚类两部分。同时针对CluStream算法以单个数据对象作为处理单位而影响聚类效率的不足和它对非球形数据集聚类效果不佳的缺点,算法的在线部分使用两组处理单元分别对数据流进行在线分析,两组处理单元交替截取批量数据供其在线分析,该方法可有效解决批处理数据流断点影响聚类精度的问题,且批处理比以单个数据对象作为处理单元具有更快的处理速度。同时在线过程利用最小生成树算法,通过剪断最不一致边可有效解决对分布倾斜的数据集进行聚类,且能很好的解决STREAM算法批处理过程中簇个数的固定性,从而获取更高质量的数据流概要信息和部分数据对象的具体信息,然后采用金字塔时间框架模型适时的以快照的形式存储这些在线信息供离线聚类算法进行聚类。离线过程则以簇为代表对象,使用最小生成树算法进行离线聚类,该算法的引入可有效解决CluStream算法对非球状簇聚类效果不佳的缺点,从而有效提升算法的聚类质量。 本文在真实数据集和人工数据集上进行了大量的实验,实验结果验证了PMC算法不仅可有效对非球状簇进行聚类,对数据的输入顺序不敏感,在类分布倾斜的数据集上有良好的表现,而且还具有更好的聚类效率和聚类质量。
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.13

手机知网App
【参考文献】
中国期刊全文数据库 前8条
1 杨宜东,孙志挥,张净;基于核密度估计的分布数据流离群点检测[J];计算机研究与发展;2005年09期
2 崔光照;曹玲芝;张勋才;王延峰;;基于密度的最小生成树聚类算法研究[J];计算机工程与应用;2006年05期
3 刘敏娟;柴玉梅;张西芝;;基于相似度的网格聚类算法[J];计算机工程与应用;2007年07期
4 孙玉芬;卢炎生;;流数据挖掘综述[J];计算机科学;2007年01期
5 张冬冬;李建中;王伟平;郭龙江;;数据流历史数据的存储与聚集查询处理算法[J];软件学报;2005年12期
6 朱蔚恒;印鉴;谢益煌;;基于数据流的任意形状聚类算法[J];软件学报;2006年03期
7 蒋盛益,李庆华,李新;数据流挖掘算法研究综述[J];计算机工程与设计;2005年05期
8 陆亿红;;基于聚类的数据流挖掘技术的分析与研究[J];浙江工业大学学报;2007年03期
中国硕士学位论文全文数据库 前1条
1 王宪鹏;基于网格的MST数据流聚类算法研究[D];哈尔滨工程大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 朱思峰;刘芳;柴争义;;免疫聚类算法在基因表达数据分析中的应用[J];北京邮电大学学报;2010年02期
2 王立锟;王君;;流数据聚类中多属性的计算[J];重庆工学院学报(自然科学版);2009年06期
3 黄孝;;数据流聚类算法分析[J];池州学院学报;2007年05期
4 彭源;;Web流数据聚类挖掘技术研究[J];电脑知识与技术;2010年04期
5 林甲祥;陈崇成;樊明辉;郑旻琦;;基于MST聚类的空间数据离群挖掘算法[J];地球信息科学;2008年05期
6 陈沛帅;琚春华;;基于密度与动态阈值的任意形状聚类挖掘算法研究[J];电信科学;2012年01期
7 李乐;陈鸿昶;李鹏;;一种改进的基于密度的聚类算法[J];电子技术应用;2009年09期
8 林甲祥;刘丰富;;基于MST聚类的离群检测算法研究[J];福建电脑;2007年09期
9 韩宇;;流数据挖掘关键技术研究[J];硅谷;2011年20期
10 邹凌君;高开周;;基于Web Service的多数据流聚类研究[J];广西轻工业;2009年11期
中国重要会议论文全文数据库 前3条
1 邹丹;;关于点实体密度的插值算法探究[A];2009`中国地理信息产业论坛暨第二届教育论坛就业洽谈会论文集[C];2009年
2 韩矞;贾焰;甘亮;;一种基于网络安全数据流的混合CUBE模型[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
3 刘晓平;李书杰;石慧;;规律维问题初探[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(下册)[C];2006年
中国博士学位论文全文数据库 前10条
1 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
2 钱鹏江;大规模数据集聚类方法研究及应用[D];江南大学;2011年
3 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
4 衷路生;状态空间模型辨识方法研究[D];中南大学;2011年
5 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
6 屠莉;流数据的频繁项挖掘及聚类的关键技术研究[D];南京航空航天大学;2009年
7 侯东风;流式数据多维建模与查询关键技术研究[D];国防科学技术大学;2010年
8 郑永斌;物体检测技术和半定规划松弛的聚类算法研究[D];国防科学技术大学;2011年
9 由育阳;数据流容错挖掘算法研究[D];哈尔滨工程大学;2011年
10 陈安龙;多数据流处理的关键技术研究[D];四川大学;2006年
中国硕士学位论文全文数据库 前10条
1 张书春;数据挖掘技术在SMS系统中的应用研究[D];郑州大学;2010年
2 杨海陆;公路收费系统数据分析与挖掘[D];哈尔滨工程大学;2010年
3 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
4 于洋;一种改进的COBWEB算法研究[D];哈尔滨工程大学;2010年
5 徐艳红;基于倾斜时间窗口的频繁项集挖掘算法研究[D];哈尔滨工程大学;2010年
6 杜以韧;基于网格和密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
7 卢晓伟;基于GPU的数据流处理方法研究[D];大连理工大学;2010年
8 李念水;时间序列数据流在线预测研究与应用[D];大连理工大学;2010年
9 李贤;混合属性聚类算法研究[D];长沙理工大学;2010年
10 王琳;基于粒子群优化的数据流挖掘的聚类算法分析[D];长沙理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 刘敏娟;柴玉梅;张西芝;;基于相似度的网格聚类算法[J];计算机工程与应用;2007年07期
2 单世民;张宁;江贺;张宪超;;基于网格和密度的簇边缘精度增强聚类算法[J];计算机工程与应用;2008年23期
3 孙玉芬;卢炎生;;流数据挖掘综述[J];计算机科学;2007年01期
4 刘青宝;戴超凡;邓苏;张维明;;基于网格的数据流聚类算法[J];计算机科学;2007年03期
5 邱保志;沈钧毅;;基于网格技术的高精度聚类算法[J];计算机工程;2006年03期
6 何勇;刘青宝;;基于动态网格的数据流聚类分析[J];计算机应用研究;2008年11期
7 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期
8 张冬冬;李建中;王伟平;郭龙江;;数据流历史数据的存储与聚集查询处理算法[J];软件学报;2005年12期
9 朱蔚恒;印鉴;谢益煌;;基于数据流的任意形状聚类算法[J];软件学报;2006年03期
10 蒋盛益,李庆华,李新;数据流挖掘算法研究综述[J];计算机工程与设计;2005年05期
【相似文献】
中国期刊全文数据库 前10条
1 徐毓,李锋,金以慧;基于聚类融合的多目标跟踪算法[J];传感器技术;2002年07期
2 左珑,谭明峰;基于ART1人工神经网络的数据聚类[J];计算机工程与科学;2002年02期
3 李晓波;闫道儒;顾煜炯;;数据均值聚类在故障模式识别中的应用[J];中国电力教育;2005年S1期
4 宗瑜;金萍;;网络流聚类算法及其在图像处理中的应用[J];皖西学院学报;2005年05期
5 李平;吴佳英;郑金华;胡宁静;;多亲遗传算法的理论分析及其应用研究[J];计算机工程与设计;2006年04期
6 薛方亮,帅典勋;利用广义细胞自动机实现的智能数据聚类[J];计算机与数字工程;2005年06期
7 沙金;张翠肖;贾玉锋;胡迎新;;HGHD:一种基于超图的高维空间数据聚类算法[J];微电子学与计算机;2006年06期
8 侯建花;杨长青;;一种色彩特征的自动提取算法及其软件实现[J];计算机仿真;2007年07期
9 谢秦川;王方;;一种基于数据聚类技术的情报分析系统研制[J];警察技术;2009年04期
10 熊拥军;;基于高维聚类分析方法的读者群划分研究[J];情报杂志;2010年01期
中国重要会议论文全文数据库 前10条
1 张岩;成利荣;;基于相对熵的基因芯片数据聚类分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 李楠;高宏;李建中;;基于最小生成树的图数据库索引算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
3 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 王秋生;高绍坤;崔勇;;基于人工免疫网络和AR模型的聚类与预测算法[A];第三届全国虚拟仪器大会论文集[C];2008年
5 魏永超;陈立军;;数据流上复杂事件处理系统Eagle的设计与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 王倩;杨京燕;孟璐;;基于改进的蚁群算法和最小生成树的配电网重构[A];中国智能电网学术研讨会论文集[C];2011年
7 周新华;黄道;;基于改进蚁群聚类算法的最优状态集划分[A];第二十三届中国控制会议论文集(下册)[C];2004年
8 黄宜真;张世劼;陈巍;金庆跃;;基于最小生成树的图论模型及其在医学中的应用[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
9 蔡致远;熊方;钱卫宁;周傲英;;核合并分析及其在数据流密度估计上的应用[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
10 龙海英;朱令人;;地震分形维数计算的一种新方法——最小生成树法(MST)[A];中国地震学会第七次学术大会论文摘要集[C];1998年
中国重要报纸全文数据库 前10条
1 计算机世界实验室 吴挺;Intel的专业“核动力”[N];计算机世界;2007年
2 北京 冬梅;P4时代真的来了吗[N];中国电脑教育报;2001年
3 ;立体防护“中枢神经系统”[N];网络世界;2003年
4 ;NetScreen-IDP 500 高端入侵检测与防护设备[N];计算机世界;2003年
5 甘久斌;如何有效管理宽带用户[N];通信产业报;2002年
6 ;在移动互联网里推广IPv6[N];人民邮电;2002年
7 ;港湾网络多业务万兆城域网解决方案[N];人民邮电;2003年
8 李勇;降低投资70%[N];中国计算机报;2003年
9 本报记者 段佳;提高未来智能电网自愈能力[N];大众科技报;2009年
10 记者 郭姜宁;企业级电子商务资金流网络管理系统问世[N];科技日报;2001年
中国博士学位论文全文数据库 前10条
1 彭柳青;高维高噪声数据聚类中关键问题研究[D];西安电子科技大学;2011年
2 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
3 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
4 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
5 郭立超;数据流挖掘若干技术研究及其在电信行业的应用[D];浙江大学;2011年
6 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
7 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
8 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
9 Mahmoud Sami Soliman;[D];中南大学;2010年
10 由育阳;数据流容错挖掘算法研究[D];哈尔滨工程大学;2011年
中国硕士学位论文全文数据库 前10条
1 李景成;流数据聚类算法研究[D];安徽大学;2010年
2 俞智君;基于流数据聚类的网络行为分析研究[D];哈尔滨理工大学;2011年
3 宁晓菊;基于脉冲耦合神经网络的图像检索与数据聚类[D];西安电子科技大学;2004年
4 张充;非文本块优先的中文版面分析[D];河北大学;2004年
5 耿代;最小生成树平滑支持向量机聚类算法研究及其应用[D];厦门大学;2007年
6 姜中博;基因表达数据的聚类算法设计与分析[D];天津大学;2008年
7 涂雪珠;遗传算法在多目标优化中的应用[D];福州大学;2004年
8 牧云志;基于遗传算法的网络拓扑结构的优化研究[D];浙江工业大学;2007年
9 潘国涛;数据流聚类算法研究[D];浙江工业大学;2011年
10 邱艳飞;无线传感器网络路由协议的设计与仿真[D];武汉理工大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026