收藏本站
《哈尔滨工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于网格的数据流聚类方法研究

于翔  
【摘要】:近年来,数据采集技术以及数据挖掘技术不断发展,通常在短时间内就可以采集到大量的数据,并加以分析处理。随着信息技术以及Web技术的飞速发展,数据不再是存储于可多次随机访问的介质中的静态数据,而是称之为数据流的动态流式数据。不同于静态数据,数据流具有实时性、连续性、顺序性等特性,因而传统的聚类分析技术无法直接应用于数据流,需要新的聚类分析技术来处理数据流。本文针对数据流聚类技术从多个方面进行了深入细致地研究。 首先,分析了基于网格的聚类算法的优缺点,进而对传统的静态网格划分方法以及动态网格划分方法进行了研究,针对网格聚类算法中数据空间的划分方法进行改进,拟对新的数据空间动态划分策略展开研究,使其可增量地更新网格单元的结构以及统计信息。在此基础上,设计出基于动态网格划分的聚类算法,使得新算法不仅具有传统网格聚类算法的高效性,且在一定程度上提高聚类的质量。 其次,在新的数据空间动态划分策略的基础上,着重针对数据流的增量聚类进行研究。对现有的数据流聚类算法和增量聚类算法的特性以及存在的问题进行分析,针对数据流对聚类算法的实时性等方面的要求以及现有聚类算法对非球形聚类效果不好的缺点,设计一种基于数据流的不规则网格增量聚类算法。使得与其它算法相比,新算法具备传统网格聚类算法处理速度快的优点,同时不断动态增量地调整网格整体结构。并充分利用网格聚类算法的特点,通过判断网格是否相连,保证对于不同形状聚类的聚类效果。在网格聚类时,无需预先指定聚类数目,且对孤立点有较好的鲁棒性。通常包含孤立点的网格单元不会满足稠密度阈值的要求,可以通过剪枝策略进行去除以减少算法复杂性。由于动态划分的网格单元反映了当前数据流的分布特点,新算法应在一定程度上提高聚类的精度。 再次,在分析高维数据聚类方法和维度约简方法以及这两种方法在数据流环境中应用的基础上,针对高维空间数据稀疏性、数据属性重要度倾斜等问题,对粗糙集理论进行研究,拟设计一种基于粗糙集属性约简的数据流增量聚类算法。新算法应针对聚类的无监督特性通过改进后的无决策属性的属性约简方法计算数据点各属性的重要度,并调整属性集。在属性集中增加具有较高重要度属性的同时,淘汰属性集中不再重要的属性。同时,新的约简算法在保证聚类精度的前提下,可动态调整参与聚类的属性集合,提高算法的效率。 最后,对现有的数据流子空间聚类算法进行研究,针对现有子空间聚类算法中效率较低的问题,拟提出一种新的基于区域划分策略的数据流子空间聚类算法,新算法拟采用自底向上的搜索策略,充分考虑数据点在每维上的分布特性,对各维空间进行区域划分,根据区域交叠产生聚类子空间,进而聚类。新算法应具有处理速度快、对孤立点不敏感等优点,可以有效地在高维数据流中识别出子空间聚类。且可根据数据流的变化情况,对区域进行重新划分,以有效地反映数据流的变化。 本文的工作围绕着数据流聚类展开,通过对数据挖掘技术、人工智能技术、粗糙集理论等的研究,并通过仿真实验证明方法的有用性和有效性,为未来的研究工作提供了良好的理论基础和思路。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李斌;数据流处理自动化和重新设计[J];管理科学文摘;1997年05期
2 赵以强;张龙波;;数据流管理系统研究现状分析[J];科技信息;2010年28期
3 王金栋;张磊;丁秋林;黄添强;;一种支持分布式数据流处理的双层重叠网络模型[J];应用科学学报;2006年04期
4 安红,孟建;基于数据流处理的雷达对抗仿真框架研究[J];电子对抗技术;2004年06期
5 谢应科,张涛,韩承德;实时SAR成像系统中矩阵转置的设计和实现[J];计算机研究与发展;2003年01期
6 杜威,邹先霞;基于数据流的滑动窗口机制的研究[J];计算机工程与设计;2005年11期
7 王桐;刘大昕;;一种新的混合XML文档聚类方法[J];哈尔滨工程大学学报;2007年06期
8 俞研;黄皓;;基于小样本标记实例的数据流集成入侵检测模型[J];电子学报;2007年02期
9 李浪;李仁发;;基于数据流异常挖掘的入侵检测系统设计[J];科学技术与工程;2008年13期
10 羌晨晨;;数据流关键技术研究概论[J];装备制造技术;2009年11期
11 朱顺痣;符长虹;刘利钊;洪文兴;;改进型规模约束在聚类算法中的应用[J];微电子学与计算机;2011年08期
12 孟军;张航黎;张建英;郭禾;;分布式数据流的渐增式聚集维护算法[J];微电子学与计算机;2006年10期
13 陈磊松;;数据流处理系统的负载控制策略研究[J];漳州师范学院学报(自然科学版);2009年03期
14 魏定国;吴时霖;;数据流复杂查询处理的研究[J];计算机科学;2004年02期
15 安红;;基于数据流处理的雷达对抗仿真系统[J];现代雷达;2006年05期
16 蒋建军;王以群;;农村社会保障体系数据流关联规则挖掘[J];计算机工程;2009年17期
17 王金栋;周良;张磊;丁秋林;;基于分枝路径分析的连续查询降载算法[J];应用科学学报;2007年01期
18 胡彧;王顺平;;事务型滑动窗口下的数据流频繁模式挖掘[J];计算机工程与应用;2010年22期
19 闵思鹤,王甲池,江太辉;DS/CDMA扩频通信接收机数据流处理方案[J];通信技术;2003年06期
20 王爽;杨广明;王国仁;;分布式数据流系统通信有效性研究综述[J];微型机与应用;2007年S1期
中国重要会议论文全文数据库 前10条
1 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 魏永超;陈立军;;数据流上复杂事件处理系统Eagle的设计与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 蔡致远;熊方;钱卫宁;周傲英;;核合并分析及其在数据流密度估计上的应用[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
4 尹婷;李红燕;;窗口模型下数据流查询流水化执行的研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 宋宝燕;陆岩;张俊宁;;数据流上的一种适应性查询优化及调度策略[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 吕雁飞;武珊珊;谷峪;许嘉;于戈;;一种数据流上统计性查询QoS的保证方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 周锐;肖川;王国仁;韩东红;霍欢;;数据流滑动窗口连接上的卸载技术的研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
8 霍欢;王国仁;陈庆奎;彭敦陆;;基于Hole-Filler模型的XML数据流上的SLCA算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
9 楚红涛;寒枫;张燕;王婷;;基于数据流的挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
10 武珊珊;宋宝燕;袁锋;于亚新;于戈;;数据流模型研究[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国重要报纸全文数据库 前10条
1 计算机世界实验室 吴挺;Intel的专业“核动力”[N];计算机世界;2007年
2 北京 冬梅;P4时代真的来了吗[N];中国电脑教育报;2001年
3 ;立体防护“中枢神经系统”[N];网络世界;2003年
4 甘久斌;如何有效管理宽带用户[N];通信产业报;2002年
5 ;NetScreen-IDP 500 高端入侵检测与防护设备[N];计算机世界;2003年
6 李勇;降低投资70%[N];中国计算机报;2003年
7 本刊特稿 陈岩;鲁西南村名的文化解读[N];济宁日报;2007年
8 ;在移动互联网里推广IPv6[N];人民邮电;2002年
9 ;港湾网络多业务万兆城域网解决方案[N];人民邮电;2003年
10 记者 郭姜宁;企业级电子商务资金流网络管理系统问世[N];科技日报;2001年
中国博士学位论文全文数据库 前10条
1 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
2 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
3 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
4 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
5 郭立超;数据流挖掘若干技术研究及其在电信行业的应用[D];浙江大学;2011年
6 李军;基于用户行为挖掘的数据流管理技术研究[D];北京邮电大学;2012年
7 由育阳;数据流容错挖掘算法研究[D];哈尔滨工程大学;2011年
8 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
9 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
10 Mahmoud Sami Soliman;[D];中南大学;2010年
中国硕士学位论文全文数据库 前10条
1 何登成;数据流上复杂序查询的研究与实现[D];浙江大学;2010年
2 何江燕;基于数据流的聚类分析算法研究[D];兰州交通大学;2010年
3 梅铮;商业数据流降维方法及其聚类算法研究[D];浙江工商大学;2011年
4 张帆;数据流挖掘中聚类算法的研究与实现[D];北京林业大学;2012年
5 米源;基于密度网格的数据流聚类算法研究[D];西南交通大学;2011年
6 许虎寅;基于密度和网格的数据流聚类算法研究[D];西北师范大学;2012年
7 陈鹏;数据流关联规则挖掘研究及其应用[D];浙江大学;2011年
8 余志虎;数据流聚类算法及其应用[D];南京邮电大学;2011年
9 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
10 张丽;基于网格的数据流聚类算法研究[D];河南大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978