收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于网格方法的数据流聚类算法研究

王海东  
【摘要】:数据流聚类是从大量的、有噪声的、模糊的、随机的流数据中发现不相连的、具有相似属性的簇,并使簇中数据的相似性尽可能高,不同簇中的数据的相似性尽可能低,它是数据挖掘领域的一个重要研究方向。在现有的数据流聚类算法中,基于网格方法的聚类算法具有较高的数据压缩比和较低的时间复杂度的特点,这使其在数据流聚类中有着较好的表现。但与此同时,网格方法也有其不足,主要是容易丢失簇边缘网格中的数据点,而这将导致网格聚类的正确率降低。另外,针对高维数据空间如何进行有效的聚类也是一个值得关注的问题,在高维数据空间中,数据点之间的距离趋近于相等,这给以数据点之间的距离作为数据相似性评价标准的聚类算法带来了挑战。 为此,本文的主要研究内容和成果如下。 首先,针对网格数据流聚类中簇边缘网格数据点丢失的问题,提出了基于可变密度阈值的网格数据流聚类算法VDTS。在传统的网格数据流聚类算法中,使用均匀划分网格并采用固定的密度阈值,而在VDTS算法中,采用不均匀划分的网格和可变的密度阈值,从而使簇中心部分的网格容易合并,形成较大的网格,簇边缘部分的网格不容易合并,保持较小的网格。VDTS算法既保留了网格数据流聚类算法的高数据压缩比又解决了簇边缘网格数据点丢失的问题。 其次,针对高维数据流聚类困难的问题,提出了高维数据流网格聚类算法HVDTS。在高维数据流的聚类中,通常的方法是对高维空间进行降维,其中一个关键的问题是如何降维,即如何选择那些对聚类影响较大的维并删除那些对聚类的结果影响较小的维。本文提出了一种维选择算法,通过比较数据点在每一维上的投影的平方误差和来判断该维对聚类结果影响的大小。经过维选择算法处理后,数据空间的维数降低到一个可以接受的范围,然后对降维后的数据集进行聚类,最终获得聚类结果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张强;赵政;;基于概率分布和形态学的快速聚类算法[J];天津大学学报;2006年09期
2 周炎涛;易兴东;吴正国;;基于网格的带有参考参数的聚类算法[J];计算机工程;2008年09期
3 李斌;数据流处理自动化和重新设计[J];管理科学文摘;1997年05期
4 曲建华;马英红;;改进的蚂蚁聚类算法[J];计算机应用研究;2010年09期
5 许剑峰,林嘉宜,黎绍发;一种基于中心对称性的聚类算法[J];计算机工程与设计;2003年05期
6 李晓莉,陈雪;基于模式识别聚类思想的PON ODN规划设计[J];光通信技术;2003年12期
7 张彩虹,王春才,颜雁;医保决策支持系统中的聚类算法[J];长春理工大学学报;2004年04期
8 史兴键,李伟华,王文奇;基于优化聚类算法的安全审计模型[J];计算机工程与应用;2005年17期
9 周如旗;个性化数据聚类的属性坐标分析法[J];电脑与信息技术;2005年03期
10 潘磊,吴小俊,尤媛媛;基于聚类的视频镜头分割和关键帧提取[J];红外与激光工程;2005年03期
11 张永梅,韩焱,张建华;一种有效聚类算法的研究和实现[J];计算机应用;2005年07期
12 叶菲,罗景青;一种基于BFSN聚类的多参数综合分选算法[J];雷达与对抗;2005年02期
13 吕昱;程代杰;;基于SOM的市场细分研究[J];计算机科学;2005年12期
14 何明;冯博琴;马兆丰;傅向华;;一种基于高斯混合模型的无监督粗糙聚类方法[J];哈尔滨工业大学学报;2006年02期
15 谷淑化;吕维先;;基于消息传递的并行聚类算法[J];现代计算机;2006年01期
16 陈荣元;蒋加伏;;基于聚类算法和层次支持向量机的人脸识别方法[J];计算技术与自动化;2006年01期
17 周宇;覃征;;聚类分析中特征选择的研究[J];计算机应用研究;2006年05期
18 蒋志为;陶宏才;白学祥;;基于模糊集的蚁群聚类算法的改进[J];计算机应用;2006年08期
19 张亚东;梁高翔;;使用聚类方法分析IP报文特征[J];光盘技术;2006年03期
20 周新媛;杜洁;何强;;基于共现的词聚类的研究[J];长沙大学学报;2007年02期
中国重要会议论文全文数据库 前10条
1 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 陈克平;周丽华;王丽珍;陈涛;;一种带障碍的网格弥散聚类算法DCellO[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
5 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
6 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
7 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
8 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
9 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
10 魏永超;陈立军;;数据流上复杂事件处理系统Eagle的设计与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
中国博士学位论文全文数据库 前10条
1 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
2 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
3 张剑;宽带接入网流量识别关键技术研究[D];北京邮电大学;2011年
4 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
5 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
6 郭立超;数据流挖掘若干技术研究及其在电信行业的应用[D];浙江大学;2011年
7 李军;基于用户行为挖掘的数据流管理技术研究[D];北京邮电大学;2012年
8 由育阳;数据流容错挖掘算法研究[D];哈尔滨工程大学;2011年
9 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
10 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 王海东;基于网格方法的数据流聚类算法研究[D];西安科技大学;2012年
2 王琳;基于粒子群优化的数据流挖掘的聚类算法分析[D];长沙理工大学;2010年
3 李子文;滑动窗口内基于密度网格的数据流聚类算法研究[D];辽宁工程技术大学;2010年
4 张驹;基于数据流的聚类算法研究与实现[D];中南大学;2009年
5 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
6 余志虎;数据流聚类算法及其应用[D];南京邮电大学;2011年
7 张帆;数据流挖掘中聚类算法的研究与实现[D];北京林业大学;2012年
8 梅铮;商业数据流降维方法及其聚类算法研究[D];浙江工商大学;2011年
9 张丽;基于网格的数据流聚类算法研究[D];河南大学;2011年
10 潘国涛;数据流聚类算法研究[D];浙江工业大学;2011年
中国重要报纸全文数据库 前10条
1 计算机世界实验室 吴挺;Intel的专业“核动力”[N];计算机世界;2007年
2 北京 冬梅;P4时代真的来了吗[N];中国电脑教育报;2001年
3 ;视频数据中挖“宝”[N];计算机世界;2002年
4 ;立体防护“中枢神经系统”[N];网络世界;2003年
5 ;NetScreen-IDP 500 高端入侵检测与防护设备[N];计算机世界;2003年
6 甘久斌;如何有效管理宽带用户[N];通信产业报;2002年
7 李勇;降低投资70%[N];中国计算机报;2003年
8 ;在移动互联网里推广IPv6[N];人民邮电;2002年
9 ;港湾网络多业务万兆城域网解决方案[N];人民邮电;2003年
10 本报记者 赵凤华 通讯员 戴世勇 陶春明;本科生登上全国学术会议讲坛[N];科技日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978