收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于数据分区和QR*树的并行DBSCAN算法研究

许慧  
【摘要】: 随着信息技术的高速发展,数据库应用的规模、范围和深度的不断扩大,导致积累了大量的数据,而这些激增的数据后面隐藏着许多重要的信息,因此人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。聚类是数据挖掘领域中的一个重要课题。 DBSCAN算法是一种基于密度的空间聚类算法。该算法利用基于密度的聚类概念,即要求聚类空间中的一定区域内所包含对象的数目不小于某一给定阈值。DBSCAN算法的显著优点是聚类速度快,且能够有效处理噪声点和发现任意形状的空间聚类。但是,由于其直接对整个数据库进行操作,且进行聚类时使用了一个全局性的表征密度的参数,因此也具有两个比较明显的问题:其一,当数据量增大时,要求较大的内存支持,I/O消耗也很大;其二,当空间聚类的密度不均匀,聚类间距离相差很大时,聚类质量较差。 针对上述问题,本文提出了一种基于数据分区和QR*树的并行DBSCAN算法——PQR*TDBSCAN,即根据数据的空间分布特性,将整个数据空间划分为多个较小的分区,使分区的局部密度相对更均匀;然后将每个局部分区分别送入一个处理单元中,以每个处理单元为基础建立能提高区域查询效率的QR*树,用基于QR*树的DBSCAN算法进行聚类;最后将所得到的聚类结果按照合并规则进行合并。 最后通过仿真实验,验证了PQR*TDBSCAN算法解决了内存消耗过大和聚类质量差的问题。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 冯少荣;肖文俊;;基于密度的DBSCAN聚类算法的研究及应用[J];计算机工程与应用;2007年20期
2 赵伟;郭晓勇;夏玮玮;赵卫雄;张为俊;;基于DBSCAN的单粒子激光电离质谱数据分析[J];大气与环境光学学报;2009年02期
3 石陆魁,何丕廉;一种基于密度的高效聚类算法[J];计算机应用;2005年08期
4 王全;杨国梁;蔺明明;;改进的基于DBSCAN的空间聚类算法研究[J];湖南理工学院学报(自然科学版);2008年04期
5 王红;许璠;崔洪晶;许慧;;PQR~*TDBSCAN改进算法[J];电脑知识与技术;2010年05期
6 李琳;李肯立;;基于图形处理器的划分聚类算法效率研究[J];计算机应用研究;2009年04期
7 冯文超;吴绍春;王炜;;基于IRST的并行时序模式挖掘算法[J];计算机应用研究;2007年12期
8 毛韶阳;李肯立;;一种基因数据的聚类并行算法研究[J];微电子学与计算机;2007年09期
9 谭颖;胡瑞飞;殷国富;;多密度阈值的DBSCAN改进算法[J];计算机应用;2008年03期
10 常程,李铮,周荫清;半导体激光器光谱的聚类分析[J];光子学报;1999年12期
11 李冬;谢宗宝;郑秋燕;;基于聚类分析的协作学习分组方法的讨论[J];软件导刊;2005年06期
12 张鸣华;;一种聚类方法的分析[J];三明学院学报;2006年02期
13 周晓刚;洪春勇;;蚁群聚类算法在客户分类中的应用[J];计算机与现代化;2007年05期
14 乔晓明;刘有耀;;基于粗糙集理论和FCM的图像聚类方法[J];微计算机信息;2007年12期
15 漆超;江嘉;;基于数据挖掘技术的网站用户分析[J];昆明理工大学学报(理工版);2007年02期
16 张广盈;张婷婷;;中原城市群群内经济发展实证分析[J];西安邮电学院学报;2007年06期
17 杨久俊;邓辉文;滕姿;;基于混沌免疫进化算法的聚类算法分析[J];计算机科学;2008年08期
18 周大镯;吴晓丽;闫红灿;;一种高效的多变量时间序列相似查询算法[J];计算机应用;2008年10期
19 钟志强;;教育技术学专业主干课程学生成绩因子与聚类分析的研究[J];软件导刊;2009年03期
20 季越江;吕佳;;基于聚类分析的客户细分研究[J];办公自动化;2009年08期
中国重要会议论文全文数据库 前10条
1 张健沛;许慧;杨静;崔洪晶;;基于数据分区、QR~*-树的并行DBSCAN算法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
2 张望;王辉;;个性化服务中的并行K-Means聚类算法[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
3 毛韶阳;李肯立;;一种基因数据的聚类并行算法研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
4 范晓樯;李桦;田正雨;;超声速/高超声速飞行器复杂流场大规模并行数值仿真[A];计算流体力学研究进展——第十二届全国计算流体力学会议论文集[C];2004年
5 曹晶;周水庚;范晔;周傲英;;数据分区:一种改善基于密度的聚类算法的方法[A];第十六届全国数据库学术会议论文集[C];1999年
6 齐进;叶文华;;三维激光烧蚀瑞利-泰勒不稳定性并行计算[A];中国空气动力学学会第十届物理气体动力学专业委员会会议论文集[C];2001年
7 忻雅;王伟科;阮松林;王世恒;马华升;;基于RAPD和EST-SSR标记的秀珍菇菌株聚类分析[A];中国菌物学会第四届会员代表大会暨全国第七届菌物学学术讨论会论文集[C];2008年
8 鲁振华;宋银花;牛良;刘淑娥;王志强;;PermutMatrix软件及其在观赏桃形态性状聚类分析中的应用[A];中国园艺学会桃分会第二届学术年会论文集[C];2009年
9 丛鹏;;MPI并行计算实现工业CT图像重建[A];2004年CT和三维成像学术年会论文集[C];2004年
10 马汉武;郭沛尧;;基于供应链的供应商分类模型及其管理策略研究[A];现代工业工程与管理研讨会会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 陈军;分布式存储环境下并行计算可扩展性的研究与应用[D];中国人民解放军国防科学技术大学;2000年
2 尹欣;三维弹性问题边界元法并行计算及其工程应用[D];清华大学;2000年
3 陈晓春;基于并行计算的大涡模拟方法及其工程应用基础研究[D];西安建筑科技大学;2004年
4 王开健;基于特大增量步算法的网络并行计算[D];清华大学;2005年
5 张理论;面向气象预报数值模式的高效并行计算研究[D];中国人民解放军国防科学技术大学;2002年
6 赵宁;理中丸和四君子汤与脾虚证方证相关性的实验研究[D];中国中医科学院;2006年
7 曹锋;数据流聚类分析算法[D];复旦大学;2006年
8 吕崇山;代谢综合征中医辨证分型及其与临床检测指标的相关性研究[D];福建中医学院;2008年
9 袁军宝;我国农业现代化进程中的农户兼业经营问题研究[D];兰州大学;2009年
10 邵伟钰;地方政府债务风险预警体系研究[D];苏州大学;2008年
中国硕士学位论文全文数据库 前10条
1 许慧;基于数据分区和QR*树的并行DBSCAN算法研究[D];哈尔滨工程大学;2007年
2 罗贤缙;聚类分析在电力营销中的应用研究[D];华北电力大学(河北);2005年
3 刘战合;基于复合形方法的翼型优化设计及并行计算研究[D];西北工业大学;2004年
4 金光浩;有向图并行计算中的多目标剖分算法[D];中国工程物理研究院;2005年
5 岳常智;135四气门直喷式柴油机工作过程数值计算[D];大连理工大学;2006年
6 许丽利;聚类分析的算法及应用[D];吉林大学;2010年
7 曹大勇;O_2在MgO(100)表面吸附的第一原理分子动力学研究[D];大连理工大学;2004年
8 叶敏娇;Manticore体系结构设计[D];浙江大学;2006年
9 王鑫;数据挖掘中聚类分析算法的研究[D];山东师范大学;2006年
10 严勇;数据挖掘中聚类分析算法研究与应用[D];电子科技大学;2007年
中国重要报纸全文数据库 前10条
1 轶嘉;英特尔全球首个并行计算中心落户无锡[N];人民邮电;2009年
2 江锡民;英特尔并行计算中心落户无锡[N];新华日报;2009年
3 刘琦;伯克利专家展望未来并行计算[N];中国计算机报;2008年
4 均儿;通用计算核动力[N];电脑报;2009年
5 英特尔并行计算实验室研究员 TimothyMattson;并行计算:减少串行软件[N];中国计算机报;2007年
6 本报记者 马文方;英特尔为何要牵头并行计算[N];中国计算机报;2009年
7 英特尔 赵军(Jun Zhao);PC机并行计算革命尚未成功[N];中国计算机报;2009年
8 ;并行计算成PC产业发展瓶颈[N];人民邮电;2008年
9 刘霞;计算能力的提升需要一场革命[N];科技日报;2010年
10 ;聚类分析在自身免疫病基因表达谱研究中的初步应用[N];中国医药报;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978