收藏本站
《江南大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

基于数据划分的DBSCAN算法研究

虞倩倩  
【摘要】:数据挖掘是从海量数据库中找出有价值的东西,以便用于公司商业用途或者研究所研究用途。在挖掘之前,用户并不知道数据库中存在哪些有价值的东西,然后用户用一系列的手段对数据进行分析,从而得出数据之间的一些规律。而聚类分析是数据挖掘的主要任务之一,聚类是一种无监督的机器学习方法,它把大量物理或者抽象的数据样本聚集成多个类,使同一类中样本属性的相似性最大,而将属性差别较大的归入不同的类。主要用于获取数据分布,观察各个类的特征,从而进一步分析特定的类。 经过很多学者的致力研究,已经提出了很多种聚类算法,基本可以分为如下五种:基于划分的方法,如K-means、基于密度聚类的方法、如DBSCAN、基于网格的聚类方法,如BIRCH、基于模糊的聚类方法,如C均值模糊聚类以及基于模型的聚类方法。基于密度的聚类方法就是把具有足够高密度的区域划分为类, DBSCAN算法是一种具有代表性的基于密度的聚类算法,其核心思想是:以每个核心对象对圆心,在给定半径(用ε表示)画圆,计算被包在在圆里的对象个数是否大于给定的阈值(MinPts)。该算法利用类的高密度连通性能够快速发现任意形状的类,并能有效的处理噪声,但该算法也存在以下缺点:当待处理的数据量过大,算法需要较高的内存支持和频繁的I/O操作;同时,当数据分布不均匀时,由于采用全局变量ε和MinPts,导致得不到最佳的聚类结果。 针对DBSCAN算法的缺点,本文提出了一种利用粒子群算法进行数据划分并使用MapReduce模型进行并行计算的DBSCAN算法(Data Partition DBSCAN using PSOAlgorithm, DPDPSO)。DPDPSO算法首先采用粒子群优化算法获取最优初始聚类中心,然后根据最优初始聚类中心对数据集进行分区,分区之后针对每个分区利用DBSCAN自身的k-dist图确定各个分区的ε和MinPts,最后按一定规则对各个分区进行合并,同时归并可能被误认为噪声点的数据点。 为了检验使用粒子群优化算法获取初始聚类中心的优劣,本文首先将粒子群优化算法运用于K-means聚类中心的获取,同时将通过粒子群优化算法获取初始聚类中心的K-means算法与原始的K-means算法进行比较,得出粒子群优化算法在获取数据集的初始聚类中心确实能改善聚类的最终结果。 在对数据集进行分区之后,本文采用了Hadoop云计算平台对每个分区进行并行计算,通过设计合理的MapReduce编程模型,实现了DBSCAN的真正并行化,有效解决了DBSCAN算法对内存的依赖,同时也提高了DBSCAN算法的运行时间。
【学位授予单位】:江南大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前10条
1 蔡颖琨,谢昆青,马修军;屏蔽了输入参数敏感性的DBSCAN改进算法[J];北京大学学报(自然科学版);2004年03期
2 吕振肃,侯志荣;自适应变异的粒子群优化算法[J];电子学报;2004年03期
3 裴继红,范九伦,谢维信;聚类中心的初始化方法[J];电子科学学刊;1999年03期
4 姜园,张朝阳,仇佩亮,周东方;用于数据挖掘的聚类算法[J];电子与信息学报;2005年04期
5 陶新民;徐晶;杨立标;刘玉;;一种改进的粒子群和K均值混合聚类算法[J];电子与信息学报;2010年01期
6 周水庚,周傲英,曹晶;基于数据分区的DBSCAN算法[J];计算机研究与发展;2000年10期
7 曾建潮,崔志华;一种保证全局收敛的PSO算法[J];计算机研究与发展;2004年08期
8 刘向东;沙秋夫;刘勇奎;段晓东;;基于粒子群优化算法的聚类分析[J];计算机工程;2006年06期
9 李雄飞,苑森淼,董立岩,全勃;多段支持度数据挖掘算法研究[J];计算机学报;2001年06期
10 卜东波,白硕,李国杰;聚类/分类中的粒度原理[J];计算机学报;2002年08期
中国硕士学位论文全文数据库 前1条
1 郑洪英;数据挖掘聚类算法的分析和应用研究[D];重庆大学;2002年
【共引文献】
中国期刊全文数据库 前10条
1 焦俊;陈无畏;李绍稳;王继先;;基于改进PSO的智能车辆转向自适应PID控制[J];安徽大学学报(自然科学版);2008年06期
2 刘延明;陆克芬;方崇;;基于投影寻踪和粒子群优化算法的南宁市内河水质综合评价研究[J];安徽农业科学;2009年26期
3 董玮;陈桂芬;;精准农业中管理区划分方法研究[J];安徽农业科学;2011年17期
4 王丽燕,张金利;因子分析法在矿山企业评价中的应用[J];鞍山钢铁学院学报;1997年05期
5 杨薇;;因子分析在西部地区经济发展中的应用[J];鞍山师范学院学报;2011年06期
6 吕玉香;王根绪;;1990—2007年贡嘎山海螺沟径流变化对气候变化的响应[J];冰川冻土;2008年06期
7 苏岩;股票周回升率的统计分析[J];保定师范专科学校学报;2002年02期
8 苏岩;正态分布与统计应用[J];保定师范专科学校学报;2003年04期
9 钱明;丁海涛;徐小刚;;确定区域环境污染成因——HCA-PCA法[J];环境科学与管理;2006年06期
10 王晓燕;吴应清;;数据挖掘技术分析及其应用评价[J];办公自动化;2007年06期
中国重要会议论文全文数据库 前10条
1 杨光友;张道德;;基于PSO和L-M优化方法的奇偶问题学习算法[A];第二十六届中国控制会议论文集[C];2007年
2 蔡星娟;崔志华;曾建潮;谭瑛;;自适应PID控制微粒群算法[A];第二十六届中国控制会议论文集[C];2007年
3 魏立新;田学静;王洪瑞;宋阳;;基于改进型模糊聚类的模糊系统辨识方法[A];第二十七届中国控制会议论文集[C];2008年
4 韩敏;范剑超;;基于半监督改进模糊C均值算法的遥感聚类研究[A];第二十七届中国控制会议论文集[C];2008年
5 史久根;徐胜生;;基于文化-粒子群算法的机器人路径规划算法[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
6 赵力;曾毓敏;邹采荣;吴镇扬;;基于子空间分析的语音信号寂声语声段识别方法[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
7 刘晓平;唐益明;郑利平;;复杂系统仿真对复杂系统研究与创新的意义[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年
8 王浩;徐豪华;马全峰;;改进粒子群算法在军事仓库选址中的应用[A];第十届中国科协年会论文集(一)[C];2008年
9 王云;董增寿;卓东风;;基于图像纹理和结构特征的燃烧指数的高温低氧火焰燃烧稳定性识别[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
10 黄孜祺;肖健;陈海玲;;数据挖掘技术的比较[A];广西计算机学会2008年年会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 张杏莉;几何约束求解关键问题研究[D];山东科技大学;2010年
2 戴运桃;粒子群优化算法研究及其在船舶运动参数辨识中的应用[D];哈尔滨工程大学;2010年
3 谭佳琳;粒子群优化算法研究及其在海底地形辅助导航中的应用[D];哈尔滨工程大学;2010年
4 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
5 高雪瑶;语义特征造型的与历程无关技术的研究[D];哈尔滨理工大学;2009年
6 吕宁;基于数据驱动的故障诊断模型及算法研究[D];哈尔滨理工大学;2009年
7 李艳红;综合运输通道客运结构优化理论与方法研究[D];北京交通大学;2010年
8 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
9 宫轶松;粒子滤波算法研究及其在GPS/DR组合导航中的应用[D];解放军信息工程大学;2010年
10 张开广;郑州地区仰韶文化遗址空间模式研究[D];解放军信息工程大学;2010年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 李强;基于聚类分析的物流中心选址问题算法研究[D];山东科技大学;2010年
3 杨书显;基于PSO算法的氧乐果合成过程建模与控制研究[D];郑州大学;2010年
4 张书春;数据挖掘技术在SMS系统中的应用研究[D];郑州大学;2010年
5 姜婵娟;遥控式水下机器人PID运动控制算法优化研究[D];哈尔滨工程大学;2010年
6 杨立标;基于混合优化策略的粒子群算法及其应用研究[D];哈尔滨工程大学;2010年
7 黄明明;半监督学习方法研究及在警用平台中的应用[D];大连理工大学;2010年
8 靳小川;模糊聚类算法在大学生心理健康分析中的应用研究[D];辽宁工程技术大学;2010年
9 王月;改进的模糊C-均值算法在文本聚类中的应用研究[D];辽宁工程技术大学;2009年
10 王丹丹;基于数据挖掘的煤矿瓦斯事故预测方法研究[D];辽宁工程技术大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 蔡颖琨,谢昆青,马修军;屏蔽了输入参数敏感性的DBSCAN改进算法[J];北京大学学报(自然科学版);2004年03期
2 贾克斌;信息系统设计中聚类分析方法的研究[J];北京工业大学学报;1999年03期
3 李碧,雍正正;一种改进的基于遗传算法的聚类分析方法[J];电路与系统学报;2002年03期
4 宋爱国,陆佶人;基于进化规划的Kohonen网络用于被动声呐目标聚类研究[J];电子学报;1998年07期
5 高新波,裴继红,谢维信;模糊c-均值聚类算法中加权指数m的研究[J];电子学报;2000年04期
6 刘静,钟伟才,刘芳,焦李成;免疫进化聚类算法[J];电子学报;2001年S1期
7 张艳宁,赵荣椿,梁怡;一种有效的大规模数据的分类方法[J];电子学报;2002年10期
8 吕振肃,侯志荣;自适应变异的粒子群优化算法[J];电子学报;2004年03期
9 孟伟;韩学东;洪炳镕;;蜜蜂进化型遗传算法[J];电子学报;2006年07期
10 刘健庄,谢维信,黄建军,李文化;聚类分析的遗传算法方法[J];电子学报;1995年11期
中国博士学位论文全文数据库 前1条
1 裴继红;基于模糊信息处理的图像分割方法研究[D];西安电子科技大学;1998年
【相似文献】
中国期刊全文数据库 前10条
1 荣秋生,颜君彪,郭国强;基于DBSCAN聚类算法的研究与实现[J];计算机应用;2004年04期
2 蔡颖琨,谢昆青,马修军;屏蔽了输入参数敏感性的DBSCAN改进算法[J];北京大学学报(自然科学版);2004年03期
3 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
4 栾丽华,吉根林;一种基于四叉树的快速聚类算法[J];计算机应用;2005年05期
5 孙志伟,赵政;DBSCAN在非空间属性处理上的扩展[J];计算机应用;2005年06期
6 熊忠阳,孙思,张玉芳,王秀琼;一种基于划分的不同参数值的DBSCAN算法[J];计算机工程与设计;2005年09期
7 孙凌燕;杨明;任建斌;;一种基于相对密度的快速聚类算法[J];微电子学与计算机;2009年12期
8 赵大伟;肖周芳;;一种改进的基于密度和样本数量的K-means算法[J];科技信息;2008年28期
9 金栋;文志信;吴天昊;;DBSCAN算法在通信电台关联上的应用[J];舰船电子工程;2011年06期
10 周水庚,周傲英,曹晶;基于数据分区的DBSCAN算法[J];计算机研究与发展;2000年10期
中国重要会议论文全文数据库 前10条
1 马帅;宋国杰;唐世渭;杨冬青;王腾蛟;;基于单元划分的DBSCAN聚类算法[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 张健沛;许慧;杨静;崔洪晶;;基于数据分区、QR~*-树的并行DBSCAN算法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
3 宫蕊;舒红平;郭远远;;基于DBSCAN的密度聚类算法的研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
4 朵春红;王翠茹;;基于取样的DBSCAN聚类算法及其遗传优化[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
5 范晔;周水庚;曹晶;周傲英;;通过数据取样扩展基于密度的聚类算法[A];第十六届全国数据库学术会议论文集[C];1999年
6 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
7 穆向禹;浦剑涛;张树武;徐波;;基于状态子空间聚类的多层MLLR自适应算法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
8 武森;金海燕;高学东;;数据挖掘中CABOSFV聚类算法的实现与应用[A];全国第八届工业工程与企业信息化学术会议论文集[C];2004年
9 丁海波;肖桐;朱靖波;;基于多阶段的中文人名消歧聚类技术的研究[A];第六届全国信息检索学术会议论文集[C];2010年
10 王宁;苑春法;黄昌宁;;汉语名词和形容词的聚类算法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 王云鹤 熊立;武汉电信直销中心剑指聚类市场[N];人民邮电;2009年
2 记者 肖卓;聚类市场:想挖金矿不容易[N];人民邮电;2009年
3 张秋;突破聚类市场的信息化盲区[N];中国计算机报;2007年
4 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
5 符信;30个指标评价社会发展水平[N];南方日报;2005年
6 记者 李远治 通讯员 邹超 敖翔;重庆号百传媒探索聚类市场新模式[N];人民邮电;2009年
7 武德锋 李国辉 林洪文 姚作梁;图像世界任我行[N];计算机世界;2002年
8 本报记者 薛海滨;四大概念技术秀[N];计算机世界;2005年
9 长江期货 韩锦 邹云峰 高华;基于RFM模型的聚类分析算法在期货公司客户分类中的应用[N];期货日报;2008年
10 本报记者 张星海;汉族南北血缘其实不同[N];北京科技报;2004年
中国博士学位论文全文数据库 前10条
1 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
2 范剑超;微粒群优化算法与动态神经网络建模预测研究[D];大连理工大学;2012年
3 王俊义;正负相关反馈与查询扩展技术的研究[D];内蒙古大学;2012年
4 张剑;宽带接入网流量识别关键技术研究[D];北京邮电大学;2011年
5 王妍妍;基于序列聚类的软件漏洞检测方法研究[D];燕山大学;2012年
6 李杰;基于模糊技术的制造单元构建方法及其在变压器企业中的应用[D];河北工业大学;2002年
7 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年
8 任艳;基于公理模糊集与支持向量机的知识发现方法与应用研究[D];大连理工大学;2011年
9 马赓宇;基于HMM的时间序列聚类与识别[D];清华大学;2004年
10 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 虞倩倩;基于数据划分的DBSCAN算法研究[D];江南大学;2013年
2 郑洪英;数据挖掘聚类算法的分析和应用研究[D];重庆大学;2002年
3 罗启福;基于云计算的DBSCAN算法研究[D];武汉理工大学;2013年
4 黄毅磊;DBSCAN算法及在城市网格化管理中的应用[D];上海交通大学;2010年
5 李静;结合蚁群算法与基于划分的DBSCAN聚类算法的研究[D];东北师范大学;2011年
6 王莹;基于粒子群优化的带障碍约束DBSCAN算法研究[D];哈尔滨工程大学;2011年
7 许芳芳;基于DBSCAN优化算法的Web文本聚类研究[D];华东师范大学;2011年
8 王雅光;基于Hadoop平台的DBSCAN算法应用研究[D];广东工业大学;2013年
9 王盼;基于机器视觉和优化DBSCAN的玉米种子纯度识别[D];山东农业大学;2012年
10 栾丽华;聚类算法研究[D];南京师范大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026