收藏本站
《南京师范大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

聚类算法研究

栾丽华  
【摘要】:在数据挖掘领域中,聚类分析是一项重要的研究课题。与分类不同,聚类的目标是在没有任何先验知识的前提下,根据数据的相似性将数据聚合成不同的簇,使得相同簇中的元素尽可能相似,不同簇中的元素差别尽可能大,因此又被称为非监督分类。聚类分析作为数据挖掘系统中的一个模块,既可以作为一个单独的工具以发现数据库中数据分布的深层信息,也可以作为其他数据挖掘分析算法的一个预处理步骤,因此研究如何提高聚类算法的性能具有重要的意义。 目前,人们提出了很多种聚类算法。其中,典型代表是基于距离的聚类算法和基于密度的聚类算法。本文主要研究以k-means算法为代表的基于距离的聚类算法和以DBSCAN算法为代表的基于密度的聚类算法,探讨用来提高聚类性能的空间索引技术,在此基础上提出了基于四叉树索引的快速聚类算法QTCDBSCAN。该算法改进了DBSCAN算法扩展簇的方法,大大减少了区域查询的次数;在利用四叉树进行区域查询提高查询速度的同时,尽量压缩构造四叉树的时间,因而从整体上提高了聚类性能。 为了测试各种聚类算法的性能,本文设计并实现了一个聚类实验系统CES。该系统可以方便地实现数据采集、聚类分析以及二维数据的可视化。实验验证了DBSCAN系列算法可以发现任意形状的簇,而k-means系列算法的执行速度非常快但是容易陷入局部最优解。实验表明新算法QTCDBSCAN是有效的,使用空间索引对提高聚类性能起到举足轻重的作用。
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:O241

【引证文献】
中国期刊全文数据库 前4条
1 高燕飞;陈俊杰;强彦;;自适应数据库中基于特征向量的聚类算法的研究与改进[J];电脑开发与应用;2008年07期
2 何臻;夏杰;;一种自动获取k值的多中心聚类算法[J];电子世界;2012年04期
3 张亚东;梁高翔;;使用聚类方法分析IP报文特征[J];光盘技术;2006年03期
4 殷佳;武森;王沙骋;;CABOSFV算法的改进方法[J];情报探索;2007年09期
中国硕士学位论文全文数据库 前10条
1 李颖慧;聚类分析技术在中国移动客户消费模式中的应用研究[D];长春工业大学;2010年
2 李富城;多极化SAR图像地物分类技术研究[D];解放军信息工程大学;2009年
3 徐晶;基于顶点度和顶点个数的图聚类算法[D];大连海事大学;2011年
4 郭文政;通用数据挖掘系统平台的设计与实现[D];南京信息工程大学;2011年
5 杜育林;基于信息熵的高维分类型数据子空间聚类算法研究[D];汕头大学;2011年
6 王志飞;基于遗传算法进行高维数据聚类的新算法[D];汕头大学;2011年
7 张艳丽;基于综合度量的划分聚类研究[D];安徽大学;2011年
8 敬斌;全景视觉足球机器人视觉处理系统设计[D];西安电子科技大学;2007年
9 刘安斐;基于数据融合的遥感影像分类[D];解放军信息工程大学;2006年
10 刘丁慧;灰聚类在城市竞争力评估中的应用与研究[D];东北师范大学;2007年
【参考文献】
中国期刊全文数据库 前10条
1 周水庚,周傲英,曹晶;基于数据分区的DBSCAN算法[J];计算机研究与发展;2000年10期
2 周水庚,周傲英,曹晶,胡运发;一种基于密度的快速聚类算法[J];计算机研究与发展;2000年11期
3 王熙照,王亚东,湛燕,袁方;学习特征权值对K-均值聚类算法的优化[J];计算机研究与发展;2003年06期
4 刘勘,周晓峥,周洞汝;一种基于排序子空间的高维聚类算法及其可视化研究[J];计算机研究与发展;2003年10期
5 李飞;薛彬;黄亚楼;;初始中心优化的K-Means聚类算法[J];计算机科学;2002年07期
6 唐春生;金以慧;;基于聚类特性的大规模文本聚类算法研究[J];计算机科学;2002年09期
7 万小军,杨建武,陈晓鸥;文档聚类中k-means算法的一种改进算法[J];计算机工程;2003年02期
8 周傲英,周水庚,曹晶,范晔,胡运发;Approaches for Scaling DBSCAN Algorithm to Large Spatial Databases[J];Journal of Computer Science and Technology;2000年06期
9 陈宁,陈安,周龙骧;数值型和分类型混合数据的模糊K-Prototypes聚类算法(英文)[J];软件学报;2001年08期
10 陈宁,陈安,周龙骧;基于密度的增量式网格聚类算法(英文)[J];软件学报;2002年01期
【共引文献】
中国期刊全文数据库 前10条
1 王全凤;郑浩;;基于径向基函数神经网络的高层建筑结构选型[J];四川建筑科学研究;2010年05期
2 干娟;;基于决策树算法的学生综合测评系统的设计[J];安徽电子信息职业技术学院学报;2011年04期
3 李玲玲;辛浩;;FCM算法及其有效性度量方法[J];安徽电子信息职业技术学院学报;2011年05期
4 张根耀,李竹林,赵宗涛;遮挡情况下运动目标的跟踪[J];安徽大学学报(自然科学版);2003年03期
5 焦誉;赖建章;柯佳;;一种基于密度的网格动态聚类算法的研究[J];安徽大学学报(自然科学版);2007年01期
6 陈弋兰;王鸣;孙书诚;;朴素贝叶斯分类器的误差估计[J];安徽工程科技学院学报(自然科学版);2008年04期
7 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
8 张红涛;胡玉霞;张恒源;顾波;;储粮害虫图像识别中的特征压缩研究[J];安徽农业科学;2008年27期
9 朱辉;;新疆生产建设兵团经济发展影响因素计量实证分析[J];安徽农业科学;2009年31期
10 张昭;何东健;;基于计算机视觉的竹块颜色分类方法研究[J];安徽农业科学;2010年26期
中国重要会议论文全文数据库 前10条
1 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
2 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
3 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年
4 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
5 梁禹;王义刚;王娜;;基于支持向量机的电力电子电路故障诊断[A];第二十六届中国控制会议论文集[C];2007年
6 ;A Hybrid Clustering Algorithm Based on Grid Density and Rough Sets[A];第二十七届中国控制会议论文集[C];2008年
7 ;Incremental Clustering for Categorical Data Using Clustering Ensemble[A];第二十九届中国控制会议论文集[C];2010年
8 刘华;张建华;王娆芬;王行愚;;人机系统操作员功能状态的模糊聚类方法[A];第二十九届中国控制会议论文集[C];2010年
9 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
10 尹雪娇;;基于蚁群算法的故障诊断[A];创新沈阳文集(A)[C];2009年
中国博士学位论文全文数据库 前10条
1 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
2 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
3 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
4 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
5 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
6 乔小燕;基于生物形态学的赤潮藻显微图像分割与特征提取研究[D];中国海洋大学;2010年
7 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
8 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
9 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
10 徐红林;基因调控网络的建模及其结构分解方法研究[D];江南大学;2010年
中国硕士学位论文全文数据库 前10条
1 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
2 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
3 廖甜甜;白细胞图像语义识别分类的研究[D];南昌航空大学;2010年
4 黄正荣;基于振动波的高速公路车辆行驶状态辨识理论研究[D];南昌航空大学;2010年
5 刘棉;人机划拳系统的实现[D];山东科技大学;2010年
6 刘桂珍;颅骨三维重建与信息提取[D];山东科技大学;2010年
7 张海峰;空间三维信息重构与飞行器路径规划[D];山东科技大学;2010年
8 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
9 陈楠楠;互动音乐桌[D];山东科技大学;2010年
10 韩晓峰;高斯混合模型及在探测网络社区结构中的应用[D];山东科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 赵姝,张燕平,张铃,张媛,陈传明;覆盖聚类算法[J];安徽大学学报(自然科学版);2005年02期
2 张家喜;;论Honeynet数据捕获技术[J];安庆师范学院学报(自然科学版);2005年04期
3 李翠霞,于剑;一种模糊聚类算法归类的研究[J];北京交通大学学报;2005年02期
4 胡坚;经济预测讲座(十一) 产品生命周期的分折与预测方法[J];北京统计;1998年11期
5 梁波,吴俊峰,舒华英;移动通信客户保持及其决定因素实证研究[J];北京邮电大学学报(社会科学版);2005年04期
6 黄文馨;产品生命周期的研究[J];商业研究;2003年17期
7 周卫东;论产品生命周期理论在产品开发中的运用[J];保险研究;2003年07期
8 刘文里,张群,张乃英;三相变单相装置运行特性的比较[J];变压器;1998年06期
9 王红睿;赵黎明;裴剑;;均衡化的改进K均值聚类法[J];吉林大学学报(信息科学版);2006年02期
10 王峻;刘淮生;;一种选择性的加权朴素贝叶斯分类器[J];湖南文理学院学报(自然科学版);2008年01期
中国博士学位论文全文数据库 前10条
1 范九伦;模糊聚类新算法与聚类有效性问题研究[D];西安电子科技大学;1998年
2 付琨;高分辨率单视单极化SAR图像地物分类方法研究[D];国防科学技术大学;2002年
3 刘纯平;多源遥感信息融合方法及其应用研究[D];南京理工大学;2002年
4 杨风召;高维数据挖掘中若干关键问题的研究[D];复旦大学;2003年
5 王莉;数据挖掘中聚类方法的研究[D];天津大学;2004年
6 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
7 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
8 宋艳;CRM中基于CABOSFV改进算法的客户聚类研究[D];哈尔滨工程大学;2004年
9 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
10 闫成新;基于区域的图象分割技术研究[D];华中科技大学;2004年
中国硕士学位论文全文数据库 前10条
1 姬雪峰;基于粒子滤波的红外目标跟踪方法研究[D];西安电子科技大学;2011年
2 孙胜平;中文微博客热点话题检测与跟踪技术研究[D];北京交通大学;2011年
3 王宏勇;网络舆情热点发现与分析研究[D];西南交通大学;2011年
4 田峰;农网综合降损辅助决策系统的设计[D];华北电力大学;2011年
5 魏秀明;电能质量的三相不平衡问题的研究[D];南京理工大学;2012年
6 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
7 高世光;基于模糊聚类的数据挖掘技术研究[D];国防科学技术大学;2002年
8 郑洪英;数据挖掘聚类算法的分析和应用研究[D];重庆大学;2002年
9 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
10 龚菲;产品生命周期识别模型研究[D];南京航空航天大学;2003年
【二级引证文献】
中国期刊全文数据库 前8条
1 石文华;林先清;;模糊识别法在电信产品生命周期判别中的应用[J];北京邮电大学学报(社会科学版);2009年04期
2 刘绍海;刘青昆;安娜;顾跃举;;基于聚类算法与序列异常技术的入侵检测新方法[J];计算机安全;2008年08期
3 文守逊;张泰松;;城市竞争力评价体系——以我国中、西部主要城市为例[J];技术经济;2012年04期
4 丁利;向来生;刘希玉;宋超超;;改进图聚类算法及其应用[J];计算机应用;2012年12期
5 孙浩军;游俊斌;吴廷发;;基于粗糙集的高维分类型数据子空间聚类算法[J];汕头大学学报(自然科学版);2012年04期
6 陈伟;沈亚诚;蔡永铭;谷凌雁;;基于Web的数据挖掘系统设计及其在绝经综合征中的应用[J];医学信息学杂志;2012年07期
7 茅剑;刘晋明;曹勇;;一种基于密度的改进KNN文本分类算法[J];漳州师范学院学报(自然科学版);2012年02期
8 李力沛;;一种改进的聚类簇数目自动计算算法[J];现代计算机(专业版);2012年29期
中国博士学位论文全文数据库 前1条
1 柳卿;电信设备制造企业产品生态设计实现机理研究[D];大连理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙海虹;基于模糊粗糙集的Web文本分类研究[D];哈尔滨理工大学;2010年
2 张宁;基于语义的中文文本预处理研究[D];西安电子科技大学;2011年
3 施剑;数据库系统交易负载自适应管理[D];太原理工大学;2011年
4 李娜;基于连续分类的指纹识别方法研究[D];武汉理工大学;2011年
5 王志飞;基于遗传算法进行高维数据聚类的新算法[D];汕头大学;2011年
6 张长帅;基于图的半监督学习及其应用研究[D];南京航空航天大学;2011年
7 宋江;文本分类的特征选择方法研究[D];南京航空航天大学;2010年
8 李振东;面向栏目化经营的网络视频采编系统设计[D];华南理工大学;2011年
9 曾嵘;中国电信固定电话业务生命周期研究[D];南京邮电大学;2012年
10 刘茵;新闻文档的自动文本摘要技术研究[D];解放军信息工程大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 张耀民;张汉松;;数字地图空间索引算法及其编程实现[J];测绘标准化;2005年02期
2 池天河,周旭,王雷,陈华斌,余斌,王月芹,唐培新;中国可持续发展信息共享系统的WebGIS解决方案[J];资源科学;2001年01期
3 陈敏;GIS空间索引技术探究[J];福建电脑;2005年08期
4 管宁;梁红;李科;杜琳;;西北地区重要目标地理信息系统框架研究[J];地理空间信息;2007年06期
5 卢廷军;黄明;;海量栅格数据空间索引与存储的研究[J];测绘通报;2010年10期
6 惠文华,郭新成;3维GIS中的八叉树空间索引研究[J];测绘通报;2003年01期
7 吴大瑞,何钦铭;一种简单的基于固定网格的空间直线索引算法[J];江南大学学报(自然科学版);2005年04期
8 蒋子阳;周志强;汪新庆;;3DGIS中基于改进R树的空间索引技术研究[J];工程地球物理学报;2007年06期
9 胡晨希;刘会侠;乐鹏;王艳东;;一种可扩展的线性可排序四叉树空间索引[J];测绘信息与工程;2010年05期
10 杜莹,王晓明;利用Oracle数据库管理WebGIS中的地图数据[J];测绘通报;2004年04期
中国重要会议论文全文数据库 前10条
1 武森;金海燕;高学东;;数据挖掘中CABOSFV聚类算法的实现与应用[A];全国第八届工业工程与企业信息化学术会议论文集[C];2004年
2 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
3 马帅;宋国杰;唐世渭;杨冬青;王腾蛟;;基于单元划分的DBSCAN聚类算法[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 穆向禹;浦剑涛;张树武;徐波;;基于状态子空间聚类的多层MLLR自适应算法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
5 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
6 杨广林;赵云峰;王书理;;Gabor滤波器及其在图像特征提取方面的优化算法[A];2005年中国智能自动化会议论文集[C];2005年
7 冯又层;蔡勖;;基于自组织特征映射的证券市场聚类[A];第二届全国复杂动态网络学术论坛论文集[C];2005年
8 张刚;刘悦;;基于查询空间的分布式文档集合划分算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 文健;李舟军;;基于聚类语言模型的生物文献检索技术研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 高阳;赵瑞娜;赵志强;阿杉;;基于自组织特征映射网络的全国地级市城市地价区域分类研究[A];地理学与生态文明建设——中国地理学会2008年学术年会论文摘要集[C];2008年
中国重要报纸全文数据库 前10条
1 王云鹤 熊立;武汉电信直销中心剑指聚类市场[N];人民邮电;2009年
2 记者 肖卓;聚类市场:想挖金矿不容易[N];人民邮电;2009年
3 张秋;突破聚类市场的信息化盲区[N];中国计算机报;2007年
4 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
5 符信;30个指标评价社会发展水平[N];南方日报;2005年
6 记者 李远治 通讯员 邹超 敖翔;重庆号百传媒探索聚类市场新模式[N];人民邮电;2009年
7 方正数码有限公司 阎静;资源管理: 图形+数据[N];计算机世界;2002年
8 本报记者 薛海滨;四大概念技术秀[N];计算机世界;2005年
9 长江期货 韩锦 邹云峰 高华;基于RFM模型的聚类分析算法在期货公司客户分类中的应用[N];期货日报;2008年
10 武德锋 李国辉 林洪文 姚作梁;图像世界任我行[N];计算机世界;2002年
中国博士学位论文全文数据库 前10条
1 於跃成;基于半监督学习的分布式和演化聚类研究[D];南京航空航天大学;2012年
2 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年
3 马赓宇;基于HMM的时间序列聚类与识别[D];清华大学;2004年
4 刘兵;基于聚类与流形正则化的分类方法研究[D];中国矿业大学;2013年
5 程文娟;基于文本挖掘的定向性信息分析研究[D];合肥工业大学;2012年
6 蔡维玲;基于聚类的图像分割和分类器设计的研究[D];南京航空航天大学;2008年
7 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
8 张利军;大规模机器学习理论研究与应用[D];浙江大学;2012年
9 董鹏;分布式空间信息的高效查询与分析系统研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 雷景生;神经网络的分类、聚类功能及其规则抽取研究[D];新疆大学;2003年
中国硕士学位论文全文数据库 前10条
1 栾丽华;聚类算法研究[D];南京师范大学;2004年
2 郑洪英;数据挖掘聚类算法的分析和应用研究[D];重庆大学;2002年
3 吴元洪;空间索引技术及其应用研究[D];重庆大学;2003年
4 曾喆;嵌入式移动导航系统的研究与设计[D];中国科学院研究生院(测量与地球物理研究所);2004年
5 高云;基于QAAR-树的空间索引方法研究[D];燕山大学;2010年
6 虞倩倩;基于数据划分的DBSCAN算法研究[D];江南大学;2013年
7 路瑞强;基于均值和标准差的空间索引方法研究[D];哈尔滨工程大学;2010年
8 王宝祥;基于改进聚类的Hilbert R树空间索引算法研究[D];河南大学;2011年
9 李建;基于智能手机的移动GIS空间索引研究与实现[D];河南理工大学;2011年
10 王学全;三维GIS数据库的空间索引技术研究与探索[D];西南大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026