收藏本站
《中国科学院研究生院(沈阳计算技术研究所)》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

聚类与孤立点检测算法的研究和实现

刘俊岭  
【摘要】: 数据挖掘是在海量的数据中提取隐含的、未知的、潜在有用的知识或信息模式的决策支持方法。聚类与孤立点检测是其中的重要组成部分。算法的两个重要评价标准是算法的可伸缩性及算法的精度。 本文的研究内容来源于科技部的资助项目数据挖掘系统ScopeMiner,该系统集成了数据挖掘算法研究的最新成果,开发自主产权的数据挖掘工具。聚类与孤立点检测子系统是挖掘系统ScopeMiner中的一部分,它集成了两类高效、高精度的聚类与孤立点检测算法。本文设计与实现了基于网格的聚类算法和基于密度的聚类与孤立点检测算法。在此基础上,实现了聚类与孤立点检测子系统。基于网格的聚类算法是一种有效处理低维海量数据的算法,对高维数据集效率较低。本文分析了现有的基于网格的聚类方法的特点及适用范围,提出了基于CD-Tree的聚类分析算法CDT,设计了两种剪枝优化策略以提高算法的效率。通过在真实与人工数据集上的测试,验证了CDT算法的有效性。 提出一种新的基于密度的聚类算法,具有两个方面的优势:第一,算法利用线性回归分析方法发现密度区域变化的边界,对同一个密度区域中的点利用DBSCAN算法进行聚类,从而获得了多密度级别的类;第二,算法结合了DBSCAN算法和孤立点检测算法LOF可以同时进行聚类和检测孤立点。利用真实数据集与人工数据集对算法进行了测试,验证了算法的有效性。 集成以上聚类与孤立点检测算法,设计与实现了聚类与孤立点检测子系统。介绍了子系统主要的数据结构、算法实现流程,利用真实数据集展示了子系统的使用方法。
【学位授予单位】:中国科学院研究生院(沈阳计算技术研究所)
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP301.6

【引证文献】
中国硕士学位论文全文数据库 前3条
1 陈谦;一种基于PageRank算法的孤立点检测方法及应用[D];暨南大学;2011年
2 郭逸重;Hadoop分布式数据清洗方案[D];华南理工大学;2012年
3 朱吉龙;孤立点检测在移动通信数据分析上的研究与应用[D];广东工业大学;2013年
【参考文献】
中国期刊全文数据库 前4条
1 李存华,孙志挥;GridOF:面向大规模数据集的高效离群点检测算法[J];计算机研究与发展;2003年11期
2 于戈;王大玲;鲍玉斌;王丹;杨晓春;宋宝燕;王国仁;;Internet上支持高质量E-Services的个性化技术的研究[J];计算机科学;2001年12期
3 魏藜,宫学庆,钱卫宁,周傲英;高维空间中的离群点发现[J];软件学报;2002年02期
4 李存华,孙志挥;一类数据空间网格化聚类算法的均值近似方法(英文)[J];软件学报;2003年07期
【共引文献】
中国期刊全文数据库 前10条
1 宋殿霞;王艳;邹光辉;;空间数据挖掘聚类算法研究[J];滨州学院学报;2006年06期
2 杨帆;米红;;一种基于网格的空间聚类方法在区域划分中的应用[J];测绘科学;2007年S1期
3 于勇前;赵相国;陈衡岳;王国仁;;基于引力概念的聚类质量评估算法[J];东北大学学报(自然科学版);2007年08期
4 杨春成,张清浦,田向春,何列松,苏永宪;基于遗传算法的面状地理实体聚类[J];地理与地理信息科学;2004年03期
5 李威;李宏岩;米守防;;基于有权重超图模型的离群点发现[J];大连民族学院学报;2006年05期
6 张净;孙志挥;;GDLOF:基于网格和稠密单元的快速局部离群点探测算法[J];东南大学学报(自然科学版);2005年06期
7 蔡江辉,张华煜;离群数据挖掘方法研究[J];电脑开发与应用;2005年12期
8 张红军;;一种基于相似度聚类的胃癌诊断挖掘算法研究[J];电脑开发与应用;2010年09期
9 周庆;;图书馆个性化信息服务的技术支持[J];大学图书情报学刊;2008年03期
10 李雄飞;孙涛;武佳薇;;对象间矢量感应聚类算法[J];电子学报;2011年06期
中国重要会议论文全文数据库 前9条
1 余琳;邓玲;;常见聚类算法的比较以及DSS系统中的应用[A];湖北省通信学会、武汉通信学会2009年学术年会论文集[C];2009年
2 王俊年;申群太;沈洪远;周鲜成;;一种改进的小生境微粒群算法[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
3 许龙飞;熊君丽;段敏;;基于粗糙集的高维空间离群点发现算法研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 程尊平;周鼎;王晨;周皓峰;汪卫;施伯乐;;SDPHC——基于密度的分割和分层的自校聚类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
5 李存华;孙志挥;陈耿;胡云;;核密度估计及其在聚类算法构造中的应用[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 金义富;朱庆生;;离群数据关键域子空间实时搜索算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
7 连凤娜;吴锦林;薛永生;;一种改进的基于距离的离群挖掘算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
8 郭世可;董槐林;龙飞;张海波;;一种结合密度聚类和区域生长的图像分割方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
9 陈冠华;马秀莉;杨冬青;唐世渭;帅猛;;面向高维数据的低冗余Top-k异常点发现方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 冯光升;面向认知网络的自适应QoS感知与配置方法[D];哈尔滨工程大学;2009年
3 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
4 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
5 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
6 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
7 屠莉;流数据的频繁项挖掘及聚类的关键技术研究[D];南京航空航天大学;2009年
8 刘慧君;用户浏览模式挖掘方法与应用研究[D];重庆大学;2010年
9 郭建校;改进的高维非线性PLS回归方法及应用研究[D];天津大学;2010年
10 李军华;基于知识和多种群进化的遗传算法研究[D];南京航空航天大学;2009年
中国硕士学位论文全文数据库 前10条
1 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
2 吴晓燕;高维数据空间中离群点检测算法的研究[D];南京财经大学;2010年
3 郝旭光;白车身装焊误差监控方法及技术的研究[D];沈阳理工大学;2010年
4 吴迪;高维空间中基于空间划分的离群点挖掘算法研究[D];河北工程大学;2010年
5 杨建红;基于密度的聚类算法研究[D];长春工业大学;2010年
6 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年
7 项响琴;聚类算法及其在信用卡恶意透支预测中的应用研究[D];安徽大学;2010年
8 顾新财;面向多维数据的孤立点挖掘方法研究[D];辽宁工业大学;2011年
9 陈谦;一种基于PageRank算法的孤立点检测方法及应用[D];暨南大学;2011年
10 姚毓凯;一种有效的自适应网格密度聚类算法研究[D];兰州大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 程莹;张云勇;徐雷;房秉毅;;基于Hadoop及关系型数据库的海量数据分析研究[J];电信科学;2010年11期
2 赵玉明,滕少华,张巍,伍乃骐;异常入侵检测中数据挖掘技术RIPPER的应用[J];广东工业大学学报;2005年03期
3 蔡瑞瑱;;浅析华为上下行不平衡故障[J];广东通信技术;2009年11期
4 韦佳;彭宏;林毅申;;基于改进距离的孤立点检测方法[J];华南理工大学学报(自然科学版);2008年09期
5 沈志勇;裴祥喜;崔荣起;崔炳德;;GSM网无线网络优化中上下行问题分析[J];合作经济与科技;2010年16期
6 江小平;李成华;向文;张新访;颜海涛;;k-means聚类算法的MapReduce并行化实现[J];华中科技大学学报(自然科学版);2011年S1期
7 李存华,孙志挥;GridOF:面向大规模数据集的高效离群点检测算法[J];计算机研究与发展;2003年11期
8 倪巍伟;陆介平;陈耿;孙志挥;;基于k均值分区的数据流离群点检测算法[J];计算机研究与发展;2006年09期
9 于浩;王斌;肖刚;杨晓春;;基于距离的不确定离群点检测[J];计算机研究与发展;2010年03期
10 胡彩平;秦小麟;;一种基于密度的局部离群点检测算法DLOF[J];计算机研究与发展;2010年12期
中国重要会议论文全文数据库 前1条
1 陈星;;信号处理中模糊隶属函数的选取方法[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
中国博士学位论文全文数据库 前1条
1 牛琨;聚类分析中若干关键技术及其在电信领域的应用研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 任萱萱;基于Hadoop平台的作业调度研究[D];天津师范大学;2011年
2 杨宸铸;基于HADOOP的数据挖掘研究[D];重庆大学;2010年
3 周奕辛;数据清洗算法的研究与应用[D];青岛大学;2005年
4 岳峰;聚类的边界点检测算法研究[D];郑州大学;2007年
5 夏菁;椭圆拟合方法的比较研究[D];暨南大学;2007年
6 杨兰仓;数据挖掘中聚类和孤立点检测算法的研究[D];山东大学;2008年
7 郑健;聚类和孤立点检测算法的研究与实现[D];南京航空航天大学;2007年
8 刘继雪;GSM掉话分析及解决方法[D];北京邮电大学;2008年
9 范洁;数据挖掘中孤立点检测算法的研究[D];中南大学;2009年
10 朱前磊;电子政务系统中海量数据清洗方法研究与应用[D];东华大学;2010年
【二级引证文献】
中国期刊全文数据库 前1条
1 张悦;刘杰;李航;;一种基于概率的孤立点检测方法[J];计算机工程;2013年03期
【相似文献】
中国期刊全文数据库 前10条
1 李璧镜;王国俊;;逻辑伪度量空间中的孤立点[J];计算机工程与应用;2010年11期
2 彭玲;徐汀荣;;一种基于属性相似度的孤立点挖掘方法[J];计算机应用与软件;2010年12期
3 周爱武;于亚飞;;K-Means聚类算法的研究[J];计算机技术与发展;2011年02期
4 闫宗奎;石冰;;基于网格模型的孤立点检测算法[J];山东大学学报(理学版);2008年11期
5 彭红毅;蒋春福;朱思铭;;基于ICA与MViSOM的孤立点挖掘模型[J];计算机科学;2007年06期
6 向娴;汤建龙;;一种基于网格密度聚类的雷达信号分选[J];火控雷达技术;2010年04期
7 陈宝国;荀小苗;;基于改进CLARANS算法的孤立点检测[J];计算机与数字工程;2008年07期
8 田银磊;王亚利;;一种改进的聚类和孤立点检测算法[J];科学技术与工程;2010年22期
9 邵峰晶;孙仁诚;郭振波;;基于孤立点发现的彩色图像人脸边缘提取算法[J];计算机科学;2006年09期
10 张忠平;宋少英;宋晓辉;;ISAD:一种新的基于属性距离和的孤立点检测算法[J];计算机工程与科学;2009年03期
中国重要会议论文全文数据库 前10条
1 巩俊;马晓红;;一种基于孤立点检测的欠定盲辨识方法[A];2010年通信理论与信号处理学术年会论文集[C];2010年
2 廖国琼;李晶;;基于距离的分布式RFID数据流孤立点检测[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
3 原忠义;唐文忠;许小林;;基于孤立点检测方法对于数据库异常入侵的分析[A];2006中国控制与决策学术年会论文集[C];2006年
4 郑健;皮德常;;基于共享最近邻的聚类和孤立点检测算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
5 蔡利栋;傅瑜;;稳健的孤立点检测——从中位数求方差[A];2006年全国理论计算机科学学术年会论文集[C];2006年
6 李文波;孙乐;;在查询反馈中改善文档聚类效果的策略研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 许珂;姜山;;数据挖掘方法在科技产出分布可视化研究中的运用[A];第二届中国科技哲学及交叉学科研究生论坛论文集(硕士卷)[C];2008年
8 王珺;刘希玉;;基于BIRCH算法和K-MEANS算法相结合的数据挖掘聚类技术[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
9 吴琼;李国辉;涂丹;孙韶杰;;基于对角扩展精确定位的图像鉴别数字水印技术[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
10 王仲君;莫春玲;;视觉原理的FCM聚类算法在复杂网络中的应用[A];2006全国复杂网络学术会议论文集[C];2006年
中国重要报纸全文数据库 前2条
1 ;PCI——过不了河的桥[N];计算机世界;2002年
2 主持人:徐勇;3G 期待破晓时分[N];人民邮电;2003年
中国博士学位论文全文数据库 前10条
1 安金龙;支持向量机若干问题的研究[D];天津大学;2004年
2 白爱民;基于客户集群和拓扑理论的CRM模型与算法研究[D];天津大学;2006年
3 杨燕;基于计算智能的聚类组合算法研究[D];西南交通大学;2006年
4 蒋红星;图的几类控制参数研究[D];上海大学;2009年
5 高增安;基于交易的可疑洗钱行为模式与反洗钱对策研究[D];西南交通大学;2007年
6 何洁月;面向蛋白质结构预测的计算生物学技术研究[D];东南大学;2006年
7 陈树;聚类算法模型的研究及应用[D];江南大学;2007年
8 胡彩平;基于空间自相关的空间数据挖掘若干关键技术的研究[D];南京航空航天大学;2007年
9 杨超;乘积图的连通度和容错直径的研究[D];中国科学技术大学;2007年
10 何怀玉;有限单群的谱刻画[D];苏州大学;2009年
中国硕士学位论文全文数据库 前10条
1 顾新财;面向多维数据的孤立点挖掘方法研究[D];辽宁工业大学;2011年
2 刘世杰;基于孤立系数的孤立点检测研究[D];中南大学;2011年
3 苗润华;基于聚类和孤立点检测的数据预处理方法的研究[D];北京交通大学;2012年
4 高可;面向数据流的局部异常孤立点动态挖掘算法研究及应用[D];青岛大学;2010年
5 谢方方;基于距离的孤立点挖掘在计算机取证中的应用研究[D];山东师范大学;2014年
6 郑灵芝;基于最近邻相似度的孤立点检测及半监督聚类算法[D];浙江工业大学;2011年
7 陈谦;一种基于PageRank算法的孤立点检测方法及应用[D];暨南大学;2011年
8 黑重程;Web敏感信息监测优化方法研究[D];西安科技大学;2011年
9 周永锋;基于密度的海量数据增量式挖掘技术研究[D];中国人民解放军国防科学技术大学;2002年
10 孙小林;金融数据挖掘中的增量聚类算法及应用研究[D];华中科技大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026