收藏本站
《郑州大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于K-距离的孤立点和聚类算法研究

贾晨科  
【摘要】:从大型数据集中发现有趣的,有用的且预先未知的知识的过程被称为数据挖掘。数据挖掘又称数据库中的知识发现,是数据库研究最活跃的领域之一。通过数据挖掘可以从大型数据集中提取可信、新颖、有效并易于理解的知识、规律或高层信息。这给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要组成部分,聚类分析和孤立点检测技术已经广泛应用于模式识别、数据分析、图象处理、市场研究等许多领域。聚类及孤立点检测算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。 本文介绍了数据挖掘理论,对聚类及孤立点检测算法进行了深入地分析研究。在分析了基于密度的聚类算法和基于密度的孤立点算法的基础上,提出了基于局部孤立系数的孤立点检测和基于局部孤立系数的聚类算法;基于K-距离因子和增强的K-距离因子的孤立点检测算法。 本文使用Visual C++6.0实现了基于局部孤立系数的聚类算法、基于局部孤立系数的孤立点算法、基于K-距离因子的孤立点算法、增强的K-距离因子的孤立点算法、LOF算法、RDBKNN算法。在综合数据集上和真实数据集上做了大量的对比实验来验证孤立点算法的正确性,在综合数据集上验证孤立点算法的效率;在综合数据集上、真实数据集上和多密度数据集上验证基于局部孤立系数的聚类算法的正确性,在综合数据集上验证聚类算法的效率。 实验结果表明,基于局部孤立系数的聚类、基于局部孤立系数的孤立点、基于K-距离因子的孤立点、增强的K-距离因子的孤立点算法能够准确、有效的发现聚类和孤立点。聚类和孤立点检测算法在执行效率、聚类及孤立点检测效果等方面有一定的优越性。 总之,基于局部孤立系数的聚类算法不仅适合于均匀密度的数据集,而且对多密度数据集上也适合。该算法能有效的识别出各种形状的聚类,而且也能有效的识别出孤立点或噪声,在和RDBKNN算法对比中显示出了一定的优越性。最后,实验结果表明,无论是聚类算法还是孤立点检测算法都比原来的算法效率高。
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP301.6

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 曲守宁;刘照莲;崔广强;王钦;;基于关联规则的窑尾分解炉工艺参数分析与优化[J];信息技术与信息化;2008年05期
2 吴雪琴;;DBSCAN算法研究[J];软件导刊;2007年07期
3 陈兴;;K-means算法在图书流通系统中的应用[J];计算机时代;2008年11期
4 莫乐群;郭庚麒;姚国祥;;一种基于聚类和协议分析的入侵检测方法[J];计算机工程与应用;2009年14期
5 姜鑫;李义杰;刘明依;;聚类算法在电信行业交叉销售中的应用研究[J];计算机仿真;2009年09期
6 张新猛;蒋盛益;;一种基于相似度概率的不确定分类数据聚类算法[J];山东大学学报(工学版);2011年03期
7 袁曼丽;宋考;陈高琳;;采用数据挖掘技术的数据库审计系统[J];中国新通信;2008年17期
8 钱强;李英;;数据挖掘技术在图书馆读者分析中的应用[J];图书情报工作;2009年12期
9 莫乐群;郭庚麒;;基于聚类挖掘的入侵检测方法的研究[J];计算机应用与软件;2010年04期
10 马芳;王效岳;;基于数据挖掘技术的专利信息分析[J];情报科学;2008年11期
中国重要会议论文全文数据库 前10条
1 马洪杰;曲晓飞;;数据挖掘技术和过程的特点[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
2 戈欣;吴晓芬;许建荣;;数据挖掘技术在放射科医疗管理中的潜在作用[A];2009中华医学会影像技术分会第十七次全国学术大会论文集[C];2009年
3 宿爱霞;林满山;;浅析数据挖掘技术在铝电解槽槽况确定中的方法研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
4 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 金妮;;一种基于数据仓库和OLAP技术的聚类挖掘系统[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
6 魏元珍;杨沂凤;;数据挖掘技术及其在数字图书馆中的应用[A];网络信息资源的搜集与应用——全国高校社科信息资料研究会第十次年会论文集[C];2004年
7 肖健;沈彩霞;;浅谈数据挖掘技术现状[A];广西计算机学会2008年年会论文集[C];2008年
8 巩耀亮;邱晓东;孙丽君;李树强;;数据挖掘技术在企业竞争情报系统中的应用研究[A];信息时代——科技情报研究学术论文集(第三辑)[C];2008年
9 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
10 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
中国重要报纸全文数据库 前10条
1 陈晓 山西财经大学教师;数据挖掘技术在高校教学管理中的应用[N];山西经济日报;2010年
2 记者 吕贤如;大力加强数据挖掘技术研究应用[N];光明日报;2006年
3 主持人 李禾;数据挖掘技术如何驱动经济车轮[N];科技日报;2007年
4 首之;数据挖掘并不神秘[N];金融时报;2006年
5 刘红岩、何军;利用数据挖掘技术获得商业智能[N];中国计算机报;2003年
6 ;IBM公司推出新型数据挖掘技术[N];中国高新技术产业导报;2001年
7 徐扬;如何从数据中“挤出”效益[N];中国计算机报;2002年
8 山西银行学校 王林芳;数据挖掘在银行业务中的应用[N];山西科技报;2005年
9 任中华;财务数据挖掘六步走[N];中国计算机报;2007年
10 ;数据挖掘阻止银行客户流失[N];计算机世界;2007年
中国博士学位论文全文数据库 前10条
1 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年
2 庞淑英;三江并流带旅游地质景观数据挖掘及旅游价值评价研究[D];昆明理工大学;2008年
3 赵晨;过程控制中的数据挖掘技术研究及其智能控制策略探讨[D];浙江大学;2005年
4 高清东;复杂供矿条件矿山技术指标整体动态优化系统及应用[D];北京科技大学;2005年
5 李兴;高光谱数据库及数据挖掘研究[D];中国科学院研究生院(遥感应用研究所);2006年
6 王玉峰;变电站瞬态电磁环境及微机保护系统EMC研究[D];大连理工大学;2007年
7 潘海天;数据挖掘技术在聚合过程建模与控制的应用研究[D];浙江大学;2003年
8 程其云;基于数据挖掘的电力短期负荷预测模型及方法的研究[D];重庆大学;2004年
9 束志恒;化学化工数据挖掘技术的研究[D];浙江大学;2005年
10 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年
中国硕士学位论文全文数据库 前10条
1 郑仁毅;基于数据挖掘技术的入侵检测系统研究与设计[D];厦门大学;2007年
2 马俊贤;数据挖掘算法在人才测评中的研究与应用[D];中北大学;2008年
3 孙业勤;基于数据分区的密度聚类算法应用研究[D];大连理工大学;2008年
4 尚俊平;基于距离的聚类和孤立点检测算法研究[D];郑州大学;2005年
5 齐先锋;数据挖掘在电信企业客户细分中的应用研究[D];江西理工大学;2007年
6 金萍;调整学习聚类算法的研究[D];合肥工业大学;2008年
7 李渊;基于K-means算法的数据挖掘可视化技术的应用研究[D];北京交通大学;2008年
8 童刚;数据挖掘在证券客户关系管理中的应用与实现[D];电子科技大学;2007年
9 陈小辉;基于数据挖掘的入侵检测技术研究[D];南京理工大学;2008年
10 黎慧娟;校园网用户行为的分析与研究[D];广西大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026