收藏本站
《大连理工大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

数据挖掘中几种划分聚类算法的比较及改进

彭丽  
【摘要】: 数据挖掘技术是一种多学科交叉的新兴技术,它是随着数据的大量积累以及市场竞争对信息与知识的迫切需求而产生和发展起来的,并逐渐成为人们关注的热点。聚类分析是数据挖掘领域中一个较活跃且极具挑战性的研究方向。目前聚类算法中比较流行且应用比较广泛的划分聚类算法主要有K-均值、K-调和均值、模糊C-均值和谱聚类等划分算法。但这些算法自身都存在一些缺陷,例如对初始点敏感、不适用于大数据以及收敛速度慢等。 主成分分析是一种将分散在一组变量上的信息集中到某几个综合指标(主成分)上的探索性统计分析方法,同时也是一种数据降维处理技术。本文借助主成分分析的一些优点,提出一种基于最大或次大特征值的主成分分析(PCA)聚类算法。该算法同时结合主成分分析以及所选择的聚类算法的优点,通过数值实验表明该算法是一个有效可行的算法。同时,根据聚类分析中距离度量的重要性,本文在K-均值算法中引用了一种新的距离度量,得到了改进的K-均值聚类算法。该算法通过一个参数的调节可以达到非常好的聚类效果。 本文首先是阐述了聚类分析以及主成分分析的一些理论基础,分析和比较了几类较流行的划分聚类算法,并在说明现有算法的不足的基础上提出了两类改进的聚类算法。通过MATLAB编程进行数值实验,数值实验结果表明,基于最大或次大特征值的PCA聚类算法在计算时间、迭代次数以及聚类结果上都有一定优势,而改进的K-调和均值算法通过调节参数也可以得到很好的聚类效果,同时在聚类时间和迭代次数方面比传统的K-调和均值算法更具优势。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP311.13

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前10条
1 张晓冬;基于全矢谱的智能诊断技术研究[D];郑州大学;2010年
2 和秀星;面向XBRL的财务报表聚类分析审计系统研究[D];电子科技大学;2010年
3 丁若尧;基于博客的网络话题发现及追踪的研究[D];北京交通大学;2011年
4 王大千;基于机器视觉的医药液体制剂异物检测算法研究[D];南京大学;2011年
5 吴文亮;聚类分析中K-均值与K-中心点算法的研究[D];华南理工大学;2011年
6 甄晓敏;改进K均值算法在数据挖掘中的研究应用[D];河北工业大学;2011年
7 刘方;数据挖掘中半监督K-均值聚类算法的研究与改进[D];吉林大学;2010年
8 马洪芝;基于关联规则和粗糙集的智能交通改进算法研究与实验[D];天津师范大学;2010年
9 魏志鹏;数据挖掘在自来水行业中的应用研究[D];武汉理工大学;2010年
10 王松岩;基于模糊聚类的汉语教学系统学习用户分类方法研究与实现[D];吉林大学;2012年
【参考文献】
中国期刊全文数据库 前1条
1 付辉;;模糊C-均值(FCM)聚类算法的改进[J];科学技术与工程;2007年13期
【共引文献】
中国期刊全文数据库 前10条
1 徐大申,邱启荣,何凤霞,彭武安;求解整数规划方法新探[J];华北电力大学学报;2004年05期
2 曹永强 ,刘金禄 ,严利芳;河道一维污染源控制方程的神经网络解法[J];华北工学院学报;2002年04期
3 王文杰,安莉娜;数学优化方法在新安江模型参数率定中的应用分析[J];华北水利水电学院学报;2004年02期
4 白亚男;司应硕;;基于自适应蚁群算法的模糊聚类算法[J];华北水利水电学院学报;2011年06期
5 谢军;;复杂网络中分析社团结构算法研究概述[J];信息通信;2010年04期
6 李永忠;王汝山;张念贵;王玉雷;;基于半监督模糊聚类的入侵检测技术[J];江苏科技大学学报(自然科学版);2010年04期
7 林海涛;蒋传文;任博强;栾士岩;;基于模糊聚类的风速短期组合预测[J];华东电力;2010年02期
8 杨文君;宋妍;;模糊数据挖掘在客户关系管理中的应用[J];信息技术;2007年07期
9 江小辉;赵建民;朱信忠;;商业智能在流行饰品制造业中的应用研究[J];信息技术;2008年06期
10 朱长江;张缨;;模糊C-均值聚类算法的改进研究[J];河南大学学报(自然科学版);2012年01期
中国重要会议论文全文数据库 前10条
1 赵建玉;贾磊;陈月辉;张勇;;基于粒子群优化的信号交叉口交通流预测模型[A];第二十六届中国控制会议论文集[C];2007年
2 王海荣;;石油化工企业的静电火灾隐患评估[A];节能环保 和谐发展——2007中国科协年会论文集(四)[C];2007年
3 鲁俐;;高校档案管理工作中的一种决策树分类算法研究[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
4 陈力超;;国际港澳台长途话务的智能化监控[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
5 马莉;章玲;;数据挖掘技术在图书馆领域的应用[A];新环境下图书馆建设与发展——第六届中国社区和乡镇图书馆发展战略研讨会征文集(下册)[C];2007年
6 顾峥;康晓文;孙熙杉;吴朝霞;王石;刘亚强;金永杰;;基于模糊聚类的MicroPET前端探测器晶体像素单元识别方法[A];第十四届全国核电子学与核探测技术学术年会论文集(2)[C];2008年
7 王坚强;;信息不完全确定的大群体多准则语言决策方法[A];2009中国控制与决策会议论文集(2)[C];2009年
8 赵爽;李晓奇;沙秀艳;;特征加权模糊C均值聚类算法在划分劳动报酬中的应用[A];第三届中国智能计算大会论文集[C];2009年
9 杨占胜;;基于Web服务的基本遗传算法实现[A];第三届中国智能计算大会论文集[C];2009年
10 龚毅;何琳华;;企业技术扫描模式聚类分析[A];第十一届中国青年信息与管理学者大会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
2 宋清昆;自适应结构优化神经网络控制研究[D];哈尔滨理工大学;2009年
3 吕宁;基于数据驱动的故障诊断模型及算法研究[D];哈尔滨理工大学;2009年
4 王亚萍;需求驱动的个性化产品配置设计方法研究[D];哈尔滨理工大学;2010年
5 常旭;低维碳纳米材料和冰纳米管的结构与物性的数值模拟研究[D];南京大学;2010年
6 施希;大型压水堆核电站接入电网的理论和技术研究[D];武汉大学;2009年
7 单玉红;基于土地生态位和多主体的城市居住空间演化情景模型研究[D];武汉大学;2009年
8 柴岳;铁路多元经营系统物流节点布局规划理论与方法和业务发展模式研究[D];北京交通大学;2011年
9 杨婷婷;基于数据的电站节能优化控制研究[D];华北电力大学(北京);2010年
10 张亚刚;基于广域信息的电力系统故障元件定位方法研究[D];华北电力大学(北京);2011年
中国硕士学位论文全文数据库 前10条
1 蔡静颖;模糊c-均值算法的研究[D];辽宁师范大学;2010年
2 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
3 李光远;基于在线聚类和最小二乘支持向量机的模糊建模方法研究[D];郑州大学;2010年
4 雷聪聪;一种基于数据聚类的信息粒化方法[D];郑州大学;2010年
5 王林吉;基于CIELAB均匀颜色空间和聚类算法的混纺测色研究[D];浙江理工大学;2010年
6 王文姝;基于模糊理论的关键词识别算法研究[D];哈尔滨工程大学;2010年
7 王颖芳;基于特定内容的敏感图像过滤技术的研究[D];哈尔滨工程大学;2010年
8 刘洁;基于关联挖掘的深层网络接口模式匹配方法的研究[D];哈尔滨工程大学;2010年
9 周东海;基于记账凭证的高校教育成本数据挖掘研究[D];哈尔滨工程大学;2010年
10 李丽;基于数据挖掘的用户缴费信用风险评估研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 苑津莎;李中;;基于形状相似距离的K-means聚类算法[J];华北电力大学学报(自然科学版);2009年06期
2 杨昕;彭玉青;;结合蚂蚁算法的K-Means聚类分析[J];河北工业大学学报;2007年03期
3 李双虎,王铁洪;Kmeans聚类分析算法中一个新的确定聚类个数有效性的指标[J];河北省科学院学报;2003年04期
4 王张琦;曹渠江;;基于马尔可夫链的半监督分类器[J];上海理工大学学报;2007年01期
5 梁静国,张亚光,戈华;CRM中的模糊C均值(FCM)客户聚类算法研究[J];哈尔滨工程大学学报;2004年02期
6 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
7 李欣;刘万军;;回归分析数据挖掘技术[J];海军航空工程学院学报;2006年03期
8 王燕;;输液中不溶性微粒和异物及其预防措施[J];黑龙江医药;2009年04期
9 杨源杰,黄道;人工神经网络算法研究及应用[J];华东理工大学学报;2002年05期
10 王红梅;;“汉语热”与对外汉语教学[J];黑龙江高教研究;2005年12期
中国博士学位论文全文数据库 前10条
1 于洪;Rough Set理论及其在数据挖掘中的应用研究[D];重庆大学;2003年
2 邵国晨;基于数据挖掘的决策支持系统及应用研究[D];辽宁工程技术大学;2005年
3 高尚;蚁群算法理论、应用及其与其它算法的混合[D];南京理工大学;2005年
4 杨磊;复杂背景条件下的红外小目标检测与跟踪算法研究[D];上海交通大学;2006年
5 杜修平;基于数据挖掘的证券态势估计系统[D];天津大学;2006年
6 侯澍旻;时序数据挖掘及其在故障诊断中的应用研究[D];武汉科技大学;2006年
7 陆楠;关联规则的挖掘及其算法的研究[D];吉林大学;2007年
8 李航;遗传算法求解多模态优化问题的研究[D];天津大学;2007年
9 杨善升;基于数据挖掘的若干化工过程优化和化合物构效关系研究[D];上海大学;2008年
10 高滢;多关系聚类分析方法研究[D];吉林大学;2008年
中国硕士学位论文全文数据库 前10条
1 毕果;矢谱分析关键技术与实践研究[D];郑州大学;2003年
2 涂进;基于模拟退火算法的聚类分析在数据挖掘中的应用[D];重庆大学;2003年
3 郭军华;数据挖掘中聚类分析的研究[D];武汉理工大学;2003年
4 严玉;一个基于统计技术的苏州市自来水公司数据挖掘系统[D];苏州大学;2003年
5 吕永锋;基于模糊评判和动态规划的库存系统开发及应用研究[D];浙江大学;2004年
6 杨春燕;基于全信息技术的远程诊断关键技术研究[D];郑州大学;2004年
7 许震洪;动态路径诱导系统的最优路径算法研究及相关软件实现[D];南京理工大学;2004年
8 单缅;数据挖掘中模糊聚类分析的研究及其应用[D];吉林大学;2005年
9 张前哨;基于A*算法的地图寻径的研究[D];武汉科技大学;2005年
10 侯小静;贝叶斯分类器研究及其在Web文档分类中的应用[D];郑州大学;2005年
【二级引证文献】
中国期刊全文数据库 前1条
1 孙玲芳;李烁朋;;基于K-means聚类与张量分解的社会化标签推荐系统研究[J];江苏科技大学学报(自然科学版);2012年06期
中国博士学位论文全文数据库 前1条
1 张辉;医药大输液可见异物的视觉检测机器人技术研究[D];湖南大学;2012年
中国硕士学位论文全文数据库 前10条
1 郭宇明;用于饮料辨识的电子舌技术研究[D];东北电力大学;2011年
2 赵留军;一种基于TSVM的phishing网页检测方法[D];华北电力大学(北京);2011年
3 桂辉;WEB日志挖掘在网站推荐服务中的应用研究[D];华北电力大学(北京);2011年
4 张志慧;基于ERP基础数据挖掘的企业生产成本控制DSS研究[D];山东理工大学;2011年
5 王菁菁;远程教育系统学生分类的数据挖掘研究[D];辽宁工程技术大学;2011年
6 史琳琳;车牌识别中车牌定位技术的研究[D];东华大学;2012年
7 杨嘉杰;水量水费数据立方体的OLAP和数据挖掘技术研究[D];中山大学;2012年
8 王力磊;桓仁流域汛期旬径流预报方法研究及应用[D];大连理工大学;2012年
9 余庆;基于多变量样本图方法的古陶瓷分类研究[D];景德镇陶瓷学院;2012年
10 张乔;博客新闻对传统媒介议程设置的影响分析[D];中央民族大学;2012年
【二级参考文献】
中国期刊全文数据库 前1条
1 刘小芳,曾黄麟,吕炳朝;点密度函数加权模糊C-均值算法的聚类分析[J];计算机工程与应用;2004年24期
中国博士学位论文全文数据库 前1条
1 范九伦;模糊聚类新算法与聚类有效性问题研究[D];西安电子科技大学;1998年
【相似文献】
中国期刊全文数据库 前10条
1 张蕾;曹其新;李杰;;一种基于群体智能聚类的设备性能横向比较算法[J];上海交通大学学报;2006年03期
2 琚春华;梅铮;许翀寰;;一种基于主成分和密度的改进型动态数据流聚类算法[J];情报学报;2010年04期
3 李春英;汤志康;曹元大;;神经网络集成的城市道路状态判别模型研究[J];计算机工程与应用;2011年15期
4 郁雪;李敏强;;一种结合有效降维和K-means聚类的协同过滤推荐模型[J];计算机应用研究;2009年10期
5 徐雪松;;非线性数据变换及其在离群聚类中的应用[J];软件导刊;2009年10期
6 何震凯;阳爱民;刘永定;邱密;;一种使用DBSCAN聚类的网络流量分类方法[J];计算机应用研究;2009年09期
7 李琦;杨艳菊;;基于人工神经网络的苹果气体识别方法研究[J];传感器与微系统;2007年09期
8 余立新;陈光喜;;基于PCA与合并聚类的RBFNN人脸识别[J];桂林电子科技大学学报;2009年02期
9 孙爱香;杨鑫华;;关于文本聚类有效性评价的研究[J];山东理工大学学报(自然科学版);2007年05期
10 朱世伟;赛英;;基于主成分分析和粗径向基神经网络的财务预警模型研究[J];山东大学学报(理学版);2008年11期
中国重要会议论文全文数据库 前10条
1 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
3 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
4 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
5 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
6 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
8 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 余琳;邓玲;;常见聚类算法的比较以及DSS系统中的应用[A];湖北省通信学会、武汉通信学会2009年学术年会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 叶东云;统计主成分分析的应用问题[N];延安日报;2009年
2 王新亮 王娟;今年上半年股价涨幅前20上市公司绩效分析(上)[N];财会信报;2007年
3 ;城市投资环境评价指标体系及研究方法[N];中国信息报;2006年
4 湘财证券研究所 汪先珍;三季“多云”四季“晴” 长债当歌短债吟[N];中国证券报;2010年
5 陈东理;如何把握股指期现套利投资机会[N];期货日报;2007年
6 记者 王宝琳;我首次采用基因组学技术研究中药[N];科技日报;2009年
7 北京交通大学经济管理学院 穆岩;改善人力资本状况 提升区域竞争力[N];经济日报;2004年
8 郭寅龙 王昊阳;建立中药质检认可体制[N];上海中医药报;2002年
9 王新亮 王娟;今年上半年度股价涨幅前20上市公司绩效分析(下)[N];财会信报;2007年
10 ;视频数据中挖“宝”[N];计算机世界;2002年
中国博士学位论文全文数据库 前10条
1 姚焕玫;基于GIS技术的湖泊水质污染综合评价的研究[D];武汉大学;2005年
2 刘凯;提升西安城市竞争力的系统研究[D];西北工业大学;2007年
3 张旭明;产业集群持续成长因素分析与实证研究[D];吉林大学;2008年
4 尹春丽;昌黎原产地葡萄酒三维荧光光谱及电子舌特征研究[D];西北农林科技大学;2008年
5 徐琼;基于技术效率的区域经济竞争力提升研究[D];浙江大学;2006年
6 吴艳;上海市知识服务业发展研究[D];复旦大学;2007年
7 张超;水土保持区划及其系统架构研究[D];北京林业大学;2008年
8 史英杰;东北地区资源型城市产业转型问题研究[D];天津大学;2008年
9 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
10 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 彭丽;数据挖掘中几种划分聚类算法的比较及改进[D];大连理工大学;2008年
2 卜德云;自适应谱聚类算法的研究与应用[D];南京航空航天大学;2010年
3 石洪竺;量子进化聚类算法研究[D];西安电子科技大学;2010年
4 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年
5 张珠玉;聚类算法及其在日志数据处理中的应用研究[D];山东师范大学;2011年
6 叶冲轶;高维海量数据联合聚类算法的研究与应用[D];浙江工商大学;2010年
7 姚毓凯;一种有效的自适应网格密度聚类算法研究[D];兰州大学;2011年
8 王帆;基于优化目标可调控的免疫聚类算法的研究[D];太原理工大学;2010年
9 李长进;基于蚁群算法的混合聚类算法研究[D];中国石油大学;2010年
10 武彩丽;基于规范切和分水岭的聚类算法研究[D];西安电子科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026