收藏本站
《南京航空航天大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于属性加权和相似性度量的混合型聚类算法研究

万京  
【摘要】: 聚类分析是数据挖掘研究的一个重要分支,通过聚类,我们将大型数据集中的数据对象有效地划分到一系列簇中,使得同一簇中的对象彼此相似。对每一类加以合理解释后,我们往往可以发现感兴趣的群体。K均值算法是最常见的聚类方法,因其在处理大型数据集时的高效性而闻名,但缺点是只能处理数值型数据。之后基于K均值提出的K众数和K原型算法分别能够对分类数据和混合数据聚类,但因为相似性度量和权重计算的合理性问题,使得聚类的精度得不到保证。 概念层次树是一种属性的层次结构语义描述,可以用来对分类型属性相似性度量,传统的度量方式是通过编码的方式进行,对编码之间计算概念相关距离能够一定程度的反映出属性值之间的差异程度。本文在层次结构树的基础上,摒弃了传统的编码方式,直接利用树的结构,将编码的运算转换为树中结点的距离运算,这克服了传统方式中因为编码而导致结点信息丢失的缺点,新的度量不仅具有直观上合理性,而且符合度量空间的特性。 ReliefF是一种高效的特征选择方法,本文基于A.Ahmad提出的整体考虑的思想,对ReliefF算法的属性差异性度量提出改进,改进的ReliefF方法能够更准确地依据属性重要程度的不同,赋予相对权值。同时,本文将整体考虑的思想与图聚类理论结合,将数据集对应的信息系统映射为加权图,通过计算图中结点的连接度来计算属性之间的相似性,该度量方式既保留了基于整体考虑的合理性,同时降低了计算复杂度。 混合型属性数据因其具有两种类型的属性而使聚类变得困难,本文主要从属性重要程度和属性距离贡献两方面来讨论混合型数据集聚类中遇到的问题。首先将数值型属性离散化,从而可在整个数据集上对属性重要程度进行衡量并赋值,同时,统一进行新相似性度量,分别在三种类型数据集上进行实验,与传统聚类方法的比较体现出了新方案的效率和效果。
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.13

手机知网App
【参考文献】
中国期刊全文数据库 前1条
1 刘金义,刘爽;Voronoi图应用综述[J];工程图学学报;2004年02期
【共引文献】
中国期刊全文数据库 前10条
1 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
2 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
3 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
4 郇正军;赵国富;;基于土地利用的空间数据挖掘系统的设计与实现[J];安徽农业科学;2011年07期
5 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
6 卢宏建;高永涛;吴顺川;潘贵豪;;石人沟铁矿露天转地下开采生产规模优化[J];北京科技大学学报;2008年09期
7 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
8 李侃,刘玉树;Mercer Kernel Based Fuzzy Clustering Self-Adaptive Algorithm[J];Journal of Beijing Institute of Technology(English Edition);2004年04期
9 杨鑫;;我国保险业的行业竞争结构研究——基于战略群组的分析[J];保险研究;2011年01期
10 周方俊;;一种加权IDIOSCAL模型的非度量分析方法[J];纯粹数学与应用数学;1991年01期
中国重要会议论文全文数据库 前10条
1 ;Incremental Clustering for Categorical Data Using Clustering Ensemble[A];第二十九届中国控制会议论文集[C];2010年
2 杨晓霞;朱庆;李海峰;;知识导航的遥感信息处理服务分类选择方法[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
3 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
4 ;A Health Diagnosis Method for Aeroplane Structural Component Based on Fault Inference Engine[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
5 朱艳辉;王平;周咏梅;;一种基于Agent的中文Web信息自动检索系统(英文)[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
6 ;Research of Web Documents Clustering Based on Dynamic Concept[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
7 梁飞;吕洪波;姚锦峰;;舆情分析中语料库降维[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
8 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
9 I.Samoylenko,T.-C.;;Visualizing the Scientific World and Its Evolution[A];第三届全国复杂动态网络学术论坛论文集[C];2006年
10 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 张泽宝;空间数据库的索引技术研究[D];哈尔滨工程大学;2009年
2 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
3 董大凡;基于度量空间的P2P网络相似搜索技术研究及应用[D];南开大学;2010年
4 童滋雨;城市绿地配置的量化方法研究[D];南京大学;2011年
5 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
6 李晋江;海量数据点三维重构中一类关键问题研究[D];山东大学;2010年
7 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
8 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
9 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
10 魏小涛;在线自适应网络异常检测系统模型与相关算法研究[D];北京交通大学;2009年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 于洋;一种改进的COBWEB算法研究[D];哈尔滨工程大学;2010年
4 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年
5 孙丽萍;流形学习算法ISOMAP的改进与实现[D];大连理工大学;2010年
6 桑媛媛;基于非负稀疏表示的文本分类算法研究[D];大连理工大学;2010年
7 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
8 李丹丹;基于权重设计的聚类融合算法研究及应用[D];辽宁工程技术大学;2009年
9 刘琼;基于群体智能的聚类算法研究[D];长沙理工大学;2010年
10 李贤;混合属性聚类算法研究[D];长沙理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前2条
1 尚志恩 ,徐宁;Voronoi图在蜂窝制移动通信系统中的应用[J];电子技术;2002年01期
2 闫兵,刘碧波,邓志云,张大卫,曾子平;基于Voronoi图理论的自由边界型腔加工路径规划[J];计算机辅助设计与图形学学报;1999年01期
【相似文献】
中国期刊全文数据库 前10条
1 张本生,于永利;CBR系统案例搜索中的混合相似性度量方法[J];系统工程理论与实践;2002年03期
2 黄旭;吕强;钱培德;;蛋白质结构预测聚类算法的评估[J];计算机工程;2011年01期
3 杜培军,陈云浩,方涛,唐宏;基于光谱特征的高光谱遥感影像检索[J];光谱学与光谱分析;2005年08期
4 冯林;罗芬;刘照鹏;黄志伟;;Vague集间的相似性度量及应用[J];计算机工程与应用;2006年21期
5 李旦;俞承芳;;遗传算法在PCB板元件检测中的应用[J];复旦学报(自然科学版);2006年04期
6 闫德勤;;Vague集的相似度量[J];计算机科学;2006年05期
7 李丽丽;孙劲光;;基于颜色特征的图像检索方法[J];中国新通信;2007年05期
8 刘懿;鲍德沛;杨泽红;赵雁南;贾培发;王家钦;;新型时间序列相似性度量方法研究[J];计算机应用研究;2007年05期
9 曹清华;谭汉松;;基于矩特征和面积特征的二值图像检索方法[J];企业技术开发;2007年06期
10 刘晓旻;章毓晋;谭华春;;基于Hausdorff距离的相似性和对称性度量及在人脸定位中的应用[J];信号处理;2008年01期
中国重要会议论文全文数据库 前10条
1 刘喜平;万常选;;一种二维的树型文档结构相似性度量[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 杨艳春;孟祥武;;P2P网络服务环境中的节点相似性度量研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
3 廉鑫;林伟坚;张海威;袁晓洁;;基于双向路径约束模型的XML文档结构相似性度量[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
4 何昕;谢志鹏;;基于简单树匹配算法的Web页面结构相似性度量[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 杨明;杨萍;吉根林;;分布式环境下的隐私保持数据库相似性度量[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
6 郑成文;张海粟;韩柯;陈昱松;张乐飞;;一种基于相似性度量的软件测试方法[A];第六届中国测试学术会议论文集[C];2010年
7 唐宏;杨新;方涛;施鹏飞;;基于核方法的光谱角制图模型及其在高光谱图像分割中的应用[A];中国地理信息系统协会第八届年会论文集[C];2004年
8 马凯;苏一丹;;一种基于序列相似性的蚁群聚类算法[A];广西计算机学会2009年年会论文集[C];2009年
9 董小莉;黄元元;刘宁钟;;基于矩特征和信息熵的商标图像检索方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
10 李幸丽;杜培军;;典型光谱数据库的建立及基于图形界面的分析[A];第十五届全国遥感技术学术交流会论文摘要集[C];2005年
中国重要报纸全文数据库 前10条
1 林晓明;CommVault一体化解决方案[N];中国计算机报;2007年
2 ;OLAP立方体开始瓦解[N];网络世界;2008年
3 记者 马芳;人类首获自身参考基因组数据集合[N];南方日报;2010年
4 清华大学信息技术研究院 侯玮玮 鞠大鹏 汪东升 清华大学-威视数据安全研究所 李东锋 侯海波;灾难备份:让你有备无患[N];计算机世界;2006年
5 ;数据集市:深化挖掘第一步[N];人民邮电;2006年
6 莫言钧;现阶段A股市场存在泡沫吗[N];上海证券报;2007年
7 ;集中式存储缓存[N];网络世界;2007年
8 李点;电子商务需要“即时管理”[N];北京科技报;2001年
9 ;“经济型”数据仓库行情看涨[N];网络世界;2005年
10 ;重复数据删除的经济性[N];网络世界;2007年
中国博士学位论文全文数据库 前10条
1 王文俊;基因表达数据的相似性度量和特征提取研究[D];西安电子科技大学;2011年
2 李珊珊;计算机视觉中特征与相似性度量研究[D];中国科学技术大学;2010年
3 黎刚果;基因模块识别与分析相关问题研究[D];国防科学技术大学;2010年
4 戚文静;基于范例的图案创作关键技术研究[D];山东大学;2012年
5 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
6 刘晓斐;冲击地压电磁辐射前兆信息的时间序列数据挖掘及群体识别体系研究[D];中国矿业大学;2008年
7 董晓莉;时间序列数据挖掘相似性度量和周期模式挖掘研究[D];天津大学;2007年
8 王文惠;基于内容的图像检索技术研究[D];国防科学技术大学;2001年
9 阴小林;中药指纹图谱数据的统计分析[D];东北师范大学;2006年
10 杨宁;计算机辅助卷烟配方设计关键技术研究[D];中国海洋大学;2010年
中国硕士学位论文全文数据库 前10条
1 万京;基于属性加权和相似性度量的混合型聚类算法研究[D];南京航空航天大学;2010年
2 练仕榴;生物医学信号的相似性度量研究[D];天津理工大学;2011年
3 周斌;基于内容的图像检索[D];南京理工大学;2004年
4 郑宇泉;时间序列挖掘方法及在投资组合中的应用[D];厦门大学;2007年
5 陈希;基于内容的图像检索技术及其应用研究[D];武汉理工大学;2008年
6 徐昕;文本相似性度量中参数相关性与优化配置研究[D];中南大学;2010年
7 卢子奎;基于颜色与空间特征的图像检索研究[D];华侨大学;2005年
8 王芳;基于内容的图像检索技术研究[D];黑龙江大学;2005年
9 贾艳翠;基于颜色特征的图像检索技术研究[D];吉林大学;2009年
10 李朋杰;基于形状直方图的三维模型检索算法的研究[D];燕山大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026