收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于伪近邻及区间距离的不完备数据聚类方法

陈祖军  
【摘要】:对不完备数据的处理一直是数据分析和模式识别领域的重要研究内容。在现实世界中,受噪声、人为错误等主客观因素的影响,获取的数据常包含缺失值。数据的不完备性给聚类分析带来了巨大挑战,不完备数据难以直接使用常见的聚类算法进行聚类分析,对不完备数据不同的处理方法常常得到不同的聚类结果。如果处理不好,会给聚类结果带来明显的偏差甚至直接产生错误结果。因此,本文研究了基于伪近邻及区间距离的不完备数据聚类算法,主要内容包括:(1)针对缺失属性值的不确定性,本文提出了基于伪近邻区间的不完备数据模糊c均值聚类算法。首先根据伪相似度确定不完备样本的伪近邻样本,利用伪近邻样本的属性值信息,将不完备样本的缺失属性值描述为区间数,样本的完备属性值则描述为两端数值相等的区间数,从而将不完备数据集转化为区间型数据集,最后对区间数进行聚类。该算法使用伪相似度寻找不完备样本的近邻关系,同时考虑了样本间的余弦相似度和样本属性值的完备性;另外,缺失属性值的区间型描述充分考虑了不完备样本的近邻样本属性值分布信息,相比数值型描述更能体现缺失属性值的不确定性。(2)为了计算不完备样本到聚类中心的距离,本文利用三角不等式和伪相似度提出了一种描述不完备样本到聚类中心之间大小的区间型距离,基于此给出了一种基于三角不等式的不完备数据模糊c均值聚类算法。首先所提距离的区间型描述一定程度上反映了缺失属性值的不确定性;在区间型距离的计算过程中,三角不等式和伪相似度的使用充分考虑了不完备样本近邻样本的分布信息,在一定程度上对区间的端点值进行了合理的估算。最后给出了不完备数据集下基于该距离的模糊c均值聚类算法,由于没有直接对缺失属性值进行数值估算,在聚类迭代过程中避免了误差的迭代累积。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张爱平;张小红;;属性值为语言区间的多属性决策方法[J];计算机工程与应用;2011年07期
2 崔勇;高岩;王福利;王子敬;;模糊信息系统属性值的重要性度量[J];河南理工大学学报(自然科学版);2007年04期
3 李中华,施丽华,李玉茜;属性的增量赋值[J];计算机工程;1993年01期
4 ;第六章 多属性索引法[J];计算机工程与应用;1981年Z2期
5 关欣;衣晓;何友;周一宇;;一种区间属性值离散化的新方法[J];宇航学报;2009年03期
6 张艳芹;张虹;杨习贝;;区间属性值信息系统的不确定性度量[J];计算机应用与软件;2009年01期
7 程显毅;施佺;沈学华;田宇贺;;属性和属性值组合的概念模板[J];北京大学学报(自然科学版);2013年01期
8 林宏康;范成贤;史开泉;;倒向P-推理与属性剩余发现-应用[J];计算机科学;2011年10期
9 坐看云起;《天使》人物属性攻略[J];网络与信息;2002年11期
10 洪帆,饶双宜,段素娟;基于属性的权限—角色分配模型[J];计算机应用;2004年S2期
11 黄康,柯尊忠,周方泽;AutoCAD的属性块及其应用[J];机械与电子;2001年02期
12 季晓岚;李天瑞;邹维丽;陈红梅;;优势关系下属性值粗化细化时近似集分析[J];计算机工程;2010年12期
13 王福枝;周忠眉;;基于属性值贡献率的朴素贝叶斯改进算法[J];漳州师范学院学报(自然科学版);2010年04期
14 赵连胜;施纪华;;属性值的Rough Logic约简及优化[J];内蒙古大学学报(自然科学版);2014年04期
15 叶春晓;吴中福;符云清;钟将;冯永;;基于属性的扩展委托模型[J];计算机研究与发展;2006年06期
16 叶明全;胡学钢;胡东辉;吴信东;;基于属性值分类的多层次粗糙集模型[J];模式识别与人工智能;2013年05期
17 潘兴昌,上官文斌,富立新,黄敬利;Auto-CAD的属性与细目表生成[J];机械设计与制造;1998年05期
18 杜晓明,于永利,胡晖;一种基于案例的多属性综合评价方法[J];系统工程与电子技术;1999年09期
19 肖辉辉;段艳明;;基于属性值相关距离的KNN算法的改进研究[J];计算机科学;2013年S2期
20 廖俊国;洪帆;李俊;杨木祥;;在信任协商中保密证书的敏感属性[J];通信学报;2008年06期
中国重要会议论文全文数据库 前2条
1 王宇;方滨兴;吴博;宋林海;郭岩;;结合属性分布特征的模式匹配算法[A];第五届全国信息检索学术会议论文集[C];2009年
2 张亮;胡学钢;;多层次属性值下概念格的动态转化[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
中国硕士学位论文全文数据库 前10条
1 张丽芬;一种基于混合QOS的服务选择方法[D];华中师范大学;2015年
2 于芳芳;基于属性的权限访问控制研究与应用[D];河北工业大学;2015年
3 赵爽;基于敏感属性值语义的个性化匿名方法研究[D];天津财经大学;2015年
4 高乙童;大数据时效性关键技术的研究[D];哈尔滨工业大学;2016年
5 陈祖军;基于伪近邻及区间距离的不完备数据聚类方法[D];大连理工大学;2016年
6 徐海堂;属性证书及应用研究[D];中国人民解放军信息工程大学;2005年
7 童先群;基于属性值信息熵的KNN算法改进研究[D];漳州师范学院;2010年
8 张秀丽;符号属性值的相似度学习及属性重要性研究[D];河北大学;2011年
9 张朝胜;领域本体概念实例、属性及属性值提取研究[D];昆明理工大学;2011年
10 雷玉霞;基于本体的军事知识联通[D];中国科学院研究生院(软件研究所);2002年
中国重要报纸全文数据库 前4条
1 重庆 韩涛;中望CAD中块属性的制作[N];电脑报;2004年
2 7Star;教你做RM压缩程序[N];电脑报;2003年
3 北京邮电大学 张剑;通过DOM操作数据(下)[N];计算机世界;2001年
4 ;查找替换的技巧[N];中国电脑教育报;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978