收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

不确定性数据的分类研究

陈红梅  
【摘要】:随着数据采集和处理技术的进步,人们对数据不确定性的认识逐步深入,对不确定性数据的研究也广泛开展。数据不确定性的引入,对数据建模、数据管理和数据挖掘,都提出了新挑战。不确定性数据挖掘不是传统数据挖掘的简单扩展,而是正在蓬勃发展的新研究方向,还有许多有待解决的问题。分类在数据挖掘中是一个重要的研究方向,在现实生活中也是一个普遍存在的问题,具有广泛的应用领域。面对不确定性数据,分类也得到了新发展。 本文针对两个层面的不确定性数据——已知概率分布的不确定性数据和缺失概率分布的不确定性数据,研究了三种基本分类方法——最近邻分类、朴素贝叶斯分类和基本决策树分类。本文的研究在一定程度上丰富和发展了不确定性数据挖掘的理论和技术,增强和扩大了不确定性数据及其分类的应用范围。 本文的主要工作和贡献如下: (1)研究了已知概率分布的不确定性数据的最近邻分类。对于值不确定性连续对象的最近邻分类,所提方法有效地降低了计算复杂度;对于值不确定性离散对象的最近邻分类,所提方法有效地提高了分类准确率 ①对于值不确定性连续对象,定义对象之间的距离为期望距离,采用期望平方距离评估期望距离,并推导了有效计算期望平方距离的公式。在某些条件下,期望平方距离具有与期望距离同样的分类准确率,并有效地降低了计算复杂度。 ②对于值不确定性离散对象,从语义的角度,采用序信息或概念层次树等,定义对象之间的距离为期望语义距离,并通过索引和剪枝计算期望语义距离。如果可以较好地定义语义距离,期望语义距离可以有效地提高分类准确率,而计算复杂度却没有明显地增加。 由于期望距离、期望平方距离和期望语义距离适用于确定性对象,所以值不确定性对象的最近邻分类扩展了确定性对象的最近邻分类。 (2)研究了缺失概率分布的不确定性数据的朴素贝叶斯分类。基于区间概率理论,将点概率参数的朴素贝叶斯分类扩展到区间概率参数的朴素贝叶斯分类,既可以处理值不确定性离散对象,也可以处理确定性离散对象。 ①从概率势的角度,定义了值不确定性离散对象的区间概率,并证明了它是区间概率理论中的F-概率。 ②基于区间概率理论,定义了值不确定性离散对象的条件区间概率(直观概念和规范概念)、独立与直观概念的条件独立,并采用区间概率表达直观概念以便有效计算直观概念。 ③采用直观概念作为后验区间概率和条件区间概率,采用规范概念重构联合区间概率,进而计算后验区间概率,提出了值不确定性离散对象的朴素贝叶斯分类,将点概率参数的朴素贝叶斯分类扩展到区间概率参数的朴素贝叶斯分类。 由于确定性离散对象是值不确定性离散对象的特例,而区间概率理论一般化了经典概率论,因此,值不确定性离散对象的朴素贝叶斯分类可以处理确定性离散对象。 (3)研究了缺失概率分布的不确定性数据的基本决策树分类。基于可达概率区间,将以0-1划分对象的基本决策树扩展到以概率区间分配对象的基本决策树,不仅可以处理值不确定性离散对象,而且可以处理确定性离散对象。 ①从区间概率和条件区间概率直观概念的角度,定义了值不确定性离散对象的概率区间和条件概率区间,并证明了它们是可达概率区间。 ②基于可达概率区间,定义了值不确定性离散对象的熵区间和条件熵区间,采用可达概率区间的熵的最大值作为熵区间的上界,熵的一个下界作为熵区间的下界,并给出了求解熵区间的上界和下界的方法。 ③采用二叉树结构和属性值集合测试以及采用条件熵区间作为属性选择度量,提出了值不确定性离散对象的基本决策树分类,将以0-1划分对象的基本决策树扩展到以概率区间分配对象的基本决策树。 由于经典概率是可达概率区间的特例,而确定性离散对象是值不确定性离散对象的特例,因此,值不确定性离散对象的基本决策树分类可以处理确定性离散对象。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 魏红宁;基于SPRINT方法的并行决策树分类研究[J];计算机应用;2005年01期
2 张剑飞;数据挖掘中决策树分类方法研究[J];长春师范学院学报;2005年02期
3 徐金鸿;陈淑娟;;基于TM影像的水体信息提取[J];水土保持研究;2008年06期
4 代晨阳;余明;;基于RS/GIS技术的厦门市土地覆盖变化研究[J];厦门理工学院学报;2009年03期
5 金莹;;一种改进的决策树算法及其在高校学生就业中的应用[J];合肥学院学报(自然科学版);2010年02期
6 范爱萍;;数据挖掘在CRM中的应用研究[J];软件导刊;2005年15期
7 罗涛;王华金;;一种改进的PEP决策树剪枝算法[J];科技广场;2010年06期
8 于光,李文峰;数据挖掘技术在图书馆用户管理中的应用[J];图书情报工作;2005年01期
9 张燕燕;;分类挖掘在中职教学中的应用[J];计算机与数字工程;2006年02期
10 许卫东;尹球;匡定波;;小波变换在高光谱决策树分类中的应用研究[J];遥感学报;2006年02期
11 郭晶;陈蜀江;邓书斌;祁晨;;决策树技术支持下的植被类型信息提取研究[J];科技信息(学术研究);2008年21期
12 李明;郑波;;基于多维关联规则的决策树分类法[J];大众科技;2008年11期
13 刘星毅;;基于性价比的分裂属性选择方法[J];计算机应用;2009年03期
14 刘峰;潘欣;;基于粗集的遥感影像决策树分类新方法[J];长春工程学院学报(自然科学版);2010年04期
15 李彤,吴骅;采用决策树分类技术对北京市土地覆盖现状进行研究[J];遥感技术与应用;2004年06期
16 陈亮;张友静;陈波;;结合多尺度纹理的高分辨率遥感影像决策树分类[J];地理与地理信息科学;2007年04期
17 马素静;刘旭敏;;基于决策树分类的体绘制加速技术[J];计算机应用;2007年11期
18 李春贵;原庆能;王萌;任贤华;;一种基于属性频率划分的决策树算法[J];广西工学院学报;2007年04期
19 乐通潮;陈杰;罗彩莲;谭芳林;潘辉;;决策树分类在红树林自然保护区SPOT影像解译中的应用[J];福建林业科技;2008年04期
20 周锐;朱祖林;;基于成绩库的远程学习者流失预测决策树的应用研究[J];安庆师范学院学报(自然科学版);2009年02期
中国重要会议论文全文数据库 前10条
1 赵超;杨彬云;郭英;王鑫;;基于SPOT影像的决策树分类在白洋淀湿地解译中的应用[A];中国遥感应用协会2010年会暨区域遥感发展与产业高层论坛论文集[C];2010年
2 鲁俐;;高校档案管理工作中的一种决策树分类算法研究[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
3 刘忠阳;陈怀亮;杜子璇;邹春辉;;基于决策树方法的Landsat7 ETM+遥感影像分类研究[A];农业生态与卫星遥感应用技术学术交流会论文摘要集[C];2006年
4 李诚志;刘志辉;袁林;;基于决策树分类的塔里木河下游沙漠化动态变化分析[A];第八届博士生学术年会论文摘要集[C];2010年
5 郭健;张继贤;张永红;曹银璇;;多时相MODIS影像土地覆盖分类比较研究[A];中国测绘学会九届四次理事会暨2008年学术年会论文集[C];2008年
6 沈润平;陶苏林;;廊道结构对南京市热岛效应影响的遥感分析[A];中国遥感应用协会2010年会暨区域遥感发展与产业高层论坛论文集[C];2010年
7 孙昌儿;刘秉瀚;;一种新的SVM决策树[A];第十一届中国体视学与图像分析学术会议论文集[C];2006年
8 苏冬平;陈文明;黄德林;葛文明;杨慧;陈吉人;;运用数据挖掘技术重构企业基础运营数据[A];第十一届全国自动化应用技术学术交流会论文集[C];2006年
9 韩涛;徐晓桃;颉耀文;;基于单时相MODIS数据的决策树自动构建及分类研究[A];第七届全国优秀青年气象科技工作者学术研讨会论文集[C];2010年
10 陈本清;杨燕明;许德伟;;泉州湾互花米草分布遥感研究[A];第十五届全国遥感技术学术交流会论文摘要集[C];2005年
中国博士学位论文全文数据库 前9条
1 叶莹;基于数据挖掘技术的痰、饮辨证论治规律的比较研究[D];成都中医药大学;2011年
2 李定启;煤与瓦斯突出矿井瓦斯治理现状评价方法及应用[D];中国矿业大学;2011年
3 王妮;基于3S技术的森林资源变化动态监测[D];南京林业大学;2012年
4 王建军;基于知识挖掘技术的智能协同电力负荷预测研究[D];华北电力大学(北京);2011年
5 陈红梅;不确定性数据的分类研究[D];云南大学;2012年
6 王双全;申请上海交通大学工学博士学位论文基于无线传感器网络的行为识别与目标定位研究[D];上海交通大学;2008年
7 刘丙新;基于高光谱特征的水上油膜提取与分析研究[D];大连海事大学;2013年
8 张扣强;大区域居住用地信息特征遥感影像提取方法研究[D];中国地质大学(北京);2013年
9 鲁淑霞;基于支持向量机的多光谱数据分类[D];河北大学;2007年
中国硕士学位论文全文数据库 前10条
1 杜左强;基于B/S结构的保险信息系统的研究与开发[D];哈尔滨工程大学;2005年
2 韩科满;基于Web的客户关系管理系统的设计与开发[D];安徽大学;2005年
3 曹新志;基于决策树的客户兴趣度分析[D];吉林大学;2006年
4 孙革新;基于数据挖掘的企业客户关系管理系统的设计与实现[D];吉林大学;2009年
5 陈云樱;数据挖掘技术在移动通信行业客户关系管理中的应用研究[D];西南交通大学;2004年
6 张倩;基于决策树方法的航空高光谱遥感土地覆盖分类研究[D];山东科技大学;2005年
7 马雪梅;建设用地及其变化信息遥感监测方法研究[D];河海大学;2006年
8 冯陈雷;基于决策树方法的煤炭企业绩效评价研究[D];山东科技大学;2007年
9 毛聪莉;基于粗糙集的决策树学习算法研究[D];湖南大学;2008年
10 戴雯惠;基于动态模糊格的数据分类方法及其在人事管理中的应用[D];苏州大学;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978