收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

不确定性数据的分类研究

陈红梅  
【摘要】:随着数据采集和处理技术的进步,人们对数据不确定性的认识逐步深入,对不确定性数据的研究也广泛开展。数据不确定性的引入,对数据建模、数据管理和数据挖掘,都提出了新挑战。不确定性数据挖掘不是传统数据挖掘的简单扩展,而是正在蓬勃发展的新研究方向,还有许多有待解决的问题。分类在数据挖掘中是一个重要的研究方向,在现实生活中也是一个普遍存在的问题,具有广泛的应用领域。面对不确定性数据,分类也得到了新发展。 本文针对两个层面的不确定性数据——已知概率分布的不确定性数据和缺失概率分布的不确定性数据,研究了三种基本分类方法——最近邻分类、朴素贝叶斯分类和基本决策树分类。本文的研究在一定程度上丰富和发展了不确定性数据挖掘的理论和技术,增强和扩大了不确定性数据及其分类的应用范围。 本文的主要工作和贡献如下: (1)研究了已知概率分布的不确定性数据的最近邻分类。对于值不确定性连续对象的最近邻分类,所提方法有效地降低了计算复杂度;对于值不确定性离散对象的最近邻分类,所提方法有效地提高了分类准确率 ①对于值不确定性连续对象,定义对象之间的距离为期望距离,采用期望平方距离评估期望距离,并推导了有效计算期望平方距离的公式。在某些条件下,期望平方距离具有与期望距离同样的分类准确率,并有效地降低了计算复杂度。 ②对于值不确定性离散对象,从语义的角度,采用序信息或概念层次树等,定义对象之间的距离为期望语义距离,并通过索引和剪枝计算期望语义距离。如果可以较好地定义语义距离,期望语义距离可以有效地提高分类准确率,而计算复杂度却没有明显地增加。 由于期望距离、期望平方距离和期望语义距离适用于确定性对象,所以值不确定性对象的最近邻分类扩展了确定性对象的最近邻分类。 (2)研究了缺失概率分布的不确定性数据的朴素贝叶斯分类。基于区间概率理论,将点概率参数的朴素贝叶斯分类扩展到区间概率参数的朴素贝叶斯分类,既可以处理值不确定性离散对象,也可以处理确定性离散对象。 ①从概率势的角度,定义了值不确定性离散对象的区间概率,并证明了它是区间概率理论中的F-概率。 ②基于区间概率理论,定义了值不确定性离散对象的条件区间概率(直观概念和规范概念)、独立与直观概念的条件独立,并采用区间概率表达直观概念以便有效计算直观概念。 ③采用直观概念作为后验区间概率和条件区间概率,采用规范概念重构联合区间概率,进而计算后验区间概率,提出了值不确定性离散对象的朴素贝叶斯分类,将点概率参数的朴素贝叶斯分类扩展到区间概率参数的朴素贝叶斯分类。 由于确定性离散对象是值不确定性离散对象的特例,而区间概率理论一般化了经典概率论,因此,值不确定性离散对象的朴素贝叶斯分类可以处理确定性离散对象。 (3)研究了缺失概率分布的不确定性数据的基本决策树分类。基于可达概率区间,将以0-1划分对象的基本决策树扩展到以概率区间分配对象的基本决策树,不仅可以处理值不确定性离散对象,而且可以处理确定性离散对象。 ①从区间概率和条件区间概率直观概念的角度,定义了值不确定性离散对象的概率区间和条件概率区间,并证明了它们是可达概率区间。 ②基于可达概率区间,定义了值不确定性离散对象的熵区间和条件熵区间,采用可达概率区间的熵的最大值作为熵区间的上界,熵的一个下界作为熵区间的下界,并给出了求解熵区间的上界和下界的方法。 ③采用二叉树结构和属性值集合测试以及采用条件熵区间作为属性选择度量,提出了值不确定性离散对象的基本决策树分类,将以0-1划分对象的基本决策树扩展到以概率区间分配对象的基本决策树。 由于经典概率是可达概率区间的特例,而确定性离散对象是值不确定性离散对象的特例,因此,值不确定性离散对象的基本决策树分类可以处理确定性离散对象。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 金春霞;周海岩;;不确定性数据聚类挖掘研究综述[J];现代计算机(专业版);2011年03期
2 李秀竹;;粗糙集理论及其在管理决策中的应用浅析[J];信息技术;2007年07期
3 彭宇;罗清华;彭喜元;;网络化测试体系中不确定性数据处理方法浅析[J];仪器仪表学报;2010年01期
4 许华杰;李国徽;杨兵;杜建强;;基于密度的不确定性数据概率聚类[J];计算机科学;2009年05期
5 赵昌赣;;不确定性数据中的关联规则研究[J];中国科技信息;2010年02期
6 郭乙江;钟智;元昌安;罗锦光;;一种挖掘不确定性数据频繁项集的方法[J];广西师范学院学报(自然科学版);2011年01期
7 周傲英;金澈清;王国仁;李建中;;不确定性数据管理技术研究综述[J];计算机学报;2009年01期
8 周帆;李树全;肖春静;吴跃;;不确定数据库中概率top-k和排序查询算法[J];计算机应用;2010年10期
9 汪林林;梁晓忠;;改进的不确定性数据概率Skyline查询算法[J];计算机应用;2010年S2期
10 丁晓锋;卢炎生;潘鹏;洪亮;魏琼;;基于U-tree的不确定移动对象索引策略[J];软件学报;2008年10期
11 周春姐;孟小峰;;普适计算中复合事件检测的研究与挑战[J];计算机科学与探索;2010年12期
12 吴佳伟;刘国华;王梅;;K-匿名隐私保护模型中不确定性数据的建模问题研究[J];计算机工程与科学;2011年09期
13 郑肇葆;;基于Bayesian线性规划的影像纹理识别方法[J];武汉大学学报(信息科学版);2007年03期
14 胡婷婷;帅磊;王培林;孙芸华;黄欢;丰宝桐;魏书军;单保慈;魏龙;;PET数据采集系统中数据对齐时序控制的设计[J];核电子学与探测技术;2011年04期
15 薛兵,单甘霖,石春和,黄允华;不确定性数据关联问题中多因素推理判决研究[J];系统工程与电子技术;1998年05期
16 刘金花;张公永;;基于模糊神经网络的D-S证据理论在多传感器信息融合中的应用[J];山东纺织经济;2008年02期
17 高明;金澈清;王晓玲;田秀霞;周傲英;;数据世系管理技术研究综述[J];计算机学报;2010年03期
18 杨宝华;;一种新的属性约简算法[J];计算机技术与发展;2006年05期
19 孟小前;;基于PCA和决策树的城市中河流信息提取[J];甘肃科技纵横;2009年04期
20 辛婷婷;刘国华;;K-匿名隐私保护模型下的Top-k查询[J];计算机科学与探索;2011年08期
中国重要会议论文全文数据库 前10条
1 覃秋梅;范礼林;;一种新的不确定性推理模型[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(下册)[C];2002年
2 张素兰;张继福;;融合粗集和概念格理论的分类知识挖掘模型研究[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
3 吴俊杰;信俊昌;王国仁;周诗咏;;k支配能力排序轮廓查询算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 艾文凯;张剡;柏文阳;;基于用户偏好的不确定数据阈值轮廓查询算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 刘明亮;吴跃民;杨明;;基于粗糙集和云理论的土地适宜性评价模型的建立[A];2006年中国土地学会学术年会论文集[C];2006年
6 周逊;李建中;石胜飞;;不确定数据上聚集查询的分布式处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
7 刘敏;谢芳全;康庄庄;李强;潘巍;李雪;陈群;李战怀;;RFeel:一种RFID数据管理中间件[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 赵超;杨彬云;郭英;王鑫;;基于SPOT影像的决策树分类在白洋淀湿地解译中的应用[A];中国遥感应用协会2010年会暨区域遥感发展与产业高层论坛论文集[C];2010年
9 刘忠阳;陈怀亮;杜子璇;邹春辉;;基于决策树方法的Landsat7 ETM+遥感影像分类研究[A];农业生态与卫星遥感应用技术学术交流会论文摘要集[C];2006年
10 鲁俐;;高校档案管理工作中的一种决策树分类算法研究[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
中国博士学位论文全文数据库 前10条
1 陈红梅;不确定性数据的分类研究[D];云南大学;2012年
2 许华杰;无线传感器监测网络环境不确定性数据处理研究[D];华中科技大学;2008年
3 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
4 高明;不确定数据的世系管理和相似性查询[D];复旦大学;2011年
5 钱爱玲;复杂结构的时间序列数据挖掘与预测方法研究[D];华中科技大学;2011年
6 张晨;数据流聚类分析与异常检测算法[D];复旦大学;2009年
7 任世锦;基于区间数的不确定性数据挖掘及其应用研究[D];浙江大学;2006年
8 张新锋;不确定性结构与系统可靠性度量研究[D];西安电子科技大学;2007年
9 周丽华;影响图的扩展及应用研究[D];云南大学;2010年
10 叶莹;基于数据挖掘技术的痰、饮辨证论治规律的比较研究[D];成都中医药大学;2011年
中国硕士学位论文全文数据库 前10条
1 张伟;不确定性数据中图模型的构建[D];云南大学;2012年
2 梁达鹏;基于元组聚类特征的不确定性数据流聚类算法研究[D];燕山大学;2010年
3 李岩;基于稀疏贝叶斯学习的不确定性数据处理方法研究[D];武汉理工大学;2011年
4 孙平平;不确定数据库中的高效检索策略研究[D];山东师范大学;2012年
5 郭利锐;海洋台站不确定性数据管理技术的研究[D];上海海洋大学;2012年
6 刘光熠;关于不确定性数据置信度算法的研究[D];复旦大学;2010年
7 张李一;不确定性数据频繁模式挖掘算法的研究[D];复旦大学;2011年
8 於磊;基于不确定性数据分析的光纤光栅在线监测平台研究[D];武汉理工大学;2011年
9 李雪娇;不确定数据库中Top-k查询研究[D];西南大学;2012年
10 刘彦红;企业应用系统中不确定性数据集成研究[D];曲阜师范大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978