收藏本站
《云南大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

不确定性数据的分类研究

陈红梅  
【摘要】:随着数据采集和处理技术的进步,人们对数据不确定性的认识逐步深入,对不确定性数据的研究也广泛开展。数据不确定性的引入,对数据建模、数据管理和数据挖掘,都提出了新挑战。不确定性数据挖掘不是传统数据挖掘的简单扩展,而是正在蓬勃发展的新研究方向,还有许多有待解决的问题。分类在数据挖掘中是一个重要的研究方向,在现实生活中也是一个普遍存在的问题,具有广泛的应用领域。面对不确定性数据,分类也得到了新发展。 本文针对两个层面的不确定性数据——已知概率分布的不确定性数据和缺失概率分布的不确定性数据,研究了三种基本分类方法——最近邻分类、朴素贝叶斯分类和基本决策树分类。本文的研究在一定程度上丰富和发展了不确定性数据挖掘的理论和技术,增强和扩大了不确定性数据及其分类的应用范围。 本文的主要工作和贡献如下: (1)研究了已知概率分布的不确定性数据的最近邻分类。对于值不确定性连续对象的最近邻分类,所提方法有效地降低了计算复杂度;对于值不确定性离散对象的最近邻分类,所提方法有效地提高了分类准确率 ①对于值不确定性连续对象,定义对象之间的距离为期望距离,采用期望平方距离评估期望距离,并推导了有效计算期望平方距离的公式。在某些条件下,期望平方距离具有与期望距离同样的分类准确率,并有效地降低了计算复杂度。 ②对于值不确定性离散对象,从语义的角度,采用序信息或概念层次树等,定义对象之间的距离为期望语义距离,并通过索引和剪枝计算期望语义距离。如果可以较好地定义语义距离,期望语义距离可以有效地提高分类准确率,而计算复杂度却没有明显地增加。 由于期望距离、期望平方距离和期望语义距离适用于确定性对象,所以值不确定性对象的最近邻分类扩展了确定性对象的最近邻分类。 (2)研究了缺失概率分布的不确定性数据的朴素贝叶斯分类。基于区间概率理论,将点概率参数的朴素贝叶斯分类扩展到区间概率参数的朴素贝叶斯分类,既可以处理值不确定性离散对象,也可以处理确定性离散对象。 ①从概率势的角度,定义了值不确定性离散对象的区间概率,并证明了它是区间概率理论中的F-概率。 ②基于区间概率理论,定义了值不确定性离散对象的条件区间概率(直观概念和规范概念)、独立与直观概念的条件独立,并采用区间概率表达直观概念以便有效计算直观概念。 ③采用直观概念作为后验区间概率和条件区间概率,采用规范概念重构联合区间概率,进而计算后验区间概率,提出了值不确定性离散对象的朴素贝叶斯分类,将点概率参数的朴素贝叶斯分类扩展到区间概率参数的朴素贝叶斯分类。 由于确定性离散对象是值不确定性离散对象的特例,而区间概率理论一般化了经典概率论,因此,值不确定性离散对象的朴素贝叶斯分类可以处理确定性离散对象。 (3)研究了缺失概率分布的不确定性数据的基本决策树分类。基于可达概率区间,将以0-1划分对象的基本决策树扩展到以概率区间分配对象的基本决策树,不仅可以处理值不确定性离散对象,而且可以处理确定性离散对象。 ①从区间概率和条件区间概率直观概念的角度,定义了值不确定性离散对象的概率区间和条件概率区间,并证明了它们是可达概率区间。 ②基于可达概率区间,定义了值不确定性离散对象的熵区间和条件熵区间,采用可达概率区间的熵的最大值作为熵区间的上界,熵的一个下界作为熵区间的下界,并给出了求解熵区间的上界和下界的方法。 ③采用二叉树结构和属性值集合测试以及采用条件熵区间作为属性选择度量,提出了值不确定性离散对象的基本决策树分类,将以0-1划分对象的基本决策树扩展到以概率区间分配对象的基本决策树。 由于经典概率是可达概率区间的特例,而确定性离散对象是值不确定性离散对象的特例,因此,值不确定性离散对象的基本决策树分类可以处理确定性离散对象。
【学位授予单位】:云南大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP311.13

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 王晓伟;贾焰;杨树强;田李;;存在级不确定数据上的概率Skyline计算[J];计算机研究与发展;2011年01期
2 瞿英;吴祈宗;李萍;;扩展关系数据模型下的Credal网络近似推理[J];计算机工程与应用;2010年01期
3 瞿英;吴祈宗;崔春生;;基于d-分隔的Credal推理网络约简算法研究[J];计算机科学;2009年12期
4 王丽珍;一种基于语义贴近度的抽象归纳法[J];计算机学报;2000年10期
5 周傲英;金澈清;王国仁;李建中;;不确定性数据管理技术研究综述[J];计算机学报;2009年01期
6 高明;金澈清;王晓玲;田秀霞;周傲英;;数据世系管理技术研究综述[J];计算机学报;2010年03期
7 庄毅;;ISU-Tree:一种支持概率k近邻查询的不确定高维索引[J];计算机学报;2010年10期
8 岳昆;刘惟一;朱运磊;张伟;;一种基于概率图模型的不确定性数据世系表示方法[J];计算机学报;2011年10期
9 李芳;李一媛;王冲;;不确定数据的决策树分类算法[J];计算机应用;2009年11期
10 彭京;唐常杰;元昌安;李川;胡建军;;一种基于概念相似度的数据分类方法[J];软件学报;2007年02期
【共引文献】
中国期刊全文数据库 前10条
1 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
2 高冲;;高速铁路工程地质勘察中的不确定性问题研究[J];安徽建筑;2011年05期
3 周锐;朱祖林;;基于成绩库的远程学习者流失预测决策树的应用研究[J];安庆师范学院学报(自然科学版);2009年02期
4 季越江;吕佳;;基于聚类分析的客户细分研究[J];办公自动化;2009年08期
5 许子君;杜秋;栾超;;Apriori改进算法在军队院校干部考核中的应用[J];兵工自动化;2012年03期
6 马猛;钮俊清;宁岩;郑浩然;王煦法;;聚类和关联规则挖掘在基因表达数据分析中的应用研究[J];北京生物医学工程;2008年04期
7 郑继刚;杨玲;杨春华;曾庆红;赵若男;;网络入侵分析关联规则挖掘系统设计[J];保山学院学报;2011年05期
8 于洪;谌强;;一种结合K-Means的层次化的搜索结果聚类方法[J];重庆邮电大学学报(自然科学版);2010年03期
9 陈可华;;文本自动分类新探究[J];赤峰学院学报(自然科学版);2011年04期
10 董辉;;基于改进FP_Growth算法的中药方剂配伍规律挖掘研究[J];赤峰学院学报(自然科学版);2011年09期
中国重要会议论文全文数据库 前10条
1 郑华;;基于数据世系的数据质量评估框架[A];广西计算机学会2010年学术年会论文集[C];2010年
2 张乃岳;张力;张学燕;;基于字段匹配的CRM数据挖掘算法与应用[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
3 杨增芳;张海强;唐合文;;随机模拟方法在数据挖掘中的应用探讨[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
4 曹晖;司刚全;张彦斌;贾立新;;基于聚类分析的模糊控制算法在制粉系统中的应用[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
5 曹晖;司刚全;张彦斌;贾立新;;基于模糊时序数据挖掘的火电厂制粉系统优化算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
6 潘国林;杨帆;;数据挖掘算法在保险客户分析中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
7 丁国辉;王国仁;赵宇海;;基于使用信息和聚类方法的多模式集成[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
8 周逊;李建中;石胜飞;;不确定数据上聚集查询的分布式处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
9 刘德喜;万常选;刘喜平;;不确定数据库中基于x-tuple的高效Top-k查询处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
10 信俊昌;王国仁;公丕臻;吴俊杰;;不确定数据库中的阈值轮廓查询处理[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
3 韩道;基于人体和小动物数据库的生理组M3L平台构建[D];华中科技大学;2010年
4 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
5 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
6 韩燕清;中药治疗多囊卵巢综合征文献数据库的建立及中药疗效的数据分析[D];北京中医药大学;2011年
7 于宏波;阳痿肾阳虚证症状规律及其转录组特征研究[D];成都中医药大学;2011年
8 彭佳扬;代谢网络中功能模块挖掘和进化分析研究[D];中南大学;2011年
9 龙军;基于信任感知与演化的服务组合关键技术研究[D];中南大学;2011年
10 何贤芒;隐私保护中k-匿名算法和匿名技术研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘建东;基于Web访问信息挖掘的数字图书馆个性化服务研究[D];浙江理工大学;2010年
2 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
3 琚长涛;一种带有聚类功能的边界检测算法的研究[D];郑州大学;2010年
4 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
5 王勇;一种面向隐私保护的分布式数据流挖掘算法[D];哈尔滨工程大学;2010年
6 于洋;一种改进的COBWEB算法研究[D];哈尔滨工程大学;2010年
7 徐艳红;基于倾斜时间窗口的频繁项集挖掘算法研究[D];哈尔滨工程大学;2010年
8 侯宗仁;TD-SCDMA网络性能分析系统的设计与实现[D];大连理工大学;2010年
9 刘晨;XML文档聚类的研究[D];大连理工大学;2010年
10 李艳萍;基于自主学习的移动机器人质心偏移控制策略[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙圣力;戴东波;黄震华;张齐勋;周立新;;概率数据流上Skyline查询处理算法[J];电子学报;2009年02期
2 李芳,韩元杰;基于证据理论的知识发现分类算法[J];桂林电子工业学院学报;2004年03期
3 李玉玲;吴祈宗;郑恒;李爽;袁瑞萍;韦健;;Credal网络在港口生产安全评价中的应用[J];计算机工程与应用;2007年29期
4 王珊;肖艳芹;张延松;陈红;;支持What-if分析的OLAP系统研究[J];计算机学报;2008年09期
5 周傲英;金澈清;王国仁;李建中;;不确定性数据管理技术研究综述[J];计算机学报;2009年01期
6 谷峪;郭娜;于戈;;基于移动阅读器的RFID概率空间范围查询技术的研究[J];计算机学报;2009年10期
7 高明;金澈清;王晓玲;田秀霞;周傲英;;数据世系管理技术研究综述[J];计算机学报;2010年03期
8 唐常杰;张悦;唐良;李川;陈瑜;;亚复杂系统中动力学干预规则挖掘技术研究进展[J];计算机应用;2008年11期
9 谷峪;于戈;张天成;;RFID复杂事件处理技术[J];计算机科学与探索;2007年03期
10 李建中,李金宝,石胜飞;传感器网络及其数据管理的概念、问题与进展[J];软件学报;2003年10期
【相似文献】
中国期刊全文数据库 前10条
1 金春霞;周海岩;;不确定性数据聚类挖掘研究综述[J];现代计算机(专业版);2011年03期
2 李秀竹;;粗糙集理论及其在管理决策中的应用浅析[J];信息技术;2007年07期
3 彭宇;罗清华;彭喜元;;网络化测试体系中不确定性数据处理方法浅析[J];仪器仪表学报;2010年01期
4 许华杰;李国徽;杨兵;杜建强;;基于密度的不确定性数据概率聚类[J];计算机科学;2009年05期
5 赵昌赣;;不确定性数据中的关联规则研究[J];中国科技信息;2010年02期
6 郭乙江;钟智;元昌安;罗锦光;;一种挖掘不确定性数据频繁项集的方法[J];广西师范学院学报(自然科学版);2011年01期
7 周傲英;金澈清;王国仁;李建中;;不确定性数据管理技术研究综述[J];计算机学报;2009年01期
8 周帆;李树全;肖春静;吴跃;;不确定数据库中概率top-k和排序查询算法[J];计算机应用;2010年10期
9 汪林林;梁晓忠;;改进的不确定性数据概率Skyline查询算法[J];计算机应用;2010年S2期
10 丁晓锋;卢炎生;潘鹏;洪亮;魏琼;;基于U-tree的不确定移动对象索引策略[J];软件学报;2008年10期
中国重要会议论文全文数据库 前10条
1 覃秋梅;范礼林;;一种新的不确定性推理模型[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(下册)[C];2002年
2 张素兰;张继福;;融合粗集和概念格理论的分类知识挖掘模型研究[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
3 吴俊杰;信俊昌;王国仁;周诗咏;;k支配能力排序轮廓查询算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 艾文凯;张剡;柏文阳;;基于用户偏好的不确定数据阈值轮廓查询算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 刘明亮;吴跃民;杨明;;基于粗糙集和云理论的土地适宜性评价模型的建立[A];2006年中国土地学会学术年会论文集[C];2006年
6 周逊;李建中;石胜飞;;不确定数据上聚集查询的分布式处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
7 刘敏;谢芳全;康庄庄;李强;潘巍;李雪;陈群;李战怀;;RFeel:一种RFID数据管理中间件[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 赵超;杨彬云;郭英;王鑫;;基于SPOT影像的决策树分类在白洋淀湿地解译中的应用[A];中国遥感应用协会2010年会暨区域遥感发展与产业高层论坛论文集[C];2010年
9 刘忠阳;陈怀亮;杜子璇;邹春辉;;基于决策树方法的Landsat7 ETM+遥感影像分类研究[A];农业生态与卫星遥感应用技术学术交流会论文摘要集[C];2006年
10 鲁俐;;高校档案管理工作中的一种决策树分类算法研究[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
中国博士学位论文全文数据库 前10条
1 陈红梅;不确定性数据的分类研究[D];云南大学;2012年
2 许华杰;无线传感器监测网络环境不确定性数据处理研究[D];华中科技大学;2008年
3 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
4 高明;不确定数据的世系管理和相似性查询[D];复旦大学;2011年
5 钱爱玲;复杂结构的时间序列数据挖掘与预测方法研究[D];华中科技大学;2011年
6 张晨;数据流聚类分析与异常检测算法[D];复旦大学;2009年
7 任世锦;基于区间数的不确定性数据挖掘及其应用研究[D];浙江大学;2006年
8 张新锋;不确定性结构与系统可靠性度量研究[D];西安电子科技大学;2007年
9 周丽华;影响图的扩展及应用研究[D];云南大学;2010年
10 叶莹;基于数据挖掘技术的痰、饮辨证论治规律的比较研究[D];成都中医药大学;2011年
中国硕士学位论文全文数据库 前10条
1 张伟;不确定性数据中图模型的构建[D];云南大学;2012年
2 梁达鹏;基于元组聚类特征的不确定性数据流聚类算法研究[D];燕山大学;2010年
3 李岩;基于稀疏贝叶斯学习的不确定性数据处理方法研究[D];武汉理工大学;2011年
4 孙平平;不确定数据库中的高效检索策略研究[D];山东师范大学;2012年
5 郭利锐;海洋台站不确定性数据管理技术的研究[D];上海海洋大学;2012年
6 刘光熠;关于不确定性数据置信度算法的研究[D];复旦大学;2010年
7 张李一;不确定性数据频繁模式挖掘算法的研究[D];复旦大学;2011年
8 於磊;基于不确定性数据分析的光纤光栅在线监测平台研究[D];武汉理工大学;2011年
9 李雪娇;不确定数据库中Top-k查询研究[D];西南大学;2012年
10 刘彦红;企业应用系统中不确定性数据集成研究[D];曲阜师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026