收藏本站
《中国科学技术大学》 2016年
收藏 | 手机打开
二维码
手机客户端打开本文

信任函数建模的认知不确定性数据分析与学习

马荔瑶  
【摘要】:随着信息科学技术的不断发展,人类能够获取的数据量日益增加,其中有大量数据存在不精确、不确定或是可靠性存疑等情况,统称为认知不确定性数据。如何准确描述此类复杂数据并从中挖掘出更多有用信息近年来受到了越来越多的关注。信任函数理论作为一般性的认知不确定性建模和处理框架,凭借其对多种认知不确定性的合理描述以及在信息融合方面的天然优势,提出至今获得了广泛的研究和应用。伴随着众多学者的大力推进,特别是2010年以来信任函数进行统计推断这一方向的重获新生,使得信任函数理论的发展进入了新阶段,开辟出一片崭新的天地。利用信任函数进行统计推断作为新兴领域存在着大量研究空白,本文借由统计推断和机器学习的密切关系,选取结构简单清晰、易于解释的决策树入手,从实际问题出发开展研究。通过对认知不确定数据学习决策树的方法进行系统地分析,分别将离散输出的分类树和连续输出的回归树、线性模型树进行了推广,从而降低了训练集数据精度的要求,更为充分地利用已有数据。从信任回归树的连续不确定数据出发,本文也对连续信任函数这一理论方向进行了探讨,结合信息源可靠性获取证据折扣,从而更为合理地实现连续域的信息融合。本文首次对信任回归树和信任线性模型树的学习进行了研究,同时信任分类树中引入查询机制降低数据不确定性、基于证据似然函数的数据质量衡量、连续域情景折扣等内容此前也未有研究。本文将决策树学习方法全面推广至信任函数建模的不确定训练集,从而实现使用低质量数据学习获得具有较好性能的模型。考虑到认知不确定性数据的存在,本文首先对分类问题训练集的数据质量进行衡量,利用证据似然函数获得了数据规模、数据一致性和数据不确定性的量化评估。将证据似然函数视为某一致质量函数的可能性分布,本文给出了两种一致质量函数的获取方法,并用其非特异性测度实现了证据似然函数平坦程度的衡量。借助于多项分布证据似然函数的良好特性,提出了快捷方便的非特异性测度计算方法,并对数据规模、一致性和不确定性三方面带来的影响进行分离,从而实现了数据质量的分析。对于输出为离散类标的分类树,提出了既能够通过证据似然函数处理不确定性、又能在必要时查询精确类标降低不确定性的主动信任分类树。由于类标不确定导致信息熵难以计算,本文借由证据似然函数获取信息熵区间,并改进信息增益率计算方法,通过比较信息增益率区间选择最优的分裂属性。当不存在优势属性时,提出了一种查询策略,通过查询获得某些最有价值的不确定样本的精确类标对区间宽度进行缩减,从而获得优势属性用于子树的构建。通过UCI数据库的实验验证,在类标完全未知、不精确、不确定和存在噪声等情况下本方法均获得了良好的分类正确率。决策树在训练样本输出为连续变量时即为回归树,通过引入不确定数据,本文分别讨论了叶节点为常数模型的信任回归树和叶节点为线性回归模型的信任线性模型树的构建方法。推导了E2M算法估计线性回归参数的流程,并基于连续域证据距离和区间加权,提出了两种一般化的连续不确定数据误差计算方法。在每个决策节点遍历所有候选分裂属性的所有可能分裂点,选择其中能够最大化误差衰减的一项进行分裂生成两个子节点。迭代此过程即实现了不确定连续样本空间的划分,所构建的树能够更好地处理实际应用中常见的区间值数据、不确定数据和信息来源可靠性不足等,情况。此外,本文还对连续信任函数的信息融合进行了研究,针对有限区间焦元这一实际常用设定,构建基于区间宽度的相似度矩阵并提出了连续域的证据距离衡量方法。在此基础上,利用多个信息源所提供证据之间的距离,给出了证据折扣的生成方法,从而降低了连续质量函数融合时的冲突。更为一般化地,本文对无限区间焦元也即基本信任密度的情景折扣方法进行了讨论,考虑信息源各有所长的情况,实现了利用获取的信息源可靠性元知识在连续域中进行证据折扣与融合。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP181;O212.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 崔斌;卢阳;;基于不确定数据的查询处理综述[J];计算机应用;2008年11期
2 周逊;李建中;石胜飞;;不确定数据上两种查询的分布式聚集算法[J];计算机研究与发展;2010年05期
3 徐雪松;;时间序列不确定数据流中异常数据检测方法[J];电子设计工程;2011年19期
4 徐雪松;李玲娟;郭立玮;;基于优化策略的不确定数据流预测方法[J];计算机工程;2011年21期
5 徐雪松;沈红红;陶帆;胡晓璐;崔伟;;基于小波分析的不确定数据流异常数据检测[J];软件导刊;2011年11期
6 钱江波;王志杰;陈华辉;王海斌;;不确定数据流自适应并行连接算法及应用[J];电信科学;2012年02期
7 向剑平;乔少杰;胡剑;;基于不确定数据理论的道路相关度度量方法[J];计算机工程与设计;2012年06期
8 曹振丽;孙瑞志;李勐;;面向不确定数据的农产品追溯方法[J];农业机械学报;2013年07期
9 蒋涛;高云君;张彬;周傲英;乐光学;;不确定数据查询处理[J];电子学报;2013年05期
10 王爽;杨广明;朱志良;;基于不确定数据的频繁项查询算法[J];东北大学学报(自然科学版);2011年03期
中国重要会议论文全文数据库 前7条
1 高聪;申德荣;于戈;聂铁铮;寇月;;一种基于不确定数据的挖掘频繁集方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 周逊;李建中;石胜飞;;不确定数据上聚集查询的分布式处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
3 王晓伟;黄九鸣;贾焰;;分布式不确定数据上的概率Skyline计算[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
4 艾文凯;张剡;柏文阳;;基于用户偏好的不确定数据阈值轮廓查询算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 陆叶;王丽珍;张晓峰;;从不确定数据集中挖掘频繁Co-location模式[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
6 孙永佼;王国仁;;P2P环境中不确定数据Top-k查询处理算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
7 张潮;李晨;王勇;张阳;;uPOSC4.5:一种针对不确定数据的PU学习决策树算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国博士学位论文全文数据库 前9条
1 陈静玉;面向不确定数据流的聚类和模式挖掘技术研究[D];西安电子科技大学;2014年
2 马荔瑶;信任函数建模的认知不确定性数据分析与学习[D];中国科学技术大学;2016年
3 汤克明;不确定数据流中频繁数据挖掘研究[D];南京航空航天大学;2012年
4 梁春泉;不确定数据流分类算法研究[D];西北农林科技大学;2014年
5 高明;不确定数据的世系管理和相似性查询[D];复旦大学;2011年
6 董俊;不确定数据中数据挖掘方法的研究[D];燕山大学;2012年
7 孙永佼;P2P环境下排序查询处理和分类技术的研究[D];东北大学;2012年
8 王爽;不确定数据流频繁模式挖掘算法研究[D];东北大学;2013年
9 王晓伟;基于概率数据库的偏好查询研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙凤姣;概率XML数据文档的分发技术研究[D];大连海事大学;2015年
2 李雨明;不确定数据的挖掘算法研究[D];上海交通大学;2015年
3 曹庆傲;不确定性数据Top-k查询算法与实现[D];贵州大学;2015年
4 武婷婷;基于MapReduce的不确定查询处理技术的研究与实现[D];东北大学;2013年
5 李红;不确定数据流查询处理算法的研究[D];黑龙江大学;2015年
6 甘果;基于不确定数据的范围查询算法的研究与实现[D];东北大学;2014年
7 张昕;基于分布式极限学习机的不确定数据流分类技术的研究与实现[D];东北大学;2014年
8 刘斌;基于聚集约束条件的不确定数据清洗与Top-k查询[D];国防科学技术大学;2013年
9 林佳丽;基于密度的不确定数据离群点检测研究[D];重庆大学;2015年
10 郎泓钰;面向不确定数据的最近邻分类方法研究[D];辽宁师范大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026