收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

不确定数据的代价敏感决策树分类器研究

刘明建  
【摘要】:信息技术的飞速发展使得不确定数据频繁的出现在各个研究领域,例如市场分析、传感器网络、环境监视等应用场景中。且很多应用中不确定数据(Uncertain Data)起着至关重要的作用。而传统的处理确定数据的研究方法处理不确定数据的效果很差,不能满足应用需求。所以数据不确定性的研究已经逐步受到研究界的重视。但目前不确定数据的相关工作中还没有出现代价敏感类的研究。而代价敏感学习是一个具有重要意义的研究方向,其弥补了传统分类器只注重正确率的不足,通过引入代价的概念,寻求总体最小化代价的目标。在很多应用场景中,代价敏感模型更具有合理性。 由此,本文研究在不确定数据上实现代价敏感学习。通过结合不确定数据模型的特点和处理方法,将传统的代价敏感分类算法扩展应用到不确定数据上。本文的研究内容十分具有创新性,不仅扩展了不确定数据的研究方向,而且优化了代价敏感分类模型,使其更贴近现实应用。研究的主要内容有: 首先,本文提出了一种针对不确定数据的代价敏感决策树算法CSDTU。该算法将不确定分类器处理不确定数据的方法应用到传统的代价敏感决策树分类器,基于概率势(Probabilitic Cardinality)的概念定义了不确定代价敏感决策树上分裂属性选择标准,完成相关的代价计算。同时,利用不确定决策树的分类方法,通过整个树结构上的所有路径来判断类别,对确定和不确定数据都能实现代价敏感分类。 另外,本文将传统代价敏感决策树上的单批测试算法扩展到不确定数据上,结合不确定数据的特点定义出不确定批属性的选择标准,提出了不确定单批测试算法。由于属性的不确定性,CSDTU算法的简单测试过程中进行了过多的测试,引起了巨大的浪费。而单批测试算法基于代价敏感学习技术,通过选择批属性集进行批测试,能有效地降低分类过程的总代价,提升分类器性能,实现分类器优化。 实验设计中,数据集是从UCI数据库中选择的,符合分类器特点。为了验证研究设计的分类器性能,实验中将CSDTU算法同传统不确定决策树算法DTU进行比较。同时,研究中根据相关研究给出的方法,将DTU算法改造成代价敏感算法DTU-C,并做了laplace校正,以此进一步同CSDTU进行对比实验。实验结果说明在多种参数设定情况下,CSDTU算法产生的总代价总是低于DTU算法。而且对确定数据(数据不确定性为0)的处理效果非常好,即使在不确定率很高的情况下,CSDTU依旧保持稳定,充分证明了算法的合理性和有效性。 不确定单批测试算法USBT的实验是基于CSDTU和DTU两种决策树结构上进行的。实验结果说明,该算法对CSDTU的分类器具有明显的提升作用,降低了分类过程的总代价;但是对非代价敏感类算法DTU的分类过程没有产生任何影响。这说明基于代价敏感实现的不确定单批测试算法,只能对对代价敏感类型的分类器有提升作用。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 潘世瑞;张阳;李雪;王勇;;针对不确定正例和未标记学习的最近邻算法(英文)[J];计算机科学与探索;2010年09期
2 谢茂强;黄亚楼;;适应类别增量的决策树训练算法[J];计算机工程;2006年17期
3 包洋;李蓓智;杨建国;;基于数据挖掘的工艺参数优化研究[J];微计算机信息;2006年27期
4 刘丽;一个在数据流上快速建立决策树的算法[J];连云港职业技术学院学报;2005年02期
5 汪金苗;张龙波;邓齐志;王凤英;王勇;;不确定数据频繁项集挖掘方法综述[J];计算机工程与应用;2011年20期
6 杨金伟;王丽珍;陈红梅;赵丽红;;基于距离的不确定数据异常点检测研究[J];山东大学学报(工学版);2011年04期
7 黄树成,刘丽;数据流上挖掘决策树的关键技术研究[J];常州工学院学报;2005年05期
8 张舒静;;数据挖掘在垃圾邮件过滤中的应用[J];中国高新技术企业;2007年05期
9 何爱香;张勇;;基于遗传算法和决策树的肿瘤分类规则挖掘[J];山东大学学报(理学版);2007年09期
10 叶臻,吴保国,谢铭培;工件识别中决策树分类器的设计[J];计算机工程与应用;1999年04期
11 房立;黄泽宇;;竞争选择分裂属性的决策树分类模型[J];计算机技术与发展;2006年08期
12 申德荣;于戈;寇月;聂铁铮;;可能世界内数值型不确定数据匹配模型[J];计算机应用研究;2008年09期
13 王博;贾焰;杨树强;周斌;;适用于不确定文本分类的特征选择算法[J];通信学报;2009年08期
14 孙平平;刘方爱;;不确定数据库中减小可能世界的RPW-kBest查询[J];计算机技术与发展;2011年10期
15 张新猛;蒋盛益;;一种基于相似度概率的不确定分类数据聚类算法[J];山东大学学报(工学版);2011年03期
16 崔斌;卢阳;;基于不确定数据的查询处理综述[J];计算机应用;2008年11期
17 郑继刚;杨春华;曾庆红;赵若男;;基于Weka平台的不确定数据挖掘[J];保山学院学报;2010年05期
18 王悦;唐常杰;杨宁;张悦;李红军;郑皎凌;朱军;;在不确定数据集上挖掘优化的概率干预策略[J];软件学报;2011年02期
19 赵娟;王明春;李小亮;;基于不确定数据决策树分类算法的软件外包评价模型[J];天津职业技术师范大学学报;2011年03期
20 洪玫,沈琳;关系数据库中不确定值的处理[J];四川大学学报(工程科学版);1998年01期
中国重要会议论文全文数据库 前10条
1 孙永佼;王国仁;;P2P环境中不确定数据Top-k查询处理算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 陆叶;王丽珍;张晓峰;;从不确定数据集中挖掘频繁Co-location模式[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
3 周帅印;李晨;王勇;张阳;;FDTU:针对不确定数据的快速决策树生成算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
4 张潮;李晨;王勇;张阳;;uPOSC4.5:一种针对不确定数据的PU学习决策树算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
6 张守娟;周诠;;空间数据挖掘决策树算法在遥感图像分类中的应用研究[A];中国遥感应用协会2010年会暨区域遥感发展与产业高层论坛论文集[C];2010年
7 卜亚杰;胡朝举;;一种改进的ID3算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
8 田松;;面向属性归纳的决策树算法在壁画病害信息提取方面的应用[A];2009`中国地理信息产业论坛暨第二届教育论坛就业洽谈会论文集[C];2009年
9 黄冬梅;花强;高印芝;;产生模糊决策树的一个新算法[A];模糊集理论与应用——98年中国模糊数学与模糊系统委员会第九届年会论文选集[C];1998年
10 丁鹏;徐波;;基于决策树的海量语音数据处理与建模[A];第六届全国人机语音通讯学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 高明;不确定数据的世系管理和相似性查询[D];复旦大学;2011年
2 张晨;数据流聚类分析与异常检测算法[D];复旦大学;2009年
3 安玉娥;应用于大规模动力系统中的基于SVD-Krylov的模型简化方法[D];上海大学;2010年
4 杨水山;冷轧带钢表面缺陷机器视觉自动检测技术研究[D];哈尔滨工业大学;2009年
5 朱晓荣;基于决策树的洞庭湖湿地信息提取技术研究[D];中国林业科学研究院;2012年
6 李春艳;分级防火墙系统中动态访问控制技术研究[D];哈尔滨工程大学;2004年
7 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
8 王曙燕;医学图像智能分类算法研究[D];西北大学;2006年
9 李明诗;基于ASTER遥感数据的建湖县杨树信息提取的研究[D];南京林业大学;2005年
10 温兴平;基于多分类器组合的高光谱遥感数据分类技术研究[D];中国地质大学;2008年
中国硕士学位论文全文数据库 前10条
1 刘明建;不确定数据的代价敏感决策树分类器研究[D];西北农林科技大学;2012年
2 张星;不确定数据的PU学习决策树研究[D];西北农林科技大学;2012年
3 何佳珍;不确定数据的PU学习贝叶斯分类器研究[D];西北农林科技大学;2012年
4 覃香菊;不确定数据上的关联分类器[D];西北农林科技大学;2011年
5 朱倩;属性不确定数据关联分类算法研究[D];大连理工大学;2011年
6 何丽娟;无线传感器网络中不确定数据处理的研究[D];安徽工程大学;2011年
7 高聪;Deep Web下不确定数据处理的研究[D];东北大学;2008年
8 杨艳艳;不确定数据流上SKYLINE查询算法研究[D];苏州大学;2012年
9 黄海龙;面向CRM的分类算法及应用研究[D];重庆大学;2002年
10 刘宇;NERMS中基于决策树算法的用户特征分类设计与实现[D];吉林大学;2004年
中国重要报纸全文数据库 前10条
1 陈芝蓉;举棋不定时 试试决策树[N];健康报;2004年
2 何志高;一“枝”一“节”总关情[N];医药经济报;2001年
3 徐筱舫;新法治脑转移指南成“决策树”[N];健康报;2008年
4 孙涤;祈愿刍议(一)[N];南方周末;2007年
5 ;选择合适的数据挖掘算法[N];计算机世界;2007年
6 赵焕焱;企业成败源于决策[N];中国企业报;2004年
7 ;数据挖掘:如何挖出效益?[N];中国计算机报;2004年
8 刘宝 胡善联;六大问题待解决[N];医药经济报;2002年
9 编译 刘光强 许继楠;风险管理智能了,金融创新不怕了[N];中国计算机报;2010年
10 张宗新 郭来生 朱伟骅 陈剑波 沈正阳 施东晖;全流通市场挑战内幕操纵行为监管[N];中国证券报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978