收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

不确定数据流分类算法研究

梁春泉  
【摘要】:在无线传感器网络、信用卡欺诈检测、网络监控等大量应用领域中,数据流数据持续、高速地产生,并且由于设备精度、重复抽样、值缺失、隐私等原因,产生数据普遍存在着不确定性。不确定数据流已逐渐成为一种常见的数据存在方式,针对不确定数据流的管理和挖掘技术也因此成为学术界前沿研究领域之一。数据流分类是数据流挖掘的重要问题之一,许多应用问题如网络入侵检测、环境监测、垃圾邮件过滤和信用卡欺诈检测等,都可以建模为数据流分类问题。然而,传统数据流分类算法大多数只能处理数据项为精确值的数据流,无法有效地应用于不确定性普遍存在的实际应用领域。 本文主要关注不确定数据流分类分析问题,围绕快速不确定数据流分类,获取不确定数据流数据概率分布,概念漂移不确定数据流分类,以及正例与未标注学习场景下的不确定数据流分类等几方面技术展开研究。主要研究内容和成果包括: (1)为对快速不确定数据流分类,基于非常快速决策树(Very Fast Decision Tree,VFDT)算法,本文提出了uVFDTc算法。给出了在VFDT中处理持续到来不确定样本的方法,提出了从不确定样本中收集充分统计量的技术,并且针对不确定连续属性值,提出了高斯逼近,固定有序箱和等高直方图三种归纳算法,获取不确定数值流中数据项的概率分布。扩展了朴素贝叶斯模型为不确定朴素贝叶斯(Uncertain Na ve Bayes,UNB)模型,使之能对不确定数据流分类。在训练阶段,uVFDTc算法在收集的统计量上计算不确定信息增益,并应用Hoeffding边界理论快速构造合理的决策树;在分类阶段,在叶子结点上采用UNB分类策略提高输出模型的分类性能。实验结果表明,Hoeffding边界理论可令uVFDTc快速产生规模小、准确率高的不确定决策树;叶子结点上应用UNB分类策略可显著提高uVFDTc的分类性能;与没有使用UNB分类策略的uVFDTc相比,使用了UNB的uVFDTc最高准确率高出3%;数据流不确定水平达30%情况下,uVFDTc的分类准确率仍能接近于使用确定样本学习的VFDT。 (2)研究了不确定数据流近似分位归纳问题。为更准确获取不确定数据流的概率分布,基于GK算法,本文提出针对不确定数据流的近似分位归纳算法uGK,并应用到uVFDTc算法中。uGK算法使用与GK算法相同的内存结构(元组)存储归纳信息,与GK算法具有相似的空间复杂度;只需进行一遍扫描,就可将不确定数据流的概率分布信息归纳到少量元组中,且所获得的分布能以指定精度逼近不确定数据流的实际分布。实验结果表明,uGK算法能以远少于空间复杂度估算数目的元组归纳数据流;随着数据集的不确定水平上升,所需元组的数目不会随之增加,甚至有可能降低;归纳元组能够满足指定的分位查询精度;在数据流分类中,uGK可令uVFDTc获得更佳的分类准确率。 (3)为对隐含概念漂移的不确定数据流分类,基于uVFDTc和CVFDT算法,本文提出可处理不确定数据流中概念漂移的非常快速决策树算法uCVFDTc。在训练阶段,uCVFDTc利用与uVFDTc相同的技术处理不确定样本、收集充分统计量和生长决策树,同时采用滑动窗口技术和备选子树替换技术,获得概念漂移处理的能力。在分类阶段,uCVFDTc同样在叶子结点上使用不确定朴素贝叶斯分类器,作为分类策略,进一步提高分类性能。实验结果表明,uCVFDTc具有很强的能力检测和适应不确定数据流中概念的变化;不确定朴素贝叶斯分类策略在uCVFDTc叶子结点上的应用,可明显提高uCVFDTc对不确定数据流的分类性能,特别是可提高对不确定性的健壮性和概念漂移的处理能力。 (4)研究了正例与未标注学习场景下的不确定数据流分类问题。为对仅含正例与未标注样本的不确定数据流分类,本文提出了puuCVFDT算法。该算法仅利用不确定正例与未标注样本进行学习,构造非常快速决策树。首先给出了从仅含正例与未标注样本的不确定数据流中收集充分统计量的方法,提出了针对正例与未标注样本的不确定信息增益,并给出了在充分统计量上计算不确定信息增益的方法。接着应用Hoeffding边界理论,快速生成多棵不确定决策树。最后给出从多棵决策树中选择分类性能最佳决策树的技术,以及最佳决策树对未知样本分类的技术。实验结果表明,puuCVFDT具有很强的能力从仅含正例和未标注样本的,且隐含概念漂移的不确定数据流中学习非常快速决策树;在数据集不确定程度达30%,且其中正例样本比例仅为10%的情况下,puuCVFDT所输出决策树模型的分类准确率就可与使用全标注确定样本训练的CVFDT相匹敌。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 崔斌;卢阳;;基于不确定数据的查询处理综述[J];计算机应用;2008年11期
2 周逊;李建中;石胜飞;;不确定数据上两种查询的分布式聚集算法[J];计算机研究与发展;2010年05期
3 徐雪松;;时间序列不确定数据流中异常数据检测方法[J];电子设计工程;2011年19期
4 徐雪松;李玲娟;郭立玮;;基于优化策略的不确定数据流预测方法[J];计算机工程;2011年21期
5 徐雪松;沈红红;陶帆;胡晓璐;崔伟;;基于小波分析的不确定数据流异常数据检测[J];软件导刊;2011年11期
6 钱江波;王志杰;陈华辉;王海斌;;不确定数据流自适应并行连接算法及应用[J];电信科学;2012年02期
7 向剑平;乔少杰;胡剑;;基于不确定数据理论的道路相关度度量方法[J];计算机工程与设计;2012年06期
8 曹振丽;孙瑞志;李勐;;面向不确定数据的农产品追溯方法[J];农业机械学报;2013年07期
9 蒋涛;高云君;张彬;周傲英;乐光学;;不确定数据查询处理[J];电子学报;2013年05期
10 王爽;杨广明;朱志良;;基于不确定数据的频繁项查询算法[J];东北大学学报(自然科学版);2011年03期
11 王意洁;李小勇;祁亚斐;孙伟东;;不确定数据查询技术研究[J];计算机研究与发展;2012年07期
12 陈爱东;刘国华;肖瑞;万小妹;石丹妮;;均匀分布下不确定数据的关联规则变粒度查询[J];计算机工程与科学;2013年10期
13 胡健;苏书宾;毛伊敏;;高维不确定数据高效聚类算法[J];电脑知识与技术;2014年04期
14 刘卫明;杨健;毛伊敏;;基于约束的不确定数据频繁项集挖掘算法研究[J];计算机应用研究;2012年10期
15 陈爱东;刘国华;费凡;周宇;万小妹;貟慧;;满足均匀分布的不确定数据关联规则挖掘算法[J];计算机研究与发展;2013年S1期
16 张晨;金澈清;周傲英;;一种不确定数据流聚类算法[J];软件学报;2010年09期
17 杨金伟;王丽珍;陈红梅;赵丽红;;基于距离的不确定数据异常点检测研究[J];山东大学学报(工学版);2011年04期
18 杨雷;赵春晖;廖艳苹;杨莘元;;基于多源不确定数据融合的研究[J];弹箭与制导学报;2007年03期
19 赵娟;王明春;李小亮;;基于不确定数据决策树分类算法的软件外包评价模型[J];天津职业技术师范大学学报;2011年03期
20 邓慧挺;毛宇光;;不确定数据的重复记录检测[J];计算机技术与发展;2012年08期
中国重要会议论文全文数据库 前7条
1 高聪;申德荣;于戈;聂铁铮;寇月;;一种基于不确定数据的挖掘频繁集方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 周逊;李建中;石胜飞;;不确定数据上聚集查询的分布式处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
3 王晓伟;黄九鸣;贾焰;;分布式不确定数据上的概率Skyline计算[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
4 艾文凯;张剡;柏文阳;;基于用户偏好的不确定数据阈值轮廓查询算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 陆叶;王丽珍;张晓峰;;从不确定数据集中挖掘频繁Co-location模式[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
6 孙永佼;王国仁;;P2P环境中不确定数据Top-k查询处理算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
7 张潮;李晨;王勇;张阳;;uPOSC4.5:一种针对不确定数据的PU学习决策树算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国博士学位论文全文数据库 前5条
1 汤克明;不确定数据流中频繁数据挖掘研究[D];南京航空航天大学;2012年
2 梁春泉;不确定数据流分类算法研究[D];西北农林科技大学;2014年
3 高明;不确定数据的世系管理和相似性查询[D];复旦大学;2011年
4 董俊;不确定数据中数据挖掘方法的研究[D];燕山大学;2012年
5 王晓伟;基于概率数据库的偏好查询研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 李雪;不确定数据聚类研究[D];大连理工大学;2009年
2 周逊;不确定数据聚集查询的分布式处理算法[D];哈尔滨工业大学;2009年
3 朱倩;属性不确定数据关联分类算法研究[D];大连理工大学;2011年
4 刘明建;不确定数据的代价敏感决策树分类器研究[D];西北农林科技大学;2012年
5 邓慧挺;不确定数据的重复检测及清洗研究[D];南京航空航天大学;2012年
6 夏菁;基于可信度计算的不确定数据起源研究[D];南京航空航天大学;2012年
7 宋明;基于密度的不确定数据流聚类算法的研究与实现[D];东北大学;2011年
8 王莹莹;基于密度的不确定数据聚类研究[D];长春工业大学;2013年
9 覃香菊;不确定数据上的关联分类器[D];西北农林科技大学;2011年
10 方易;不确定数据流聚类算法的研究与实现[D];东北大学;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978