收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

不确定数据流频繁模式挖掘算法研究

王爽  
【摘要】:数据流模型在经济、军事、金融、电信等领域中普遍存在,同时在这些应用中,由于设备精度、传输丢失、环境干扰、设备故障、隐私保护和不同系统间集成等方面的原因,不确定性在数据流中广泛存在。因此,不确定数据流的数据挖掘算法就成为了一个新的研究方向。频繁模式挖掘作为数据流挖掘工作的重要组成部分,其研究已经历十多年的发展,理论上日趋成熟,但这些研究主要是基于确定性数据的挖掘算法。由于不确定数据增加了概率信息描述其不确定性,传统数据流挖掘算法都不能直接应用到不确定数据流中,因此如何针对不确定数据流进行频繁模式挖掘是不确定数据流管理领域亟待解决的一个重要问题。 本文对数据管理中的不确定性现象和问题进行了归纳和总结,并对经典的数据流频繁模式挖掘算法进行了深入分析,在此基础上提出了一些适用于不确定流数据的频繁模式挖掘算法,并通过大量实验验证了其高效性。主要工作包括以下几个方面: (1)基于数据流普遍采用的滑动窗口模型,提出了高效的概率频繁项挖掘算法。该算法避免了每次窗口更新都重新计算答案,而是利用现有的计算结果进行增量更新,从而减少挖掘代价。另外,本文提出的过滤策略,可以显著地减少检测数据的数量,提高挖掘效率。实验结果表明,本文提出的算法可以有效减少候选集,降低搜索空间,改善其在不确定数据流上的性能。 (2)基于滑动窗口模型,提出了一种高效的增量概率Top-K频繁项挖掘算法。该算法基于窗口中的现有数据对未来可能成为频繁项的元素进行预测,并提出相应的过滤策略,减少检测数据的数量,提高挖掘效率。同时,该算法对不同窗口中的相同候选元素进行压缩,显著减少存储空间。 (3)提出了支持滑动窗口模型的概率阈值频繁模式挖掘算法。该算法设计了一种新的压缩数据结构CPFP-Tree,将同一分支中概率不同的相同项合并为同一节点,可以有效地压缩存储空间并维护不确定数据流的信息;另外,提出了基于CPFP-Tree树结构的挖掘算法(CPFP-mine),在挖掘阶段,利用剪枝策略仅保留必要的项集,并对该候选集进行动态地更新,避免重新计算。实验结果表明,本文提出的算法无论在时间还是在空间上均有较好的性能。 (4)由于在挖掘的过程中会产生大量的频繁模式,且这些模式中存在冗余信息,为了解决该问题,普遍采用对结果集压缩的方法。一种解决方法是挖掘闭合频繁项集(frequent closed itemset),另一种解决方法是挖掘生成器项集(generator itemset),但后者在分类器构造应用方面具有更大的优势。因此本文基于不确定数据,对不确定生成器项集进行了形式化定义,并提出了生成器项集的概率计算方法及有效的挖掘算法。另外,本文还提出了相应的剪枝策略,可以有效地减少搜索空间并避免冗余计算。针对数据流环境,提出了一种增量的挖掘算法,该算法通过维护摘要数据结构GET (generator enumation tree)保存生成器项集和其他类型项集的边界信息,避免重复计算。最终通过实验验证了算法的有效性和高效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 崔斌;卢阳;;基于不确定数据的查询处理综述[J];计算机应用;2008年11期
2 周逊;李建中;石胜飞;;不确定数据上两种查询的分布式聚集算法[J];计算机研究与发展;2010年05期
3 徐雪松;;时间序列不确定数据流中异常数据检测方法[J];电子设计工程;2011年19期
4 徐雪松;李玲娟;郭立玮;;基于优化策略的不确定数据流预测方法[J];计算机工程;2011年21期
5 徐雪松;沈红红;陶帆;胡晓璐;崔伟;;基于小波分析的不确定数据流异常数据检测[J];软件导刊;2011年11期
6 钱江波;王志杰;陈华辉;王海斌;;不确定数据流自适应并行连接算法及应用[J];电信科学;2012年02期
7 向剑平;乔少杰;胡剑;;基于不确定数据理论的道路相关度度量方法[J];计算机工程与设计;2012年06期
8 曹振丽;孙瑞志;李勐;;面向不确定数据的农产品追溯方法[J];农业机械学报;2013年07期
9 蒋涛;高云君;张彬;周傲英;乐光学;;不确定数据查询处理[J];电子学报;2013年05期
10 王爽;杨广明;朱志良;;基于不确定数据的频繁项查询算法[J];东北大学学报(自然科学版);2011年03期
11 王意洁;李小勇;祁亚斐;孙伟东;;不确定数据查询技术研究[J];计算机研究与发展;2012年07期
12 陈爱东;刘国华;肖瑞;万小妹;石丹妮;;均匀分布下不确定数据的关联规则变粒度查询[J];计算机工程与科学;2013年10期
13 胡健;苏书宾;毛伊敏;;高维不确定数据高效聚类算法[J];电脑知识与技术;2014年04期
14 刘卫明;杨健;毛伊敏;;基于约束的不确定数据频繁项集挖掘算法研究[J];计算机应用研究;2012年10期
15 陈爱东;刘国华;费凡;周宇;万小妹;貟慧;;满足均匀分布的不确定数据关联规则挖掘算法[J];计算机研究与发展;2013年S1期
16 张晨;金澈清;周傲英;;一种不确定数据流聚类算法[J];软件学报;2010年09期
17 杨金伟;王丽珍;陈红梅;赵丽红;;基于距离的不确定数据异常点检测研究[J];山东大学学报(工学版);2011年04期
18 杨雷;赵春晖;廖艳苹;杨莘元;;基于多源不确定数据融合的研究[J];弹箭与制导学报;2007年03期
19 赵娟;王明春;李小亮;;基于不确定数据决策树分类算法的软件外包评价模型[J];天津职业技术师范大学学报;2011年03期
20 邓慧挺;毛宇光;;不确定数据的重复记录检测[J];计算机技术与发展;2012年08期
中国重要会议论文全文数据库 前7条
1 高聪;申德荣;于戈;聂铁铮;寇月;;一种基于不确定数据的挖掘频繁集方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 周逊;李建中;石胜飞;;不确定数据上聚集查询的分布式处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
3 王晓伟;黄九鸣;贾焰;;分布式不确定数据上的概率Skyline计算[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
4 艾文凯;张剡;柏文阳;;基于用户偏好的不确定数据阈值轮廓查询算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 陆叶;王丽珍;张晓峰;;从不确定数据集中挖掘频繁Co-location模式[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
6 孙永佼;王国仁;;P2P环境中不确定数据Top-k查询处理算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
7 张潮;李晨;王勇;张阳;;uPOSC4.5:一种针对不确定数据的PU学习决策树算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国博士学位论文全文数据库 前7条
1 汤克明;不确定数据流中频繁数据挖掘研究[D];南京航空航天大学;2012年
2 梁春泉;不确定数据流分类算法研究[D];西北农林科技大学;2014年
3 高明;不确定数据的世系管理和相似性查询[D];复旦大学;2011年
4 董俊;不确定数据中数据挖掘方法的研究[D];燕山大学;2012年
5 孙永佼;P2P环境下排序查询处理和分类技术的研究[D];东北大学;2012年
6 王爽;不确定数据流频繁模式挖掘算法研究[D];东北大学;2013年
7 王晓伟;基于概率数据库的偏好查询研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 李雪;不确定数据聚类研究[D];大连理工大学;2009年
2 周逊;不确定数据聚集查询的分布式处理算法[D];哈尔滨工业大学;2009年
3 朱倩;属性不确定数据关联分类算法研究[D];大连理工大学;2011年
4 刘明建;不确定数据的代价敏感决策树分类器研究[D];西北农林科技大学;2012年
5 邓慧挺;不确定数据的重复检测及清洗研究[D];南京航空航天大学;2012年
6 夏菁;基于可信度计算的不确定数据起源研究[D];南京航空航天大学;2012年
7 宋明;基于密度的不确定数据流聚类算法的研究与实现[D];东北大学;2011年
8 王莹莹;基于密度的不确定数据聚类研究[D];长春工业大学;2013年
9 苏书宾;不确定数据聚类研究[D];江西理工大学;2014年
10 覃香菊;不确定数据上的关联分类器[D];西北农林科技大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978