收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

不确定数据流中频繁数据挖掘研究

汤克明  
【摘要】:随着计算机技术与通信技术的快速发展,传感器网络、Web服务和RFID技术得到了广泛应用,从而使得不确定性数据管理得到广泛的重视.在许多现实的应用中,例如经济形势预测、金融信息分析、生态环境监测、网络安全监控、物流管理等等,不确定数据流扮演着关键角色.在这些应用中,传统的数据管理技术却无法有效地管理新型的不确定数据流,这就引发了学术界和工业界对研发新型的不确定数据流管理技术的兴趣.因此,不确定数据流上的数据挖掘已经成为当前数据挖掘领域的研究热点. 当前对于不确定数据流上的挖掘主要集中在不确定数据流上的聚类、不确定数据流上的频繁模式挖掘、Skyline查询、数据世系分析、异常分析等.本文在深入研究国内外的各种不确定数据流挖掘技术的基础上,讨论了目前国内外有关不确定数据流频繁数据挖掘的研究现状.由于不确定数据流上的频繁数据挖掘是不确定数据流上的关联规则、分类、聚类等挖掘的基础,在不确定数据流挖掘中具有重要的地位.因此,本文在不确定数据流上频繁数据挖掘方面进行了深入的研究,提出了有效的频繁数据挖掘算法.本文的主要工作有: (1)提出了一种基于滑动窗口的不确定数据流中频繁项查询算法SWBUFIM.本文根据频繁项的本质特性以及马尔科夫不等式,给出了两个裁剪规则,用于对不确定数据流进行预处理,裁剪掉不可能成为频繁项的元组.在此基础上我们:一方面利用动态规划方法计算期望概率,保证在时间内完成期望概率的计算;另一方面,根据不同数据项相互独立性原理,针对不同数据项开辟子滑动窗口,并且根据数据项的组合数目进行行列划分来处理频繁项挖掘问题,并在动态规划方法的基础上,进一步改进期望概率计算方法,只需要动态规划滑动窗口中前k-1项即可保证在时间内有效地完成期望概率的计算.实验结果表明,所提出的查询算法SWBUFIM具有较快的处理速度,其空间复杂度随着处理数据规模的增加成线性增长. (2)提出了一种基于滑动窗口的不确定数据流中top-k查询算法MPTopKTS.本文针对top-k查询的定义,根据不确定数据流及其滑动窗口的特性,研究基于滑动窗口top-k查询问题,提出了所有可能世界中元组集成员相对得分值高并且具有最大出现概率的top-k元组集(MPTopKTS)的查询算法.该算法基于滑动窗口建立概要表,然后在每一时刻对概要表进行修改,有效地减少了top-k查询问题的复杂性;能够在查询准确性与查询开销之间取得平衡,较小的计算开销获得高质量的近似结果.实验结果表明,所提出的查询算法在时间与空间复杂性方面优于其他类似的算法. (3)提出一种基于滑动窗口的不确定数据流中频繁闭项集的采样挖掘算法MFCIFUDS.本文针对不确定数据流频繁闭项集的挖掘问题,首先使用采样的方法,基于随机采样概率,把由不确定数据组成的事务转换成由确定性数据组成的事务,再利用基于确定性数据模型的频繁闭项集挖掘技术完成不确定数据流中频繁闭项集的挖掘任务.本文不但从理论上证明了基于采样技术利用确定性数据挖掘算法解决不确定数据挖掘问题的可行性,而且提出了一种改进频繁模式树生成与修改技术,有效地提高了基于FP-tree频繁模式树的频繁闭项集挖掘速度.实验结果表明,所提出的查询算法MFCIFUDS有较高的挖掘精度和处理速度. (4)提出了一种基于滑动窗口的不确定数据流中频繁数量区间模式的挖掘算法MFIPatFUS.不同于处理常规二进制项集事务不确定数据流,数量区间事务不确定数据流使用数量区间来表示事务属性,其不确定性在于属性数量区间范围的波动性,数量区间分布体现某种分布概率.本文借鉴常规的基于频繁模式树的不确定数据流频繁模式挖掘算法,设计一种频繁数量区间模式生成树FIPatTree,用于捕获不确定数据流中所有事务的数量区间信息.我们把原始数量区间边界值作为基元素,根据基元素的分布情况建立基数量区间,从而一方面基于基数量区间对原始数量区间进行重新划分;另一方面根据基数量区间数值范围在原始数量区间中所占比例决定其基数量区间概率.算法MFIPatFUS采用滑动窗口模型,使用FIPatTree树作为概要数据结构,事务属性以基数量区间结点保存在FIPatTree树中.建立树的过程类似常规频繁模式生成树的建立过程,不同点在于当属性基数量区间与出现概率均相同时,结点方可共享.对于共享结点设立频次与局部概率统计数值,为了方便遍历与修改,增设了与FIPatTree树相关联的属性索引与基数量区间索引.基于频繁数量区间模式生成树FIPatTree的频繁数量区间模式挖掘过程采用基于投影基与条件树的递归挖掘方法.实验结果表明,所提出滑动窗口模型的挖掘算法MFIPatFUS对处理数量区间事务组成的不确定数据流频繁数量区间模式挖掘是有效的.


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 徐建民;郝丽维;王煜;;数据流频繁项集的快速挖掘方法[J];计算机工程与应用;2008年34期
2 单莘;朱永宣;郭军;;基于支持向量机的网络告警预测知识发现[J];微电子学与计算机;2007年06期
3 李峰;肖建华;;时间序列相似性分析中滑动窗口宽度的确定[J];计算机科学与探索;2009年01期
4 张忠平;王浩;薛伟;夏炎;;动态滑动窗口的数据流聚类方法[J];计算机工程与应用;2011年07期
5 邝祝芳;阳国贵;辛动军;;SWFPM:一种有效的数据流频繁项挖掘算法[J];计算机应用研究;2009年02期
6 杨路明;刘立新;毛伊敏;谢东;;数据流中基于滑动窗口的最大频繁项集挖掘算法[J];计算机应用研究;2010年02期
7 张月琴;陈东;;数据流最大频繁项挖掘方法[J];计算机工程;2010年22期
8 程转流;胡为成;;数据流频繁模式挖掘技术研究[J];铜陵学院学报;2007年05期
9 张月琴;;滑动窗口中数据流频繁项集挖掘方法[J];计算机工程与应用;2010年16期
10 汪金苗;张龙波;邓齐志;王凤英;王勇;;不确定数据频繁项集挖掘方法综述[J];计算机工程与应用;2011年20期
11 胡雪艳;苏亮;高春鸣;;演化数据流上的连续异常检测[J];计算机工程与应用;2008年07期
12 邝祝芳;谭骏珊;杨卫民;辛动军;;基于渐增最小支持度函数的数据流频繁项挖掘[J];微电子学与计算机;2008年10期
13 陆楠;李晓林;;基于动态窗口的数据流频繁闭合模式挖掘算法[J];信息与电脑(理论版);2009年10期
14 郑继刚;杨春华;曾庆红;赵若男;;基于Weka平台的不确定数据挖掘[J];保山学院学报;2010年05期
15 王悦;唐常杰;杨宁;张悦;李红军;郑皎凌;朱军;;在不确定数据集上挖掘优化的概率干预策略[J];软件学报;2011年02期
16 李芳;李一媛;王冲;;不确定数据的决策树分类算法[J];计算机应用;2009年11期
17 毛伊敏;李宏;杨路明;刘立新;;基于滑动窗口的数据流最大频繁项集的挖掘[J];高技术通讯;2010年11期
18 胡彧;王顺平;;事务型滑动窗口下的数据流频繁模式挖掘[J];计算机工程与应用;2010年22期
19 李邦云,程莉;数据挖掘在电力负荷相似性研究中的应用初探[J];湖南电力;2003年05期
20 李国徽;杨兵;胡惇;陈辉;杜建强;;挖掘滑动窗口中的数据流频繁模式[J];小型微型计算机系统;2008年08期
中国重要会议论文全文数据库 前10条
1 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
2 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
5 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
6 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
7 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
9 王星;谢邦昌;戴稳胜;;数据挖掘在保险业中的应用[A];北京市第十二次统计科学讨论会论文选编[C];2003年
10 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病阴阳类证辨证规范的数据挖掘研究[A];2010中国医师协会中西医结合医师大会摘要集[C];2010年
中国博士学位论文全文数据库 前10条
1 汤克明;不确定数据流中频繁数据挖掘研究[D];南京航空航天大学;2012年
2 刘文;几类特殊的安全多方计算问题的研究[D];北京邮电大学;2009年
3 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
4 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
5 齐建东;基于数据挖掘的入侵检测方法及系统研究[D];中国农业大学;2003年
6 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
7 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
8 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
9 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
10 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
中国硕士学位论文全文数据库 前10条
1 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
2 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
3 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
4 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
5 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
6 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
7 王浩;数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究[D];华东理工大学;2012年
8 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
9 张煜辉;数据挖掘和SPC在生产过程质量控制中应用研究[D];上海交通大学;2009年
10 刘华敏;数据挖掘在高职院校学生成绩分析中的应用[D];安徽大学;2011年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978