收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

数据流频繁模式挖掘关键算法及其仿真应用研究

敖富江  
【摘要】: 系统仿真技术综合集成了计算机技术、网络技术、图形图像处理技术、信息处理技术、自动控制技术等多个领域的知识,是系统分析和研究的重要手段。数据挖掘技术是获取仿真数据中隐藏知识的有力工具。随着仿真系统复杂程度的提高和规模的增大,仿真时间越来越长、仿真所产生的数据量越来越大。这使得仿真数据具有数据流的特征。因此有必要采用数据流挖掘技术处理仿真数据。数据流是一种连续、高速、无限、时变的有序数据序列。数据流的特征对数据流的挖掘提出了严峻的挑战。传统面向静态数据集的算法无法直接用于挖掘数据流,而现有数据流挖掘算法存在时空效率不高的缺陷。因此,针对仿真中常用的数据挖掘任务,研究时空效率高效的相应数据流挖掘算法具有重要意义。 关联规则挖掘是仿真中最常用的一类数据挖掘任务,而频繁模式挖掘是生成关联规则的关键步骤。为此,论文研究了数据流中频繁模式挖掘的关键算法,重点研究了数据流中最大频繁项集、频繁闭项集和Top-K最频繁项集的挖掘算法,以及基于频繁闭项集的数据流分类算法和基于Top-K频繁模式的高维数据流聚类算法。论文最后研究了如何将数据流挖掘算法快速集成到不同的仿真系统中,着重考虑了数据流挖掘算法资源在仿真中的重用。论文的主要研究工作及创新包括以下六个方面: (1)提出了一种数据流最大频繁项集挖掘算法。相对于完全频繁项集和频繁闭项集,最大频繁项集的数目最少,挖掘最大频繁项集的算法具有较高的时空效率。为此,论文研究了数据流中最大频繁项集的挖掘技术,旨在提供一种能够在任意时刻都快速维护数据流滑动窗口中最大频繁项集的算法。主要研究内容包括三个方面。首先提出了一种面向数据流的最大频繁项集剪枝技术,即子集等价剪枝技术。接着,提出了一种最大频繁项集单遍挖掘算法FPMFI-DS。其中,FPMFI-DS算法中应用了子集等价剪枝技术以降低算法的搜索空间大小,从而提高算法效率。最后,基于FPMFI-DS算法,提出了一种能够在线更新挖掘数据流滑动窗口中最大频繁项集的算法FPMFI-DS+。实验表明,对于稠密数据集子集等价剪枝技术能够缩小约40%的搜索空间;FPMFI-DS算法的挖掘速度快并具有良好的可扩展性;FPMFI-DS+算法更新挖掘速度快并具有良好的稳定性。 (2)提出了一种数据流频繁闭项集挖掘算法。频繁闭项集的数目介于完全频繁项集和最大频繁项集之间,并保存了所有项集的支持度信息。因此挖掘数据流中的频繁闭项集既具有较高的时空效率,又保证了信息的完全性。为此,论文提出了一种频繁闭项集挖掘算法FPCFI-DS。该算法能够在有限的存储空间中高速挖掘数据流滑动窗口中的频繁闭项集,并且能够在任意时刻都维护数据流当前窗口中的频繁闭项集。实验表明,FPCFI-DS算法的时空效率显著优于同类经典算法Moment。 (3)提出了一种数据流Top-K最频繁项集挖掘算法。Top-K最频繁项集挖掘的优点是不需要用户指定最小支持度阈值,仅指定需要寻找的项集数目k。已有Top-K最频繁项集挖掘算法存在初始项目数目过多、初始边界支持度过高的问题。为此,论文首先提出了一种基于混合搜索方式的高效Top-K最频繁项集挖掘算法MTKFP。该算法综合利用宽度优先搜索和深度优先搜索挖掘Top-K最频繁项集。然后基于MTKFP算法,提出了一种基于Chernoff不等式的数据流Top-K最频繁项集挖掘算法MTKFP-DS。实验表明,MTKFP算法所获得的初始项目数目至少低于已有算法70%,初始边界支持度高于已有算法,从而MTKFP算法的性能优于已有最好算法1倍以上;MTKFP-DS算法适合于对数据流数据的挖掘。 (4)提出了一种基于频繁闭项集的数据流分类算法。相对于某些传统分类算法,基于关联规则的分类具有更高的精度。此类算法通常采用频繁项集作为生成类关联规则的依据。但挖掘频繁项集易遭受组合爆炸问题,从而影响算法效率;另外,数据流的出现也对分类算法提出了新的挑战。为此,论文提出了一种高效的基于频繁闭项集的数据流分类算法CBC-DS。在该算法中,设计了高效的频繁闭项集单遍挖掘算法和有效的分类器构建方法。实验表明,CBC-DS算法的平均分类精度比经典算法CMAR高1.09%左右,分类速度快于CMAR算法。 (5)提出了基于Top-K频繁模式的高维数据流聚类算法。高维数据聚类是聚类问题中的研究难点。基于密度和基于网格的综合方法能够较好地解决该问题,该方法的关键在于发现高密单元格。传统方法采用挖掘频繁项集的方式发现高密单元格,该方式的不足是需要用户指定最小密度阈值,而且不利于发掘稀疏子空间中的高密单元格。为此,论文分别提出了基于Top-K最频繁项集、基于N-most interesting项集和基于Top-K项目的高维数据流聚类算法。这些算法不需要用户指定最小密度阈值。第二种算法有利于特定维的子空间分组的高密单元格发掘,第三种算法有利于特定子空间的高密单元格的发掘,从而解决稀疏子空间中高密单元格的发掘。实验表明,所提出的算法适用于对高维数据流的聚类。 (6)研究了数据流挖掘技术在仿真中的应用。论文提出了基于数据流挖掘技术的仿真应用框架。并且为了能够将数据流挖掘算法快速集成到基于HLA体系结构的仿真系统中,采用模块化开发思想设计了通用性强的数据流挖掘构件和通用数据流挖掘成员,以提高算法资源的重用性。并以“导弹突防仿真系统”为例,介绍了通用关联规则挖掘成员的设计思想。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王大将;孙洁;;数据流挖掘技术研究[J];统计与决策;2010年07期
2 史金成;胡学钢;;数据流挖掘研究[J];计算机技术与发展;2007年11期
3 吴克启;蒋洪晖;汪粼波;;流数据频繁模式挖掘技术综述[J];内燃机与动力装置;2009年S1期
4 仵雪婷;周明建;;数据流挖掘方法研究[J];计算机与现代化;2010年04期
5 马青霞;李广水;孙梅;;频繁模式挖掘进展及典型应用[J];计算机工程与应用;2011年15期
6 武瑞娟;马礼;叶树华;;关联规则挖掘研究综述[J];电脑开发与应用;2008年03期
7 敖富江;颜跃进;黄健;黄柯棣;;数据流频繁模式挖掘算法设计[J];计算机科学;2008年03期
8 潘立福;朱利晶;敖富江;杜静;;基于树搜索方式的频繁模式挖掘综述[J];计算机与信息技术;2009年05期
9 曹文梁;董崇杰;;数据流频繁模式挖掘技术研究[J];科技广场;2010年08期
10 张倩;王治和;景永霞;;基于SQL的频繁模式挖掘算法[J];中原工学院学报;2005年06期
11 陈慧萍;王煜;王建东;;高维数据挖掘算法的研究与进展[J];计算机工程与应用;2006年24期
12 刘艳云;;基于改进关联规则的网络入侵检测方法的研究[J];通信技术;2008年12期
13 琚春华;许翀寰;;基于有序复合策略的数据流最大频繁项集挖掘[J];情报学报;2010年05期
14 肖文;鞠时光;朱金伟;辛燕;刘志锋;;一种面向中医药领域的二维最大频繁项集挖掘算法[J];小型微型计算机系统;2007年12期
15 李芸;李青山;;基于约束的最大频繁项集挖掘算法[J];计算机工程与应用;2007年17期
16 韩立毛;鞠时光;朱金伟;;用于挖掘TCM-FP树中维间最大频繁项集的算法[J];江南大学学报(自然科学版);2010年02期
17 宋洁;刘华;谭庆;顾军华;;蚁群算法在最大频繁项集挖掘问题中的应用[J];计算机工程与设计;2008年20期
18 郑玲霞,李大学,马万里;基于有向图的关联规则算法[J];重庆邮电学院学报(自然科学版);2005年04期
19 王卉,李庆华,马传香,李肯立;频繁模式挖掘中的剪枝策略[J];计算机工程与科学;2003年04期
20 范明;王秉政;;一种直接在Trans-树中挖掘频繁模式的新算法[J];计算机科学;2003年08期
中国重要会议论文全文数据库 前10条
1 杨君锐;赵群礼;杜建;;关于最大频繁项集的增量式挖掘方法研究[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 林景亮;董槐林;姜青山;吴书;;一种基于新增阈值的频繁模式挖掘算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 任家东;孙亚非;郭盛;;基于约束的交互式频繁模式挖掘算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 任家东;霍聪;;数据流中基于PB-tree的当前最大频繁项集挖掘算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
5 韩蒙;张炜;李建中;;RAKING:一种高效的不确定图K-极大频繁模式挖掘算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
6 王鹏;吴晓晨;王晨;汪卫;施伯乐;;CAPE——数据流上的基于频繁模式的分类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 曾涛;向勇;包小源;刘胤田;蒋永光;;中医古方挖掘:一种频繁药组发现与功效标注算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
8 孙晓;韦明;;一种基于IRST的频繁模式的心电波形分类方法研究[A];中国空间科学学会第七次学术年会会议手册及文集[C];2009年
9 龚才春;贺敏;张华平;许洪波;程学旗;;大规模语料的频繁模式快速发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
10 王卉;屈强;;挖掘最大频繁项集的并行化策略[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
中国博士学位论文全文数据库 前10条
1 敖富江;数据流频繁模式挖掘关键算法及其仿真应用研究[D];国防科学技术大学;2008年
2 尹志武;数据流挖掘若干问题的研究[D];上海交通大学;2007年
3 万里;时间序列中的知识发现[D];北京邮电大学;2009年
4 崇志宏;基于屏蔽/汇总技术的数据流处理算法[D];复旦大学;2006年
5 邓娜;BPEL流程生命周期中若干关键问题研究[D];北京邮电大学;2011年
6 马海兵;频繁模式挖掘相关技术研究[D];复旦大学;2005年
7 刘君强;海量数据挖掘技术研究[D];浙江大学;2003年
8 孔英会;数据流技术及其在电力信息处理中的应用研究[D];华北电力大学(河北);2009年
9 王鹏;数据流上的分类算法的研究[D];复旦大学;2007年
10 刘勇;频繁模式挖掘相关技术研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 李俊;基于滑动窗口的数据流频繁闭合项集挖掘研究[D];暨南大学;2008年
2 宋晶晶;基于单向FP-树的最大频繁项集挖掘[D];河南大学;2007年
3 姜晗;关联规则的精简方法研究[D];浙江师范大学;2007年
4 郭记仓;船舶分油机仿真及虚拟现实研究[D];大连海事大学;2007年
5 庄波;数据流中频繁模式挖掘方法的研究及应用[D];山东师范大学;2008年
6 霍聪;数据流中基于FP-Tree的频繁项集挖掘算法研究[D];燕山大学;2009年
7 史金成;基于相关性的数据流聚类及其应用研究[D];合肥工业大学;2007年
8 胡冰;频繁闭项集的挖掘算法及内容分析[D];河南大学;2009年
9 罗昌银;一种基于动态排序的最大频繁项集挖掘算法[D];重庆大学;2010年
10 刘华雷;面向数据流的频繁模式挖掘算法研究[D];东北大学;2008年
中国重要报纸全文数据库 前10条
1 安世亚太 田锋;含蓄的CAE正在火起来(二)[N];中国航空报;2005年
2 王恢;我国自主研发数字化电厂成功[N];中国环境报;2007年
3 安世亚太 田锋;航空企业协同研发平台-PERA[N];中国航空报;2005年
4 安世亚太 王恩青;协同仿真源自客户实践(二)[N];中国航天报;2007年
5 李佳丽;万家寨引黄入晋工程水力学仿真技术取得重大突破[N];中国水利报;2005年
6 记者 杨丽英 张春亮;山西引黄工程水力学仿真技术取得重大突破[N];中国冶金报;2005年
7 赛博企业研究中心 李勇 孙喜杰;ERP的隐性成本有多少?[N];中国计算机报;2000年
8 本报记者 张翼;安世亚太发布国内首款企业级协同仿真平台[N];机电商报;2007年
9 本报记者 谢桂珍;制造业管理变革:实现工业化与信息化的融合[N];机电商报;2008年
10 李久标 李佳丽;引黄工程水力学仿真技术取得重大突破[N];山西日报;2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978