收藏本站
《哈尔滨工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于倾斜时间窗口的频繁项集挖掘算法研究

徐艳红  
【摘要】:当今的信息社会的中,人们每天都要处理各种各样的信息和数据。随着信息的爆炸式增长,许多应用中需要处理的数据规模也越来越大,这些数据以快速的、大量的、按时间顺序连续到达,这种数据模式就是数据流。由于数据流的流动性和无限性的特点,原有频繁项集挖掘算法已很难完成基于数据流上的挖掘任务。这些挑战吸引了许多人对数据流中频繁项集挖掘进行了大量研究。现在,数据流中频繁项集挖掘已成为数据挖掘中的热点之一。 FP-stream算法可以实现在线挖掘多时间粒度的频繁项集。作为一个经典的挖掘算法,FP-stream算法具有较好的时间效率。但它的不足之处在于:算法使用FP-growth算法来生成频繁项集和计算支持数,需要很大的内存开销和时间开销;整个挖掘过程中,所有的历史信息数据都存于内存中,随着时间的推移内存空间将急剧的膨胀。所以,内存开销巨大是FP-stream算法最大的缺点。 针对上述问题,本文将在原算法的基础之上,采用一种新的数据结构(LR-Trie树及树结点)来存储频繁项集及其对应的倾斜时间窗口。同时引入了垂直的二进制向量表示法存储事务数据以提高时空效率。由于构造了新的树结点结构,可以方便地完成LR-Trie树的线性存储和结点查询。另外将LR-Trie树分割为若干子树并以文件的形式存储,在内存中建立项和文件的索引表,按需调入文件,极大地减少了内存消耗。实验表明,改进后的算法在不明显降低原算法时间效率的前提下,提高了内存空间利用率。该算法适用于对时间要求不高,但对内存空间要求较高的应用。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.13

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 唐耀红;魏慧琴;;基于垂直压缩格式的高效FP-STREAM算法的研究[J];计算机科学;2012年10期
中国硕士学位论文全文数据库 前1条
1 唐耀红;数据流环境中关联规则挖掘技术的研究[D];北京交通大学;2012年
【参考文献】
中国期刊全文数据库 前9条
1 刘学军;徐宏炳;董逸生;钱江波;王永利;;基于滑动窗口的数据流闭合频繁模式的挖掘[J];计算机研究与发展;2006年10期
2 李岩;王惠文;叶明;;数据流分析与技术研究[J];计算机工程与应用;2008年15期
3 张昕;李晓光;王大玲;于戈;;数据流中一种快速启发式频繁模式挖掘方法[J];软件学报;2005年12期
4 李国徽;陈辉;;挖掘数据流任意滑动时间窗口内频繁模式[J];软件学报;2008年10期
5 蒋盛益,李庆华,李新;数据流挖掘算法研究综述[J];计算机工程与设计;2005年05期
6 程转流;王本年;;数据流中的频繁模式挖掘[J];计算机技术与发展;2007年12期
7 孙莉;;数据库和数据流频繁项集挖掘算法研究[J];现代机械;2007年05期
8 敖富江;颜跃进;刘宝宏;黄柯棣;;在线挖掘数据流滑动窗口中最大频繁项集[J];系统仿真学报;2009年04期
9 周黔;吴铁军;;一种基于倾斜时间窗口的时间序列偏向最近模式匹配算法[J];信息与控制;2007年06期
中国博士学位论文全文数据库 前1条
1 尹志武;数据流挖掘若干问题的研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前3条
1 庄波;数据流中频繁模式挖掘方法的研究及应用[D];山东师范大学;2008年
2 何相志;数据流挖掘算法研究[D];电子科技大学;2008年
3 谷蓉;商业数据流频繁模式挖掘算法研究与应用[D];浙江工商大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
2 周锐;朱祖林;;基于成绩库的远程学习者流失预测决策树的应用研究[J];安庆师范学院学报(自然科学版);2009年02期
3 季越江;吕佳;;基于聚类分析的客户细分研究[J];办公自动化;2009年08期
4 许子君;杜秋;栾超;;Apriori改进算法在军队院校干部考核中的应用[J];兵工自动化;2012年03期
5 胡奎;汤帜;高良才;;基于多级特征提取的中文文本图像压缩算法[J];北京大学学报(自然科学版);2010年06期
6 李岩;王惠文;叶明;刘丹;;基于Squeezer算法的大规模矩阵聚类分析[J];北京航空航天大学学报;2009年12期
7 马猛;钮俊清;宁岩;郑浩然;王煦法;;聚类和关联规则挖掘在基因表达数据分析中的应用研究[J];北京生物医学工程;2008年04期
8 冯博;徐雅静;赵娜;徐惠民;;数据流中的频繁标记闭子树的批量挖掘[J];北京邮电大学学报;2010年05期
9 郑继刚;杨玲;杨春华;曾庆红;赵若男;;网络入侵分析关联规则挖掘系统设计[J];保山学院学报;2011年05期
10 于洪;谌强;;一种结合K-Means的层次化的搜索结果聚类方法[J];重庆邮电大学学报(自然科学版);2010年03期
中国重要会议论文全文数据库 前10条
1 张乃岳;张力;张学燕;;基于字段匹配的CRM数据挖掘算法与应用[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 曹晖;司刚全;张彦斌;贾立新;;基于聚类分析的模糊控制算法在制粉系统中的应用[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
3 曹晖;司刚全;张彦斌;贾立新;;基于模糊时序数据挖掘的火电厂制粉系统优化算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
4 潘国林;杨帆;;数据挖掘算法在保险客户分析中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
5 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
6 徐仁干;吴共庆;李海光;胡学钢;吴信东;;基于Web的频繁分子结构挖掘系统[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
7 孟军;姜军晓;刘秋水;;基于滑动窗口的流数据频繁模式挖掘算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 何增有;徐晓飞;邓胜春;宋玉福;;dNumber:超大范畴数据集的一个快速聚结算法(英文)[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
9 ;Mining Cluster-Defining Actionable Rules[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 任家东;冯佳音;李可;;FCISW:数据流中增量挖掘频繁闭项集的新方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
中国博士学位论文全文数据库 前10条
1 刘雪梅;服务器端软件性能分析和诊断方法研究[D];哈尔滨工程大学;2010年
2 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
3 韩道;基于人体和小动物数据库的生理组M3L平台构建[D];华中科技大学;2010年
4 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
5 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
6 韩燕清;中药治疗多囊卵巢综合征文献数据库的建立及中药疗效的数据分析[D];北京中医药大学;2011年
7 于宏波;阳痿肾阳虚证症状规律及其转录组特征研究[D];成都中医药大学;2011年
8 彭佳扬;代谢网络中功能模块挖掘和进化分析研究[D];中南大学;2011年
9 何贤芒;隐私保护中k-匿名算法和匿名技术研究[D];复旦大学;2011年
10 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘建东;基于Web访问信息挖掘的数字图书馆个性化服务研究[D];浙江理工大学;2010年
2 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
3 琚长涛;一种带有聚类功能的边界检测算法的研究[D];郑州大学;2010年
4 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
5 王勇;一种面向隐私保护的分布式数据流挖掘算法[D];哈尔滨工程大学;2010年
6 于洋;一种改进的COBWEB算法研究[D];哈尔滨工程大学;2010年
7 骆永健;基于聚类的数据流异常检测算法的研究[D];哈尔滨工程大学;2010年
8 王秀锋;网络环境下异构日志信息获取和预处理研究[D];哈尔滨工程大学;2010年
9 赵晓燕;基于多索引的高维时间序列子序列检索研究[D];大连理工大学;2010年
10 韩君;近期数据流频繁项集挖掘[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 伊卫国;卫金茂;王名扬;;关联规则挖掘方法的改进[J];东北师大学报(自然科学版);2006年02期
2 刘旭;毛国君;孙岳;刘椿年;;数据流中频繁闭项集的近似挖掘算法[J];电子学报;2007年05期
3 方伍元;陆介平;轩志远;;基于相关性精简关联规则生成算法[J];江苏科技大学学报(自然科学版);2007年01期
4 周欣,沙朝锋,朱扬勇,施伯乐;兴趣度——关联规则的又一个阈值[J];计算机研究与发展;2000年05期
5 刘学军;徐宏炳;董逸生;王永利;钱江波;;挖掘数据流中的频繁模式[J];计算机研究与发展;2005年12期
6 李洪波;周莉;张吉赞;;用垂直数据格式构建FP增长树的算法[J];计算机工程与应用;2009年08期
7 孟彩霞;;面向数据流的频繁项集挖掘研究[J];计算机工程与应用;2010年24期
8 郭俊芳;谢益武;周生宝;;关联规则相关性的度量[J];计算机应用;2007年04期
9 孙志长;冯祖洪;王沛栋;;一种高效的混合压缩数据挖掘算法[J];计算机应用研究;2009年10期
10 张昕;李晓光;王大玲;于戈;;数据流中一种快速启发式频繁模式挖掘方法[J];软件学报;2005年12期
中国博士学位论文全文数据库 前1条
1 肖波;可信关联规则挖掘算法研究[D];北京邮电大学;2009年
中国硕士学位论文全文数据库 前1条
1 庄波;数据流中频繁模式挖掘方法的研究及应用[D];山东师范大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 冯文峰;郭巧;吴素妍;;基于多层概要结构的数据流的频繁项集发现算法[J];北京理工大学学报;2006年06期
2 于宁莉;易东云;刘海波;周润;;基于股票市场交易数据流的场景记忆模型[J];系统工程;2006年10期
3 彭宏;刘洋;邓维维;郑启伦;;股票数据流的相关性计算方法[J];华南理工大学学报(自然科学版);2006年01期
4 刘学军;徐宏炳;董逸生;王永利;钱江波;;挖掘数据流中的频繁模式[J];计算机研究与发展;2005年12期
5 刘学军;徐宏炳;董逸生;钱江波;王永利;;基于滑动窗口的数据流闭合频繁模式的挖掘[J];计算机研究与发展;2006年10期
6 王正友;刘斯明;;ATM现金流量动态分析[J];计算机辅助工程;2006年02期
7 谈克林;孙志挥;;一种FP树的并行挖掘算法[J];计算机工程与应用;2006年13期
8 刘以安;刘强;邹晓华;王士同;;基于向量内积的关联规则挖掘算法研究[J];计算机工程与应用;2006年21期
9 范明;王秉政;;一种直接在Trans-树中挖掘频繁模式的新算法[J];计算机科学;2003年08期
10 刘佳;张芳;刘国华;刘琳;;基于流数据技术的信息监测系统的研究与设计[J];计算机工程;2007年05期
中国博士学位论文全文数据库 前1条
1 金澈清;数据流上若干查询处理算法的研究[D];复旦大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 龚贞标,陶树平;一种改进的关联规则增量式更新算法[J];福建电脑;2005年07期
2 章志明;黄龙军;余敏;黄明和;;一种动态的频繁项集挖掘算法[J];计算机工程;2006年24期
3 王朝辉;王婷婷;;一种快速的频繁项集挖掘算法[J];贵州工业大学学报(自然科学版);2006年06期
4 郭福亮;左凯伶;;关联规则挖掘中Apriori算法的一种改进[J];计算机与数字工程;2007年05期
5 王伟勤;钟敬堂;;对Apriori算法的一种改进[J];佛山科学技术学院学报(自然科学版);2007年02期
6 郭云峰;张集祥;;对关联规则挖掘中Apriori算法的一种改进[J];杭州电子科技大学学报;2009年02期
7 程杰;;基于二进制的频繁项集挖掘新算法[J];电脑知识与技术;2009年13期
8 沈良忠;;基于简单双矩阵的关联规则算法研究[J];温州大学学报(自然科学版);2009年06期
9 刘洋;王勇;;一种求极大频繁项集的挖掘方法[J];广西民族大学学报(自然科学版);2009年04期
10 汪成亮;罗昌银;;一种基于组合方式改进的频繁项集挖掘算法[J];计算机系统应用;2010年01期
中国重要会议论文全文数据库 前10条
1 杨晓明;王晨;汪卫;张守志;施伯乐;;频繁项集的精简表达与还原问题研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
2 刘马金;王鹏;汪卫;;一种轮转的数据流频繁项挖掘算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
3 谢志军;陈红;;EFIM——数据流上频繁项集挖掘的高性能算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 李坤;王永炎;王宏安;;一种基于乐观裁剪策略的挖掘数据流滑动窗口上闭合频繁项集的算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
5 邹远娅;周皓峰;王晨;汪卫;施伯乐;;FSC——利用频繁项集挖掘估算视图大小[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 陈晓云;李龙杰;马志新;白伸伸;王磊;;AFP-Miner:一种新高效的频繁项集挖掘算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
7 陈建平;侯昌波;王功文;吕鹏;朱鹏飞;荆风;;矿产资源定量评价中文本数据挖掘研究[A];第七届全国数学地质与地学信息学术会议论文摘要汇编[C];2004年
8 栾鸾;李云;盛艳;;多关系频繁项集的并行获取[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
9 温磊;李敏强;;基于有向项集图的频繁项集增量更新挖掘算法[A];2004中国控制与决策学术年会论文集[C];2004年
10 杨子良;陶宏才;;一种基于向量运算的频繁项集快速挖掘算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
中国博士学位论文全文数据库 前10条
1 屠莉;流数据的频繁项挖掘及聚类的关键技术研究[D];南京航空航天大学;2009年
2 毛伊敏;数据流频繁模式挖掘关键算法及其应用研究[D];中南大学;2011年
3 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
4 李力;数据挖掘方法研究及其在中药复方配伍分析中的应用[D];西南交通大学;2003年
5 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
6 王卉;最大频繁项集挖掘算法及应用研究[D];华中科技大学;2004年
7 陈耿;面向中观审计的规则发现算法研究[D];东南大学;2005年
8 崇志宏;基于屏蔽/汇总技术的数据流处理算法[D];复旦大学;2006年
9 晏华;交易数据的聚类分析[D];电子科技大学;2008年
10 叶飞跃;关联规则及其元规则挖掘技术研究[D];南京航空航天大学;2006年
中国硕士学位论文全文数据库 前10条
1 袁锋;基于数据挖掘的中医医案分析系统的设计与实现[D];山东师范大学;2006年
2 陈力捷;数据流频繁项挖掘系统的研究和实现[D];浙江大学;2007年
3 刘卫;基于剪枝概念格模型的频繁项集表示及挖掘研究[D];合肥工业大学;2007年
4 郭静;最大和最长频繁项集增量更新研究[D];燕山大学;2010年
5 朱冀;以概念分层为背景知识的关联规则挖掘算法的分析[D];电子科技大学;2004年
6 陆声链;孤立点挖掘及其内涵知识发现的研究与应用[D];广西师范大学;2005年
7 龚舒;桥吊动态机械性能参数的统计特征分析及关联规则挖掘[D];上海海事大学;2005年
8 李国雁;基于矩阵的人力资源多值关联规则的挖掘[D];河南大学;2008年
9 王灿;含负项目的关联规则挖掘算法研究[D];重庆大学;2008年
10 窦茂生;数据挖掘中关联规则的研究与应用[D];长春理工大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026