收藏本站
《广西师范大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

一种高效的序列模式增量挖掘算法(NPSP)

张兵  
【摘要】: 近年来,随着我们产生和搜集数据的能力不断增强,在许多商业和政府事务中计算机的日益普及、以及在数据收集工具方面的不断进步,我们面临着大量的数据。成百万的数据库已经被用于商业管理、政府管理、科学和工程管理以及其它许多应用领域。这种数据和数据库的飞速增长迫切的要求能够智能的和自动的从我们已经拥有的大量数据中产生有用的知识或信息的技术和工具的出现。因此,数据挖掘作为一种能够满足这种需求的技术,其重要性得到了前所未有的重视。 序列模式挖掘是数据挖掘的重要分支,主要用于捕获和时间相关的典型行为,即捕获那些重复出现从而可以用于决策的行为。假设有一个序列数据库,其中每个序列是一个按照事务时间排序的事务集合的列表,每个事务集合是一个项的集合。序列模式挖掘就是要找出满足用户给定的最小支持度的所有序列模式,其中每个序列模式的支持度是事务数据库中包含该序列的数据序列的数目。序列模式挖掘的一个典型的例子是:如果有5%的顾客在一次事务中买了影碟《Foundation》和《Ringworld》,那么这些顾客在接着的一次购买事务中又买了《Second Foundation》;这样,就形成了模式(《Foundation》《Ringworld》)(《Second Foundation》)。在序列模式挖掘中,一个序列模式的相邻元素之间必须要满足一个特定的最大和最小时间约束。同时,一个序列模式的元素中的项可以不必一定要出现在同一个事务中,而可以出现在不同的事务中,只要这些事务的时间出现在用户指定的一个时间窗口中。同时,如果用户指定了一个概念分层,序列模式挖掘允许一个序列模式包含出现在该概念分层不同层次上的项。 GSP算法和PSP算法是序列模式挖掘问题的两个主要算法。它们的执行时间都随着序列数据库的增大而线性增长,从而具有较高的可伸缩性;但它们都不具有增量挖掘功能。本文中我们提出了一种具有增量挖掘功能的高效序列模式挖掘算法,我们称之为NPSP算法(New Perfectly Sequential Pattern)。 在NPSP算法中,我们采用了一种我们称之为“异构树”(Heterogeneity Tree)的数据结构。我们较为详细的讨论了NPSP算法的每个步骤,并且在几个不同尺寸的合成数据库上 WP=5 对NPSP算法的增量挖掘功能作了实验。实验表明采用NPSP算法的增量挖掘功能较正常挖掘其效率有了较大的提高。同时,NPSP算法的执行成效与事务数据库尺寸呈现一种线性关系,从而具有较好的可伸缩性。
【学位授予单位】:广西师范大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:TP311.13

手机知网App
【参考文献】
中国期刊全文数据库 前7条
1 陈栋;刘兵;徐洁磐;;KDD研究现状及发展[J];计算机科学;1996年06期
2 王清毅;陈恩红;蔡庆生;;知识发现的若干问题及应用研究[J];计算机科学;1997年05期
3 屈定春,林原;一种新型的数据库应用──数据采掘[J];计算机应用研究;1996年06期
4 郭萌;王珏;;数据挖掘与数据库知识发现:综述[J];模式识别与人工智能;1998年03期
5 胡侃,夏绍玮;基于大型数据仓库的数据采掘:研究综述[J];软件学报;1998年01期
6 张光业;从数据中发现信息——数据挖掘技术浅介[J];微电脑世界;1999年04期
7 李水平,陈意云,黄刘生;数据采掘技术回顾[J];小型微型计算机系统;1998年04期
【共引文献】
中国期刊全文数据库 前10条
1 张红云,马垣;数据挖掘与决策支持系统的关系[J];鞍山师范学院学报;2001年03期
2 张小平,马垣,于淼;数据仓库在高校教务系统的应用研究[J];鞍山师范学院学报;2003年02期
3 高居泰,左映华,李晋宏;OLAP与数据挖掘一体化的研究与应用[J];北方工业大学学报;2005年01期
4 吴少敏,冯建生;宝钢数据挖掘系统[J];宝钢技术;2001年01期
5 冯建生;KDD及其应用[J];宝钢技术;1999年03期
6 李拥军,宫杰,仲海涛;关于包钢营销决策支持系统的体系结构设计[J];包钢科技;2004年03期
7 王冰清,怀进鹏;IDSS 中数据仓库和数据挖掘的研究与实现[J];北京航空航天大学学报;1998年04期
8 张治强,蔡嗣经,马平波;数据挖掘在岩质边坡稳定性预测中的应用[J];北京科技大学学报;2003年02期
9 康健,梁允荣;分类挖掘技术在金融客户关系管理中的应用[J];北京理工大学学报;2003年02期
10 乔溪,张晓明;企业知识管理系统的模型框架及关键技术[J];北京石油化工学院学报;2004年01期
中国重要会议论文全文数据库 前10条
1 王建华;王菲;黄国建;;数据挖掘技术研究的现状及展望[A];中国运筹学会第六届学术交流会论文集(上卷)[C];2000年
2 胥永康;岳筱玲;;浅谈网络信息挖掘应用技术[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
3 李世林;安力;;入侵检测系统的设计与实现[A];第十八次全国计算机安全学术交流会论文集[C];2003年
4 张素兰;张继福;;融合粗集和概念格理论的分类知识挖掘模型研究[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
5 刘新宇;李庆予;;基于数据仓库与数据挖掘技术的质量控制系统设计与实现[A];第六届全国计算机应用联合学术会议论文集[C];2002年
6 刘伟宏;李晋晋;徐洁磐;;通用数据库知识发现系统KNIGHT[A];第十五届全国数据库学术会议论文集[C];1998年
7 郑红;王翰虎;;基于面向对象数据库的数据挖掘[A];第十六届全国数据库学术会议论文集[C];1999年
8 刘丽君;黄亚楼;薛彬;葛建业;田会芹;;数据挖掘原型系统RoboMiner的设计与初步实现[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
9 邵华;万家华;王剑虎;何耀东;张霞;;一个以用户为中心的数据挖掘工具:Open Miner[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
10 万家华;刘冰;江早;;知识发现中的可视化技术[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
中国博士学位论文全文数据库 前10条
1 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
2 赖芨宇;基于知识挖掘的企业管理集成系统研究[D];东华大学;2011年
3 沈巍;建立股指波动预测模型的方法研究及应用[D];华北电力大学(北京);2011年
4 高雅田;基于MAS的数据挖掘模型自动选择方法研究[D];东北石油大学;2011年
5 梁艳红;基于专利挖掘的创新设计关键技术研究[D];河北工业大学;2011年
6 方兆宝;基于空间数据挖掘的MCSs时空演变规律研究[D];中国矿业大学(北京);2004年
7 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
8 脱凌;云南检验检疫档案信息数据库构建研究[D];云南大学;2012年
9 陈燕;数据仓库的设计与实现[D];大连理工大学;2000年
10 马恒太;基于Agent分布式入侵检测系统模型的建模及实践[D];中国科学院软件研究所;2001年
中国硕士学位论文全文数据库 前10条
1 丛强;基于模糊关联规则Web挖掘算法的研究[D];哈尔滨工程大学;2010年
2 王大卫;高速网络入侵检测若干关键技术的研究[D];长沙理工大学;2010年
3 曲辰萌;商业银行信贷管理系统的设计与实现[D];中国海洋大学;2010年
4 赵荣华;码头堆场预测算法的研究和应用[D];华南理工大学;2010年
5 高新;银行客户信息数据仓库的实现与应用[D];华南理工大学;2010年
6 谢锋;医院LIS质量控制系统设计与实现[D];电子科技大学;2010年
7 孟宜成;粗集理论在机器学习中的应用与研究[D];昆明理工大学;2008年
8 王维佳;面向电力营销的OLAP与数据挖掘技术研究与应用[D];安徽大学;2010年
9 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
10 邵伟;基于FP-Tree的关联规则挖掘算法研究[D];西安电子科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前1条
1 王珏;Rough Set约简与数据浓缩[J];高技术通讯;1997年11期
【相似文献】
中国期刊全文数据库 前10条
1 熊学栋;肖建华;;基于PrefixSpan思想的增量时序模式挖掘算法[J];湖南第一师范学报;2007年02期
2 龚惠群,黄超,彭江平;具有双时间维约束的股票序列模式挖掘[J];计算机工程;2003年20期
3 郭跃斌;翟延富;董祥军;;序列模式的关联规则在彩票分析中的应用研究[J];山东轻工业学院学报(自然科学版);2008年01期
4 周斌,吴泉源,高洪奎;序列模式挖掘的增量式算法的设计原则[J];计算机研究与发展;2000年10期
5 王兴鹏,沙金;利用Apriori算法进行序列模式挖掘[J];现代计算机;2002年10期
6 邹翔,张巍,蔡庆生,王清毅;大型数据库中的高效序列模式增量式更新算法[J];南京大学学报(自然科学版);2003年02期
7 王红侠;胡学钢;;基于可信度约束的序列模式发现研究[J];淮北煤炭师范学院学报(自然科学版);2008年01期
8 贺桂娇;;一种改进的序列模式挖掘算法[J];电脑知识与技术;2008年S1期
9 周斌,吴泉源;序列模式挖掘的一种渐进算法[J];计算机学报;1999年08期
10 吴卫华,袁宁;基于序列模式的关联规则Apriori算法的研究与优化[J];山东机械;2003年05期
中国重要会议论文全文数据库 前10条
1 程银波;司菁菁;;带有间隔约束的序列模式挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 童咏昕;张媛媛;袁玫;马世龙;于丹;赵莉;;一种挖掘压缩序列模式的有效算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
3 张琪;朱秋云;朱绍文;姬朝阳;魏苑琦;陈亮;;对一种序列模式的增量式算法的改进[A];2005年中国智能自动化会议论文集[C];2005年
4 丁祥武;;序列模式的可信度[A];第十六届全国数据库学术会议论文集[C];1999年
5 周常恩;谢伙生;白清源;谢丽聪;张莹;;挖掘邻近序列模式的一个高效算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
6 朱扬勇;郭德培;施伯乐;;数据库中序列模式的增量数据采矿技术[A];数据库研究进展97——第十四届全国数据库学术会议论文集(上)[C];1997年
7 陈晓云;李龙杰;马志新;白伸伸;王磊;;AFP-Miner:一种新高效的频繁项集挖掘算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
8 赵桦;曲飞;;序列模式挖掘算法在Web挖掘上的应用[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
9 张锐;熊赟;陈越;朱扬勇;;MS-BioSM:一个基于多支持度生物序列模式挖掘算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
10 姚伟力;王锡禄;宋俊德;;基于序列模式挖掘的告警相关性分析算法[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 蔡建生;跨国公司为什么会“出事”?[N];中国经营报;2004年
2 李国辉 张军 汤义;挖掘技术直面多媒体[N];计算机世界;2002年
3 邬建荣;上海双菱“智能”集中客户数据[N];计算机世界;2004年
4 中国人民大学数据仓库与商务智能工程研究中心 $$  中国人民大学数据与知识工程研究所王珊、谢佳明、陈红、刘中蔚、邵琦洪、张宁;创建数据仓库:要面向三条路线[N];中国计算机报;2002年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 ;智能决策为企业导航[N];计算机世界;2001年
7 武李 林姚;“钻石眼”图像挖掘系统[N];计算机世界;2002年
8 江青;海尔出击智能分析软件[N];计算机世界;2002年
9 ;数据挖掘流程[N];人民邮电;2001年
10 孙富春 李磊;电子政务中的数据挖掘[N];计算机世界;2001年
中国博士学位论文全文数据库 前10条
1 汤春蕾;交易序列数据挖掘研究[D];复旦大学;2011年
2 佘春东;数据挖掘算法分析及其并行模式研究[D];电子科技大学;2004年
3 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
4 佟强;科学数据网格中数据挖掘技术研究[D];中国科学院研究生院(计算技术研究所);2006年
5 贾哲;分布式环境中信息挖掘与隐私保护相关技术研究[D];北京邮电大学;2012年
6 毛宇星;关联规则挖掘在分类数据领域的扩展性研究[D];复旦大学;2010年
7 徐敏;基于数据挖掘的Web信息检索研究[D];南京航空航天大学;2006年
8 林晓勇;频繁模式挖掘和动态维护的理论与方法研究[D];北京化工大学;2008年
9 李海波;频繁子结构挖掘算法研究与应用[D];华中科技大学;2011年
10 赵春;基于数据挖掘技术的财务风险分析与预警研究[D];北京化工大学;2012年
中国硕士学位论文全文数据库 前10条
1 张兵;一种高效的序列模式增量挖掘算法(NPSP)[D];广西师范大学;2003年
2 李明月;基于约束的闭序列模式挖掘算法的研究[D];燕山大学;2012年
3 王伟娜;基于投影位置的序列模式挖掘算法研究与应用[D];广西大学;2012年
4 公伟;序列模式挖掘算法及其在云取证中的应用研究[D];山东师范大学;2012年
5 伯明超;基于序列模式的Web挖掘的研究[D];长春理工大学;2012年
6 王晓雪;基于Web日志的序列模式挖掘算法的研究[D];东北师范大学;2010年
7 丁哲;迭代闭序列模式挖掘算法及其在软件可信性分析中的应用研究[D];兰州大学;2012年
8 孟霞;泛在网络中情景感知业务的实现及用户移动序列模式研究[D];北京邮电大学;2010年
9 杨天霞;基于序列模式的序列聚类挖掘算法研究[D];西北师范大学;2010年
10 苗东菁;不确定序列模式发现与查询算法的研究[D];哈尔滨工业大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026