收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于投影位置的序列模式挖掘算法研究与应用

王伟娜  
【摘要】:随着信息化技术的快速发展和广泛应用,Web已经成为人们获取知识和交流信息的重要渠道之一,融入到人们的工作、学习和生活的方方面面,Web日志中收集了大量的用户访问数据,如何高效分析和利用这些海量数据成为当前数据挖掘的研究热点。序列模式挖掘(Sequential Pattern Mining, SPM)主要研究如何在带有时间特征的数据信息中挖掘频繁发生的序列。近年来序列模式挖掘研究发展迅速,并广泛应用于Web日志分析、客户购买行为模式预测、疾病诊断、自然灾害预测和DNA序列分析等领域。 本文针对Web日志海量信息的挖掘问题,对序列模式挖掘进行了比较深入的研究,探讨了序列挖掘算法的相关问题。本文主要完成以下几个方面的工作: (1)首先了解序列模式挖掘相关背景及国内外研究现状,研究了当前最具代表性的序列模式挖掘算法以及分析其存在的问题。 (2)重点分析了PrefixSpan算法,发现该算法在挖掘过程中产生大量投影数据库和扫描不可能出现序列,特别在挖掘密数据集和长序列模式时,使得算法性能急剧下降。针对此问题,提出一种基于投影位置的序列模式挖掘算法(Projection position-based Sequential Pattern Mining, PSPM),将改进后的算法在UCI公共数据集上进行验证,并分析对比算法性能。实验结果表明,本文提出的PSPM算法具有更好的可行性和可伸缩性。 (3)通过分析发现Web日志数据具有一些特殊性,针对Web日志数据特点,将上文提出的PSPM算法扩展为PSPM WEB算法并应用到Web日志挖掘中,解决个性化的信息服务和构建智能化Web站点的问题。通过序列模式分析,发现用户对Web站点访问的行为模式,依据所发现的行为模式对用户的访问习惯进行预测,进一步构建简洁高效的Web站点结构,最终达到方便用户,提高Web站点整体价值的目的。因此,研究和提出高效的序列模式算法,在Web日志挖掘的应用上具有一定的科学研究意义和学术价值。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 林珣;李志蜀;周勇;;时间序列序列模式的相似性研究[J];计算机科学;2011年09期
2 王嘉;汤大权;谢羿;;过程挖掘算法[J];火力与指挥控制;2011年08期
3 宋威;刘文博;李晋宏;;基于动态裁剪频繁模式树的频繁项集并发挖掘算法[J];山东大学学报(工学版);2011年04期
4 尹四清;孔鹏程;张素兰;;利用编码的频繁导出式子树挖掘算法[J];计算机工程与应用;2011年24期
5 谢文阁;王海虹;;一种改进的基于距离的孤立点挖掘算法的研究[J];渤海大学学报(自然科学版);2011年02期
6 林颖;;闭合序列模式的一种增量挖掘算法[J];重庆理工大学学报(自然科学);2011年06期
7 张长海;胡孔法;陈崚;宋爱波;;一种高效的基于位图序列模式挖掘算法[J];高技术通讯;2010年02期
8 黄钧钧;谢伙生;;数据流中基于滑动窗口的闭序列模式挖掘算法[J];计算机工程与设计;2011年06期
9 田王君;蒋军辉;陈士慧;;基于矩阵技术的频繁项目集挖掘算法[J];计算机工程;2011年16期
10 戴月明;李彦伟;王金鑫;;一种加权时态关联规则挖掘算法[J];计算机工程与应用;2011年26期
11 邹海;朱四红;;基于HFUFP-tree的增量挖掘算法研究[J];计算机应用与软件;2011年09期
12 毛伊敏;杨路明;李宏;陈志刚;刘立新;;一种有效的数据流最大频繁模式挖掘算法[J];高技术通讯;2010年03期
13 李广原;杨炳儒;刘永彬;刘英华;;多维序列模式挖掘算法[J];计算机工程与设计;2011年07期
14 张亚鹏;刘燕;;基于规则模式LRU优化的交互式关联规则挖掘[J];微电子学与计算机;2011年08期
15 梁建海;潘泉;黄鹤;杨峰;;一种飞行数据的模糊关联规则挖掘算法[J];计算机应用研究;2011年09期
16 侯宇;张敏;;加权关联规则挖掘算法[J];大连大学学报;2011年03期
17 毛伊敏;李宏;杨路明;刘立新;;基于滑动窗口的数据流最大频繁项集的挖掘[J];高技术通讯;2010年11期
18 杨观赐;李琴;李少波;钟勇;;基于序列挖掘的分等级搜索可持续进化算法[J];华中科技大学学报(自然科学版);2011年07期
19 李娟;杨珺;;基于分区的频繁子树挖掘算法研究[J];计算机工程与设计;2011年06期
20 刘海蓉;闫仁武;;一种改进的加权关联规则挖掘算法[J];现代电子技术;2011年12期
中国重要会议论文全文数据库 前10条
1 程银波;司菁菁;;带有间隔约束的序列模式挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 沈向余;李伟华;;几种关联规则挖掘算法的分析[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 丁艳辉;王洪国;高明;谷建军;;一种基于矩阵的高效关联规则挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 陈晓云;李龙杰;马志新;白伸伸;王磊;;AFP-Miner:一种新高效的频繁项集挖掘算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
5 张锐;熊赟;陈越;朱扬勇;;MS-BioSM:一个基于多支持度生物序列模式挖掘算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
6 郭平;陈黎;聂亚可;林勇;;以Apriori为基础的序列挖掘算法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
7 曹波伟;薛青;唐志武;任晓明;;面向军事基础数据的数据挖掘研究[A];2009系统仿真技术及其应用学术会议论文集[C];2009年
8 莫晓静;史岚;许光宇;赵宇海;王国仁;乔建忠;;MFCC:一种高效的三维频繁闭项集挖掘算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
9 童咏昕;张媛媛;袁玫;马世龙;于丹;赵莉;;一种挖掘压缩序列模式的有效算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
10 段军晓;;数据挖掘技术在民航快递市场营销中的应用[A];第六届中国科学家论坛论文汇编[C];2007年
中国博士学位论文全文数据库 前10条
1 李海波;频繁子结构挖掘算法研究与应用[D];华中科技大学;2011年
2 汤春蕾;交易序列数据挖掘研究[D];复旦大学;2011年
3 王卉;最大频繁项集挖掘算法及应用研究[D];华中科技大学;2004年
4 贾哲;分布式环境中信息挖掘与隐私保护相关技术研究[D];北京邮电大学;2012年
5 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
6 由育阳;数据流容错挖掘算法研究[D];哈尔滨工程大学;2011年
7 佘春东;数据挖掘算法分析及其并行模式研究[D];电子科技大学;2004年
8 佟强;科学数据网格中数据挖掘技术研究[D];中国科学院研究生院(计算技术研究所);2006年
9 阮幼林;频繁模式挖掘算法及在入侵检测中的应用研究[D];华中科技大学;2004年
10 邹晓红;用于图分类的频繁子结构挖掘算法研究[D];燕山大学;2011年
中国硕士学位论文全文数据库 前10条
1 公伟;序列模式挖掘算法及其在云取证中的应用研究[D];山东师范大学;2012年
2 田文诗;基于学习者行为的序列模式挖掘算法研究与实现[D];吉林大学;2011年
3 丁哲;迭代闭序列模式挖掘算法及其在软件可信性分析中的应用研究[D];兰州大学;2012年
4 王伟娜;基于投影位置的序列模式挖掘算法研究与应用[D];广西大学;2012年
5 王晓雪;基于Web日志的序列模式挖掘算法的研究[D];东北师范大学;2010年
6 李明月;基于约束的闭序列模式挖掘算法的研究[D];燕山大学;2012年
7 张兵;一种高效的序列模式增量挖掘算法(NPSP)[D];广西师范大学;2003年
8 王鹏;基于位置的社会网络关系判别模型研究[D];北京交通大学;2011年
9 伯明超;基于序列模式的Web挖掘的研究[D];长春理工大学;2012年
10 金灿;序列模式的增量式挖掘算法研究[D];华中师范大学;2004年
中国重要报纸全文数据库 前10条
1 李国辉 张军 汤义;挖掘技术直面多媒体[N];计算机世界;2002年
2 蔡建生;跨国公司为什么会“出事”?[N];中国经营报;2004年
3 中国人民大学数据仓库与商务智能工程研究中心 $$  中国人民大学数据与知识工程研究所王珊、谢佳明、陈红、刘中蔚、邵琦洪、张宁;创建数据仓库:要面向三条路线[N];中国计算机报;2002年
4 邬建荣;上海双菱“智能”集中客户数据[N];计算机世界;2004年
5 ;数据挖掘流程[N];人民邮电;2001年
6 武李 林姚;“钻石眼”图像挖掘系统[N];计算机世界;2002年
7 江青;海尔出击智能分析软件[N];计算机世界;2002年
8 孙富春 李磊;电子政务中的数据挖掘[N];计算机世界;2001年
9 ;智能决策为企业导航[N];计算机世界;2001年
10 张立明;数据挖掘之道[N];网络世界;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978