收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于序列模式的Web挖掘的研究

伯明超  
【摘要】:从相当规模中的数据中发现数据的模式规律是数据挖掘的意义所在,数据挖掘作为一门学科,刚开始时是针对传统意义上的数据库中的数据而言的。伴随着数据库挖掘技术的成熟,人们越来越认识到这门学科的潜在价值,也投入了越来越多的研究和关注,数据挖掘的确也给人们带来了很多丰硕的成果。近几年来,计算机的迅猛发展带动了以计算机为平台的互联网的崛起,互联网的崛起引起了网络Web数据量的不断增大,人们将数据挖掘技术也应用到了Web数据上,但是由于Web上数据的庞大性和异构性,进行Web数据挖掘面临着很多的问题和难点。 Web数据挖掘按照挖掘的对象的形式不同可以分为对Web内容的挖掘、对网页链接结构的挖掘和对各种日志信息的挖掘,本文主要结合传统数据库的序列模式挖掘思想,对Web的访问日志信息进行分析和研究,序列模式挖掘是数据挖掘方法的一种,它从数据的前后顺序的序列的角度入手进行数据的挖掘。但是从Web上获得的访问日志信息是不能直接加工的,因为这些日志信息杂乱无序、包含了很多挖掘过程不需要的和有异常的数据,如果不去掉或者处理这些数据,挖掘过程难以进行,挖掘结果也是难以符合用户需求的,所以对数据的预处理过程是必不可少的,通过预处理,将原始数据去冗、整理、完善,以符合挖掘算法的要求。 以序列模式现有算法为基础,本文提出一种改进的针对Web日志挖掘的算法,该算法借鉴位图的思想,设计了一种存储数据的结构形式,在这种结构的辅助下,对Web访问日志进行挖掘不仅去掉了产生候选序列的过程从而节省了开销,而且对序列的支持度计算也更加的快捷。同时,改进算法还吸收了序列模式挖掘的PrefixSpan算法的前缀概念,以前缀为引点,在扫描数据库的过程中不断修改辅助存储结构的值来减小序列范围。通过实验数据的比较,改进算法性能上有明显提高,但是不能忽视的是,该算法在处理中小规模数据时处理效率很高,但在处理大规模数据时效率提升的就不是很明显。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨学兵,刘胜军,蔡庆生;一种实时过程控制中的数据挖掘算法研究[J];计算机应用;1999年09期
2 赵晨;诸静;;复杂系统控制对象之间耦合关联度的数据挖掘[J];电气自动化;2003年06期
3 马传香;李庆华;简钟;;MAXSeq:一个新的最大频繁序列挖掘算法[J];小型微型计算机系统;2006年06期
4 程虹;;数据挖掘中的序列模式的研究[J];中国水运(理论版);2007年10期
5 王兴鹏,沙金;利用Apriori算法进行序列模式挖掘[J];现代计算机;2002年10期
6 邹翔,张巍,蔡庆生,王清毅;大型数据库中的高效序列模式增量式更新算法[J];南京大学学报(自然科学版);2003年02期
7 薛冰冰,普杰信;基于数据挖掘的网络入侵检测系统模型[J];广东自动化与信息工程;2003年03期
8 赵守伟;数据挖掘在网络异常检测中的应用[J];河北大学学报(自然科学版);2004年04期
9 徐君;黄亚楼;李飞;;K-Means聚类中序列模式和批量模式的比较研究[J];计算机科学;2004年06期
10 吴楠;;通过增量聚类预处理分区的一种序列模式挖掘方法[J];宿州学院学报;2008年02期
11 朱红康;余雪丽;;基于P2P的分布式Web服务挖掘技术[J];计算机工程;2010年09期
12 吴卫华,袁宁;基于序列模式的关联规则Apriori算法的研究与优化[J];山东机械;2003年05期
13 宋世杰,胡华平,胡笑蕾;关联规则和序列模式算法在入侵检测系统中的应用[J];成都信息工程学院学报;2004年01期
14 张兵,聂永红,林士敏;NPSP:一种高效的序列模式增量挖掘算法[J];广西师范大学学报(自然科学版);2004年04期
15 管恩政,常晓宇,王喆,周春光;快速频繁序列模式挖掘算法[J];吉林大学学报(理学版);2005年06期
16 官亚雄;陈卫东;;基于数据挖掘的促销决策支持系统[J];浙江工业大学学报;2006年02期
17 周斌,吴泉源,高洪奎;序列模式挖掘的增量式算法的设计原则[J];计算机研究与发展;2000年10期
18 韩明涛;时间序列模式挖掘的算法研究[J];山东大学学报(工学版);2004年03期
19 张晓宁,戴青;基于数据挖掘的分布式入侵检测系统研究[J];无线电工程;2004年09期
20 宋世杰,胡华平,胡笑蕾,金士尧;基于数据挖掘的网络型误用入侵检测系统研究[J];重庆邮电学院学报(自然科学版);2004年01期
中国重要会议论文全文数据库 前10条
1 童咏昕;张媛媛;袁玫;马世龙;于丹;赵莉;;一种挖掘压缩序列模式的有效算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
2 丁祥武;;序列模式的可信度[A];第十六届全国数据库学术会议论文集[C];1999年
3 张琪;朱秋云;朱绍文;姬朝阳;魏苑琦;陈亮;;对一种序列模式的增量式算法的改进[A];2005年中国智能自动化会议论文集[C];2005年
4 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
5 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
6 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
7 姚伟力;王锡禄;宋俊德;;基于序列模式挖掘的告警相关性分析算法[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
8 周常恩;谢伙生;白清源;谢丽聪;张莹;;挖掘邻近序列模式的一个高效算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
9 朱扬勇;郭德培;施伯乐;;数据库中序列模式的增量数据采矿技术[A];数据库研究进展97——第十四届全国数据库学术会议论文集(上)[C];1997年
10 程银波;司菁菁;;带有间隔约束的序列模式挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国博士学位论文全文数据库 前10条
1 佘春东;数据挖掘算法分析及其并行模式研究[D];电子科技大学;2004年
2 汤春蕾;交易序列数据挖掘研究[D];复旦大学;2011年
3 张榛楠;面向电子商务的Web使用挖掘关键技术研究[D];中国矿业大学(北京);2009年
4 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
5 徐敏;基于数据挖掘的Web信息检索研究[D];南京航空航天大学;2006年
6 贾哲;分布式环境中信息挖掘与隐私保护相关技术研究[D];北京邮电大学;2012年
7 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
8 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
9 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
10 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
中国硕士学位论文全文数据库 前10条
1 伯明超;基于序列模式的Web挖掘的研究[D];长春理工大学;2012年
2 王晓雪;基于Web日志的序列模式挖掘算法的研究[D];东北师范大学;2010年
3 李国良;数据挖掘中的关联规则和序列模式[D];电子科技大学;2004年
4 孙学军;面向电子商务的Web数据挖掘应用研究[D];山东大学;2011年
5 孟霞;泛在网络中情景感知业务的实现及用户移动序列模式研究[D];北京邮电大学;2010年
6 王伟娜;基于投影位置的序列模式挖掘算法研究与应用[D];广西大学;2012年
7 王世云;Web数据挖掘在网上书店个性化推荐系统中的应用研究[D];辽宁工程技术大学;2011年
8 马全明;基于Web日志的数据挖掘研究与实现[D];解放军信息工程大学;2009年
9 杨天霞;基于序列模式的序列聚类挖掘算法研究[D];西北师范大学;2010年
10 苗东菁;不确定序列模式发现与查询算法的研究[D];哈尔滨工业大学;2011年
中国重要报纸全文数据库 前10条
1 张立明;数据挖掘之道[N];网络世界;2003年
2 张承东;Web智能考核广告[N];网络世界;2009年
3 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
4 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
5 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
6 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
7 赵晓涛;Web安全 服务为王[N];网络世界;2008年
8 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
9 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
10 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978