基于Web日志的序列模式挖掘算法的研究
【摘要】:
随着信息时代的来临,人们越来越依赖来自网络中的信息,同时对信息搜索技术的准确率的要求也越来越高。然而,由于网络中的信息量呈爆炸式增长,并且还包括各种虚假,不相关等的信息垃圾,无形中给用户的访问造成了极大困扰。于是如何在有效时间内找到用户真正需要的信息,成为了当前Web日志挖掘研究领域的热点问题。而其中序列模式挖掘则是作为较为重要的Web日志挖掘技术的一个重要研究分支,越来越被学者们关注。
近年来很多学者针对搜索技术提出了效率较高,符合用户需求的序列模式挖掘算法。序列模式挖掘技术具有广泛的实际应用价值,它可以在具有序列特征的数据上进行挖掘,找到满足用户需求的潜在模式,商业用户通过分析这些模式进行策略或者结构上的改进措施,以达到他们不同的目的,如提高服务质量或者提高个性化服务等。比如,序列模式挖掘在商业领域中被网站用来进行用户访问模式挖掘,网络超市用这个技术来进行用户购买行为预测等,生物学家用它来进行生物DNA序列挖掘等。因此,序列模式挖掘技术研究具有重要的实际意义。
本文主要的研究工作是在Apriori算法基础上,利用SPADE算法存储策略,来简化连接和测试过程,同时为了提高算法效率,也为了使挖掘结果更加符合用户需求,在Apriori算法上添加能够反映用户需求的时间约束。Apriori算法具有的突出问题是:扫描数据库次数多,搜索空间大,产生大量的候选集。
所以本文通过添加时间约束对Apriori算法进行改进,希望能达到缩小搜索空间,减少候选集和找到满足用户需求的模式的目的。同时为了缩小算法执行过程中占用的内存,本文提出了一个五元组存储策略,这样同时也能够简化搜索过程。虽然添加了时间约束,会增加算法的复杂度,但改进后的算法在整体上效率还是有所提高的。本文充分考虑了改进算法的运行效率,能达到较好的准确率及召回率,并借鉴其他通过时间约束进行改进的算法,实现了本文的挖掘算法,取得了一定的挖掘效果。
|
|
|
|
1 |
龚惠群,黄超,彭江平;具有双时间维约束的股票序列模式挖掘[J];计算机工程;2003年20期 |
2 |
郭跃斌;翟延富;董祥军;;序列模式的关联规则在彩票分析中的应用研究[J];山东轻工业学院学报(自然科学版);2008年01期 |
3 |
周斌,吴泉源,高洪奎;序列模式挖掘的增量式算法的设计原则[J];计算机研究与发展;2000年10期 |
4 |
王红侠;胡学钢;;基于可信度约束的序列模式发现研究[J];淮北煤炭师范学院学报(自然科学版);2008年01期 |
5 |
贺桂娇;;一种改进的序列模式挖掘算法[J];电脑知识与技术;2008年S1期 |
6 |
周斌,吴泉源;序列模式挖掘的一种渐进算法[J];计算机学报;1999年08期 |
7 |
王兴鹏,沙金;利用Apriori算法进行序列模式挖掘[J];现代计算机;2002年10期 |
8 |
邹翔,张巍,蔡庆生,王清毅;大型数据库中的高效序列模式增量式更新算法[J];南京大学学报(自然科学版);2003年02期 |
9 |
马传香;李庆华;简钟;;MAXSeq:一个新的最大频繁序列挖掘算法[J];小型微型计算机系统;2006年06期 |
10 |
吴卫华,袁宁;基于序列模式的关联规则Apriori算法的研究与优化[J];山东机械;2003年05期 |
11 |
宋世杰,胡华平,胡笑蕾;关联规则和序列模式算法在入侵检测系统中的应用[J];成都信息工程学院学报;2004年01期 |
12 |
赵晨;诸静;;复杂系统控制对象之间耦合关联度的数据挖掘[J];电气自动化;2003年06期 |
13 |
孙晓冬;一种基于χ~2测试的序列模式挖掘算法[J];辽宁大学学报(自然科学版);2004年02期 |
14 |
杨学兵,刘胜军,蔡庆生;一种实时过程控制中的数据挖掘算法研究[J];计算机应用;1999年09期 |
15 |
陈金玉,樊兴华,曹长修;序列模式的一种挖掘算法[J];重庆大学学报(自然科学版);2001年01期 |
16 |
吴卫华,袁宁;地理信息关联规则挖掘算法的设计与应用[J];山东国土资源;2003年04期 |
17 |
刘旭,祁之力,谭立刚;一种基于灰关联的序列模式挖掘算法[J];北京邮电大学学报;2003年03期 |
18 |
赵永进,王世卿;关联规则在股票分析中的应用研究[J];微机发展;2005年09期 |
19 |
郭跃斌;翟延富;董祥军;杨越越;李刚;;基于序列模式的正负关联规则研究[J];山东大学学报(理学版);2007年09期 |
20 |
胡笑蕾,胡华平,宋世杰;数据挖掘算法在入侵检测系统中的应用[J];计算机应用研究;2004年07期 |
|