收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于命题逻辑的频繁序列模式挖掘算法的研究

冯建  
【摘要】:频繁序列模式挖掘是数据挖掘中非常重要的一个研究领域,序列数据在我们日常生活当中是很常见的,并且存在着显著的商业价值。频繁序列模式的挖掘主要是基于大项集的挖掘,这类算法目前存在两个主要问题,第一,支持度阈值设定问题。传统类Apriori算法必须预先设定一个最小支持度阈值作为判断是否为频繁模式的标准。然而,一般情况下用户对支持度阈值并没有准确的认识,主要通过多次试探或丰富的经验来设定,缺少统一的评判标准。第二,挖掘的规则集数量庞大,挖掘结果对于用户来说难以理解。具体的讲,如果序列模式P是频繁的,则P的全部子序列模式也都是频繁的,这导致了序列模式结果集的规模呈指数级增长的问题,大大增加了用户理解序列模式结果集的难度。本文在分析频繁序列模式挖掘算法的基础上,针对该类算法存在的问题,将命题逻辑的思想首次引入到这类算法当中,主要贡献如下:1、提出了一种基于命题逻辑的频繁序列模式挖掘算法,通过在挖掘过程中加入逻辑过滤规则,去除掉大量不符合逻辑的、无用的规则集,使序列的结果集大大优化,从而降低了算法的时间消耗,而且,提高了结果的质量。同时,有效的解决了支持度阈值设置问题,降低了算法对它的依赖性。2、在结果过滤阶段,提出了一种根据序列子集判断对应结果序列支持度范围的方法,将这一方法应用到算法过程中,有效的压缩了结果集的范围,排除了无效的候选序列,同时也有效提高了算法的效率。对上述方法进行实验,与传统频繁序列模式挖掘算法GSP算法做对比,结果表明,基于命题逻辑的频繁序列模式挖掘算法有效的提高了算法的效率,优化的结果集,降低了对支持度阈值的依赖,论证了算法的可行性与优越性。


知网文化
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978