基于概念格模型的序列模式挖掘算法研究
【摘要】:
序列模式挖掘是数据挖掘技术中一个非常重要的研究课题和领域,旨在从有序事件的数据集中发现有规律的序列模式。概念格作为从数据中进行概念发现的一种数学工具,能够较好地展现概念之间的层次关系。本文分别介绍了序列模式挖掘和概念格的基本理论和主要研究成果,并将研究重点放在应用概念格思想进行序列模式的有效挖掘上。
首先,通过引入顺序约束,提出新的有序概念格模型,在其基础上,给出Web用户访问模式的增量挖掘算法,得到了较好的实验结果,验证了有序概念格模型的有效性。
其次,将有序概念格与多维访问序列相结合,进一步拓展有序概念格模型使之能够处理压缩形式的多维访问序列,从而设计并实现多维访问序列模式的挖掘算法。
第三,针对具有一个或多个有序及无序信息维的多维序列模式挖掘应用,提出多维概念格模型,设计了基于该结构的增量式多维序列模式挖掘算法。该算法使用统一的数据模型实现关联模式与序列模式的高效同步挖掘,在标准合成数据集和实际金融数据集上都取得了令人满意的结果,为解决复杂序列模式挖掘问题提供了一条新的途径。
最后,在多维访问序列模式挖掘和多维序列模式挖掘研究工作的基础上,提出新的更为广义的多维序列挖掘应用主题,给出了与该应用相关的基本概念的形式化定义。同时,针对该应用的特点,设计实现了三种有效求解该问题的算法,并基于合成数据集上的实验结果给出算法性能和优缺点的客观评价。