基于频繁项集的马尔可夫网构建及其系统设计与实现
【摘要】:随着计算、通信以及海量数据库技术的不断发展,数据得到了极大的丰富。但是却出现了知识贫乏的现象,人们很难去理解数据中包含的信息,更难以获得有价值的信息。为解决上述问题,出现了知识发现技术,它能挖掘出数据间潜在的模式,找出有价值的信息和知识。知识发现系统是知识发现技术在实际中的具体应用,知识发现系统结构可以分为数据源层、待挖掘层、挖掘层、知识评价和展示层、用户界面及控制层。挖掘层是系统的核心,它是知识发现方法、技术、算法的具体应用领域。以概率论为基础的不确定性知识表达和基于频繁项的关联规则挖掘是知识发现研究领域的重要内容。概率图模型,包括有向图模型和无向图模型是不确定性知识推理的有效工具,贝叶斯网和马尔可夫网是其典型的代表。基于频繁集的Apriori算法能有效地挖掘项目之间的关联规则。但是,不管是贝叶斯网还是马尔可夫网的构建都没有利用到关联规则挖掘中的成果。而关联规则挖掘虽然能充分挖掘出频繁项集,但由于受支持度-置信度框架的局限而不能挖掘出不同频繁项集之间的关联。
基于上述背景,本文首先提出一种基于关联规则挖掘构建马尔可夫网模型的方法,即在关联规则挖掘出的频繁项集的基础上进行条件独立分析和测试,构建一个无向图模型——马尔可夫网。然后我们设计并实现了已此方法为挖掘层的知识发现系统。系统包括数据预处理、设计挖掘层方法、结果评估和展示、用户图形界面等模块。本文的主要工作及贡献可概括如下:
根据关联规则挖掘中的Apriori算法找出频繁项集,以频繁项集为基础进行条件独立测试进而构建一个马尔可夫网模型。从而既能充分利用关联规则挖掘的成果来构造概率图模型,又能挖掘不同频繁项集间的联系。本文还设计并实现以本文提出的方法做为挖掘层的知识发现系统,系统中将以此方法构建的马尔可夫网与基于依赖分析构建的马尔可夫网进行比较和分析,客观地评估和展示该方法的挖掘结果。