基于模糊等价类的频繁项集精简表示算法研究
【摘要】:传统关联分析需要处理大量的频繁项集以得到可用的关联规则。为提高规则的抽取效率,已有多种频繁项集的精简模型被提出。但是目前的绝大多数精简模型在考虑精简项集数量的同时,并未将支持度错误率作为一个重要的评价指标,这制约了关联分析在实际中的应用。针对上述问题,本文在深入分析现有精简模型的基础上,来寻找一种既能降低频繁项集数量与支持度错误率,又受数据集误差影响较小的频繁项集精简表示模型,并设计相应算法。本文的主要研究工作如下:(1)针对频繁项集数量较多,现有精简模型的支持度恢复错误率较高的问题,提出了基于模糊等价类的频繁项集精简模型。分析总结了模型的相关性质及定理,设计了一种基于深度优先搜索策略的频繁项集的精简集挖掘算法FECR。实验结果表明,本模型可以大幅度降低频繁项集数量及支持度错误率;与元项集模型相比,在同等精简项集规模情况下,本文方法生成的频繁项集精简集合,在恢复时的支持度错误率较低。(2)由于模糊等价类在聚类过程中存在的不确定性,模糊等价类支持度的选取以及聚类阈值大小的设定都会对支持度错误率产生影响,FECR方法不能保证产生的模糊等价类支持度错误率最低。为此,在FECR基础上,分别研究了频繁项集的组合方式、模糊等价类支持度选取以及聚类阈值设定等三个方面的优化问题,并据此设计了相应的优化方法。