频繁模式挖掘技术研究及其在供应链管理中的应用
【摘要】:
频繁模式挖掘是数据挖掘的一个重要内容,由于处理的数据量巨大,并行挖掘算法受到越来越多的重视,但是在具体应用领域还有许多亟待解决的问题。本文针对多重支持度频繁模式挖掘、特殊数据源上的数据挖掘等特殊问题进行研究,在一个新的面向视图的分布式共享内存并行编程环境VODCA下,提出了频繁模式挖掘的几种新的算法,并且应用到再制造/制造集成系统供应链管理中。
首先,针对CD算法的通信量较少,能够在分布式共享内存系统中获得较好性能,但是没有有效的剪枝策略的特点,提出了带有事务删减的CD算法。该算法首先采用改进的层次聚类方法对数据进行分类,获得具有不同项目集合的数据子集,采用动态任务分配策略在不同处理器之间分配计算任务。在进行第k次数据库扫描时,根据事务中是否含有k-频繁项集,对数据库中的事务进行剪枝,由于预处理过的不同数据子集所包含的项目集合不同,起到对某些数据子集进行剪枝的作用。
第二,为了实现用多重支持度发现更多长模式的目的,提出了从冗余的FP-tree挖掘频繁模式的方法。利用从条件FP-tree可以直接产生频繁项集的特点,根据模式长度改变支持度阈值,产生支持度不同的模式。约束函数采用分段函数实现,具有简单、灵活的特点,允许用户指定最小模式长度和支持度范围,能够方便地发现用户感兴趣的长模式。
第三,稀疏数据源是数据挖掘任务中常见的一种数据源类型,本文在分析频繁模式挖掘中各种已有的数据结构基础上,提出了一种压缩存储稀疏数据源的链表结构,并在此基础上提出了稀疏数据源频繁模式挖掘算法,实现了高效挖掘稀疏数据源频繁模式的目的。详细讨论了VODCA系统环境下视图的划分依据和使用。
最后,针对再制造/制造集成系统供应链管理中的两个关键问题:回收商选择问题和专业拆解中心选址问题,讨论了频繁模式挖掘算法在这类问题中的应用,提出了回收商绩效评价系统模型,介绍了关键属性的选取和处理方法。采用基于χ~2统计的有监督属性量化方法和属性值映射方法,将数据源处理成为稀疏数据集,寻找属性之间的关联关系,为问题中各类评价指标的确定提供指导。