关于组合分类器修剪方法的研究
【摘要】:提高分类的准确率是数据挖掘和机器学习等领域一直关注的重要研究课题。组合方法是目前比较流行的机器学习算法之一。但是大部分组合方法都存在一个共同的问题:倾向于构建大量的基分类器。这样势必会加大内存需求和延长响应时间。组合修剪是处理该问题的一种有效方法,即选择全部基分类器的一个子集作为组合分类器来对未知样例进行预测。目前比较成熟的组合修剪方法有向前选择、向后选择和向前向后选择。这三种方法都是以贪心搜索的方式增加或删除一个基分类器,收敛过快,很容易达到局部最优,严重影响了修剪后所得组合分类器的性能。
针对以上组合分类器修剪方法容易达到局部最优,本文从增大搜索空间的角度出发,提出了一种基于束状搜索的组合分类器修剪方法(EPBBS)。该方法使用束状搜索策略对基分类器进行选择,在每一步增加或删除一个基分类器时都保存最优的前k个组合。既保持了原有组合修剪方法中贪心搜索算法的高效剪枝特性,又有效减小了贪心搜索过快收敛到局部最优解的可能性,使修剪得到的组合分类器更接近于全局最优。除了算法的理论分析外,本文还设计了三个实验,分别从分类性能和组合规模的角度与原有的组合修剪方法向前选择、向后选择和向前向后选择进行对比。实验结果与分析表明,EPBBS算法在大部分数据集上都具有更高的分类性能,而且组合规模也有所降低。