基于决策树C4.5算法剪枝策略的改进研究
【摘要】:分类算法是数据挖掘中的一种重要技术,算法的计算速度、鲁棒性、可解释性、可扩展性以及分类模型的准确率是评价分类算法的主要指标。决策树是对数据样例集合进行分类的十分有效的方法。决策树模型下的分类规则直观容易被理解。决策者运用决策树模型来做出准确的预测已经应用在很多领域。在决策树的各类算法中,J. R. Quinlan提出的ID3算法最具有代表性。现在运用最多的C4.5算法就是在ID3算法的基础上改进而来的。虽然C4.5在ID3的基础上进行了改进,但它在面对属性值为连续型的训练样例时计算效率低。针对计算效率低的问题,国内外的学者在如何快速计算连续型属性的最优阈值,以及计算信息增益率时消除对数运算的改进。均使算法的计算效率得到了提高。C4.5算法有很强的处理噪声数据的能力,无论训练样例中含有分类错误的样例,还是样例缺失一部分属性值。然而当训练样例集合中属性缺失率较高时,C4.5算法建立的决策树模型结点数增多,分类准确度也有一定程度的下降。本文针对这个问题,在C4.5算法的基础上改进了决策树生成算法和剪枝策略。在生成决策树时,若某一子集上的所有属性均未知,则直接返回一个叶子节点,标记为unknown。在对通过此方法得到的决策树进行剪枝时,针对某结点是否应该剪除,要考虑两个因素:一是剪除或不剪除此结点的情况下的分类错误率,二是此节点上unknown结点数与所有叶子结点数的比例。通过此剪枝策略得到的决策树,其结点数一定小于等于C4.5算法得到的决策树中的结点数,而且对属性缺失率高的训练样例有着更高的分类准确率。本文将改进后的算法分别运用在属性值为离散型和连续型的训练样例集上。与传统C4.5算法得到的决策树进行了比较。