一种基于AdaBoost的组合分类算法研究
【摘要】:分类是数据挖掘研究范畴中为了解决分类问题而提出的方法,同时它也是一种重要的分析数据的技术。作为一种有效的科学研究工具,组合分类器在医疗诊断、手写体识别、人脸识别、推荐系统等领域有着广泛的应用。本文首先讨论分析了数据挖掘理论中分类技术的基本理论及其几个常用的分类算法。研究分析了集成模型优于单模型的原因,详细论述了集成学习的基本原理与算法,从理论分析和实验验证两个方面对Bagging和Boosting算法进行了对比研究。在已有研究的基础上,利用集体智慧和集成学习理论思想,从差异性的角度对Ada Boost算法进行了分析改进,提出了Ensemble-Ada Boost算法。该算法把不同类型的分类算法作为基分类器,应用到多个Ada Boost算法框架中,形成多个基于Ada Boost算法的“基分类器”。最终,采用简单多数投票法的原则把“基分类器”的分类结果进行组合,作为Ensemble-Ada Boost算法的分类结果。通过加大基分类器间的差异程度,使Ensemble-Ada Boost算法有效地减少了分类器的整体误差,从而提高了该算法的泛化能力和稳定性能。