朴素贝叶斯与决策树混合分类方法的研究
【摘要】:数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,并且能有效地从低信噪比数据中挖掘有价值的信息。分类的模型主要包括朴素贝叶斯、决策树、支持向量机等。朴素贝叶斯和决策树以算法简单、计算量小以及分类结果对噪音鲁棒等特点而得到广泛运用。本文从以下几个方面着眼,改进朴素贝叶斯和决策树算法:(1)尽管朴素贝叶斯的分类结果受到广泛承认,但是面对某些特殊情形,依然存在两个缺陷,即属性间必须满足独立的条件,以及概率估计方式粗糙的问题。针对朴素贝叶斯概率估计粗糙的问题,本文提出了基于朴素贝叶斯的概率优化算法。将概率优化函数运用到朴素贝叶斯中,充分考虑到朴素贝叶斯中条件概率为零的属性,从而避免了朴素贝叶斯易下溢和过度拟合的问题。本文采用了UCI数据集进行了多组验,与传统分类算法进行比较。实验结果表明在高维数据中,基于朴素贝叶斯的概率优化算法算法提高了分类准确率,表现出了优良的性能。(2)在针对多类标签的分类问题上,文中介绍了朴素贝叶斯与决策树的混合分类算法,由于在训练集中存在有噪声矛盾的实例,将使决策树遭遇过度拟合并且致使精确度下降。在构造决策树之前运用本文提出的朴素贝叶斯的概率优化算法进行预处理,来移除训练集中的噪音实例,从而避免决策树算法的过度拟合。本文采用UCI数据集,采用10倍交叉验证的方法,对论文中提出的算法进行实验。通过大量对比实验显示,本文中提出的方法产生了较好的结果。朴素贝叶斯与决策树的混合算法还允许我们自动的从拥有高维属性的噪声数据中抽取最具有代表性和高质量的数据集,并且根据不同的实例特征挑选出重要的属性。(3)本文将提出的朴素贝叶斯的概率优化算法和朴素贝叶斯与决策树的混合算法应用在冠心病中医辅助诊疗系统中,成功地对病人病症进行了分类,在冠心病的诊疗过程中起到了有效的辅助作用。