基于遗传算法的朴素贝叶斯分类研究
【摘要】:分类是数据挖掘领域中重要的研究分支,国内外己经取得了许多令人瞩目的成就。朴素贝叶斯分类器由于计算高效、精确度高,并具有坚实的理论基础而得到广泛的应用。然而,朴素贝叶斯分类器的条件独立性假设限制了对实际数据的应用。遗传算法是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化概率搜索算法,具有简单、通用、稳健等特性,使其在复杂实际问题的求解中显示出巨大的优越性,而且能在概率意义下收敛到问题的全局最优解。
本文基于遗传算法,对朴素贝叶斯分类问题进行研究,主要工作如下:
(1) 概述数据挖掘的研究背景,数据挖掘的主要任务,描述了数据挖掘中分类问题的定义、方法以及分类模型评价的标准等。
(2) 描述了朴素贝叶斯分类模型,朴素贝叶斯分类模型的一般原理,以及存在的问题。
(3) 阐述了遗传算法的基本思想,并描述了遗传算法的一种改进算法即自适应遗传算法。
(4) 将遗传算法引入到朴素贝叶斯分类研究中,提出一种基于遗传算法的朴素贝叶斯分类算法(G_NBC),该算法为避免数据预处理时,训练集的噪音及数据规模过大使属性约简的效果不太理想,并进而影响分类效果的问题,在训练集上通过随机属性选取生成若干属性子集,并以这些子集构建相应的朴素贝叶斯分类器,进而采用遗传算法进行优选。实验表明了该算法的有效性。