收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于属性选择的朴素贝叶斯分类研究与应用

杜婷  
【摘要】:贝叶斯分类方法能够较好地处理各种数据类型,随着中医诊断在规范化和量化方面的进步,越来越多的学者将贝叶斯分类方法应用在中医诊断中。朴素贝叶斯分类算法(NBC)作为其经典算法之一,具有结构简单、计算高效的优点。但NBC基本条件独立性的假设,限制了其使用范围;另外,随着数据量的增大,在实际数据集中常存在一些冗余属性,降低了NBC的学习效率和分类性能。为了更好地适应实际需求,本文以NBC为基本对象,从属性选择、属性加权和结构扩展三个方而对NBC进行改进,并将改进后的模型应用到不孕症中医诊断问题中,通过实验验证了其有效性和准确性。首先,为提高分类准确率,本文提出一种基于 KL距离与分裂信息的属性权值计算方法,并将此权值作为隐朴素贝叶斯模型(HNB)中属性的加权系数,提出一种改进的加权隐朴素贝叶斯分类算法(WHNBC)。实验结果表明了与其他分类算法相比,WHNBC算法提高了分类准确率,这也从侧面验证了本文提出的属性权值计算方法的正确性和有效性。其次,针对实际应用数据中存在冗余或无关属性的问题,本文在基于相关的属性选择算法基础上引入了Pearson相关系数和属性之间相关度方差的概念,提出了VCFSPabs属性选择算法。实验结果验证了该算法可以有效地去除冗余属性并获得良好的属性子集。然后,在属性子集和WHNBC算法的基础上,本文提出了一种基于属性选择的改进加权隐朴素贝叶斯分类模型(AS-WHNB),该模型主要由属性选择、属性权值计算以及模型的分类训练三部分组成。其中,在模型分类训练部分,我们将属性选择部分获得的属性子集,进一步划分为强属性子集和弱属性子集,并在两个子集上分别采用WHNBC模型和NBC模型进行训练。实验结果表明,当属性数目较多时,AS-WHNB分类模型不仅提高了分类准确率,还有效地降低了分类消耗时间。最后,我们对临床采集的不孕症数据集进行预处理,并将NB、C4.5、TAN、 AODE、WHNBC算法以及AS-WHNB分类模型应用到不孕症中医诊断问题中。对比并分析实际的实验结果可以发现,AS-WHNB分类模型具有较好的分类性能,这表明本文提出的AS-WHNB分类模型为不孕症中医诊断建模提供了一种好的思路和方法。


知网文化
【相似文献】
中国期刊全文数据库 前12条
1 杨葛钟啸;倪志伟;倪丽萍;梁敏君;;基于分形和邻接空间密度变化的属性选择方法[J];计算机工程与应用;2008年20期
2 刘星毅;;基于性价比的分裂属性选择方法[J];计算机应用;2009年03期
3 郑麟;;基于贡献因子的改进决策树属性选择方法[J];汕头大学学报(自然科学版);2013年01期
4 焦鹏;王新政;谢鹏远;;基于属性选择法的朴素贝叶斯分类器性能改进[J];电讯技术;2013年03期
5 杨成东;邓廷权;;综合属性选择和删除的属性约简方法[J];智能系统学报;2013年02期
6 杨秋洁;胡学钢;;一种属性选择方法FS-IV的研究[J];合肥工业大学学报(自然科学版);2010年12期
7 蔡月红;朱倩;孙萍;程显毅;;基于属性选择的半监督短文本分类算法[J];计算机应用;2010年04期
8 郑丽萍;姜华;李俊青;;基于PSO的属性选择方法[J];计算机工程与科学;2011年06期
9 喻小光;陈维斌;陈荣鑫;;一种数据规约的近似挖掘方法的实现[J];华侨大学学报(自然科学版);2008年03期
10 谢妞妞;刘於勋;;决策树属性选择标准的改进[J];计算机工程与应用;2010年34期
11 刘星毅;;一种新的决策树分裂属性选择方法[J];计算机技术与发展;2008年05期
12 ;[J];;年期
中国重要会议论文全文数据库 前1条
1 朱佳贤;;无指导学习环境下基于属性相关性分析和聚类算法的属性选择问题研究[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
中国硕士学位论文全文数据库 前10条
1 李静宽;代价约束下的属性选择问题[D];闽南师范大学;2015年
2 杜婷;基于属性选择的朴素贝叶斯分类研究与应用[D];中国科学技术大学;2016年
3 朱佳贤;无指导学习环境下属性选择问题应用研究[D];上海财经大学;2005年
4 徐黎明;基于粗糙集合的属性选择方法研究[D];北京交通大学;2007年
5 邵进智;基于属性间相关性分析的属性选择方法研究[D];北京交通大学;2009年
6 王文涛;符号属性数据的半监督聚类与属性选择[D];浙江大学;2013年
7 刘鸣鸣;几类复杂体系的分类及属性选择问题研究[D];大连理工大学;2009年
8 曹源;基于属性间相关性分类理论的属性选择方法研究[D];北京交通大学;2008年
9 曾德志;数据挖掘中基于统计相关的属性选择研究[D];西南财经大学;2009年
10 文专;基于神经网络的分类数据挖掘属性选择和规则抽取研究[D];天津大学;2004年
中国重要报纸全文数据库 前1条
1 山东 连仁包;用Delphi实现图片浏览功能[N];电脑报;2001年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978