收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

具有降维容噪特性的决策树算法改进

王伟  
【摘要】:随着信息技术的迅速发展,高维数据在社会科学和自然科学研究领域广泛出现,一方面带来了更多可用信息,另一方面给数据的处理分析带来了巨大挑战。尤其是随着数据挖掘技术的广泛应用,数据挖掘分类结果对噪声敏感已成为一个不容忽视的问题,这就要求进一步优化现有分类技术。为了提升分类算法对高噪声环境中的高维数据的预测能力,本文以C4.5决策树分类算法为优化对象并进行深入研究,运用容噪主成分分析(Noise-free Principal Component Analysis,NFPCA)的算法思想对传统C4.5算法改进,提出了NFPCA-in-C4.5算法,来解决高维数据的高噪声问题带来的决策树预测准确率下降问题。主要工作包括:(1)详细地从PCA算法机制上分析了含噪声的高维数据经过PCA算法降维处理后,所得主成分空间仍受噪声污染的原因;然后综合考虑了高维高噪声数据的高维度和高噪声因素对决策树分类模型预测效果影响,运用NFPCA算法思想将高维数据的噪声控制问题转化为拟合数据特征与控制平滑度相结合的最优化问题,此最优化问题符合正则化最小二乘问题定义,经求解可获得相对无噪声的主成分空间,这样不仅降低了维度,更减弱了噪声的影响。(2)在构造决策树模型过程中,充分利用了决策树自顶向下递归构建新节点的特性。首先,当构建父节点时,将原始数据空间通过NFPCA算法转换到主成分空间;然后将主成分空间数据集基于信息熵的属性选择方式进行划分;最后,构建子节点时,将划分后的各数据子集恢复到原始数据空间。通过此种原始数据空间和主成分空间在父节点和子节点之间的映射转换与再恢复,避免了降维过程中信息损失,降低了信息损失对C4.5算法预测准确率的影响。本文通过实验对比了C4.5和NFPCA-in-C4.5算法的准确率变化和预测模型规模变化,来体现NFPCA-in-C4.5算法的性能优势。实验结果表明本文提出的NFPCA-in-C4.5算法针对高维高噪数据的特点,充分利用决策树中父、子节点数据集之间关系的特性,将NFPCA降噪处理融合进入C4.5算法的构造过程中,在不断的节点构建中达到降维降噪的目的,改变了传统降噪处理仅作为预处理的现状,使得NFPCA-in-C4.5算法兼具降维和容噪功能,提高了决策树算法的健壮性,避免了降维中特征信息损失和噪声残留造成的预测模型准确率大幅降低问题,保证了高维高噪声数据环境中预测结果的稳定性和模型结构的简洁性和稳定性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 邱涛;李雯;;决策树算法在智能导学系统中的应用[J];计算机技术与发展;2009年12期
2 柴伟杰;付志兵;王志芳;;决策树算法在应急预案评估中的应用分析[J];无线电工程;2011年07期
3 王秀岩;;决策树算法及其应用[J];电子技术与软件工程;2014年05期
4 姚家奕,姜海,王秦;决策树算法的系统实现与修剪优化[J];计算机工程与设计;2002年08期
5 潘永生,庄天戈;决策树算法及其在乳腺疾病图像数据挖掘中的应用[J];计算机应用研究;2002年09期
6 王熙照,孙娟,杨宏伟,赵明华;模糊决策树算法与清晰决策树算法的比较研究[J];计算机工程与应用;2003年21期
7 尹阿东,宫雨,吴胜利,武森,高学东,李拥军;增量决策树算法及复杂度分析[J];北京科技大学学报;2004年02期
8 王静红,王熙照,邵艳华,王伍伶;决策树算法的研究及优化[J];微机发展;2004年09期
9 王曙燕,耿国华,李丙春;决策树算法在医学图像数据挖掘中的应用[J];西北大学学报(自然科学版);2005年03期
10 尹阿东,郭秀颖,宫雨,龙誉,高学东;增量决策树算法研究[J];微机发展;2005年02期
11 张彦;刘暾东;李茂青;;基于信息论的决策树算法探讨[J];自动化技术与应用;2006年01期
12 龙际珍;任海叶;易华容;;一种改进决策树算法的探讨[J];株洲师范高等专科学校学报;2006年02期
13 冯少荣;;决策树算法的研究与改进[J];厦门大学学报(自然科学版);2007年04期
14 张维东;朱宏明;周闻钧;;决策树算法在蛋白质二级结构预测问题中的应用研究[J];微型电脑应用;2009年02期
15 宋广玲;郝忠孝;吴海燕;;改进的多关系决策树算法[J];计算机应用研究;2009年12期
16 张琼声;陈晓伟;李春华;刘童璇;;一种基于属性加权的决策树算法[J];微计算机应用;2010年01期
17 陆瑞兴;杨颖;张毅;;决策树算法在物流仓储中的研究与应用[J];微计算机信息;2010年30期
18 王源;王甜甜;;改进决策树算法的应用研究[J];电子科技;2010年09期
19 张林;张昊;;决策树算法分析及其在实际应用中的改进[J];铜陵学院学报;2010年06期
20 张如;;基于决策树算法的高职学生英语四级通过情况的预测研究[J];电脑知识与技术;2011年11期
中国重要会议论文全文数据库 前3条
1 韩松来;张辉;周华平;;决策树算法中多值偏向问题的理论分析[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
2 杨林权;吕维先;;基于决策树算法的SimuroSot决策程序设计[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
3 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
中国硕士学位论文全文数据库 前10条
1 王伟;具有降维容噪特性的决策树算法改进[D];郑州大学;2015年
2 薛砚丹;基于决策树算法的高校财务管理与决策分析研究[D];宁夏大学;2015年
3 高帆;基于面向对象决策树算法的土地利用遥感分类初步研究[D];云南师范大学;2015年
4 龙志勇;基于并行化的决策树算法优化及其应用研究[D];浙江大学;2015年
5 杨娜;基于决策树算法的供应商评估研究[D];中南民族大学;2010年
6 李旭;五种决策树算法的比较研究[D];大连理工大学;2011年
7 Harold Buko DADYE;[D];湖南大学;2013年
8 张悦;前向决策树算法的研究与改进[D];河北大学;2010年
9 王琴;决策树算法在高校研究生就业信息库中的应用研究[D];武汉理工大学;2010年
10 孙石磊;决策树算法研究及其在城建档案收集管理中的应用[D];河北工业大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978