收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

集成学习中若干关键问题的研究

王清  
【摘要】:分类是机器学习和数据挖掘中的一项重要任务,在现实生活中有着广泛的应用。例如,根据邮件的标题和内容判断其是否为垃圾邮件,根据病人的各项检测指标判断其是否患有某种疾病等。目前已经提出了许多分类学习算法,如决策树、贝叶斯网络、人工神经网络、支持向量机等。 集成学习通过训练若干有差异的学习器,并将它们的预测结果进行合成。相对于单个学习器,集成学习算法在大多数情况下可以显著提高学习系统的泛化能力,因此对集成学习理论和算法的研究一直是机器学习领域的一个重点和热点。 为了构造一个强的集成学习系统,现在一般认为,集成中各个体学习器应该具有较高的精度并且个体之间具有较高的差异度。目前已经提出了许多集成方法,如Bagging、AdaBoost、Random Subspace、Random Forest等。虽然这些算法获得了广泛的关注,并在许多现实的应用中取得了良好的效果,但是仍然存在许多关键问题需要改进和完善,其中包括:Bagging算法只适用于不稳定的分类器;AdaBoost算法容易过拟合有噪声的训练数据因而健壮性较差,同时不支持并行化;Random Subspace仅适用于含有大量冗余特征的数据;对于一些特定的学习算法如朴素贝叶斯、支持向量机等,现有集成算法的提升能力均十分有限,等等。这些问题表明我们有必要设计基于其它思路的集成学习算法以弥补现有算法的不足。 本文在分析现有集成算法现状的基础上,围绕基于处理输入属性和类别属性以设计有效的集成算法问题展开了深入的研究,另外还研究了中心化矩阵广义逆的在线更新问题。具体来说,本文的主要工作和创新点如下: 1.研究了基于多任务学习思想的决策树集成算法,提出了一种新的决策树集成算法MTForest。该算法通过枚举使用每个输入属性作为辅助任务和类别属性来共同决定决策树构建过程中每个节点的最佳划分,以建立集成中的个体决策树分类器。 2.分析了现有基于处理类别标记的集成算法的不足,首次提出了能够同时适用于两类和多类学习问题的基于处理类别标记的集成算法MACLEN。该算法通过枚举每个输入属性和类别属性来构建一系列具有不同偏置的新类别标记的集合,通过对每个新的类别标记表示的问题进行学习得到若干有差异的个体分类器,最后将它们对新样例的预测结果进行结合作为集成的最终输出。 3.研究了基于弱化朴素贝叶斯条件独立假设的集成算法,提出了完全随机贝叶斯分类器集成算法RBNC。该算法使用随机搜索的方式来构建集成中的个体分类器,即在朴素贝叶斯的结构之上,使用完全随机化的方式确定每个属性的父节点。该算法的优点是避免了结构学习的高计算复杂度,弱化了条件独立假设以及通过集成避免了个体随机结构导致的高方差。 4.此外,本文还研究了中心化矩阵广义逆的在线更新问题,首次给出了当向矩阵中插入一列(行)数据或删除已有的一列(行)数据时,其对应的中心化矩阵广义逆的精确更新公式。同时我们将此结果应用到在线维数约简问题中,提出了在线最小二乘线性判别分析(LS-OLDA)算法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘郁,陈耘志,张兵;图像挖掘中利用类特征集成的自动学习算法研究[J];电脑知识与技术;2005年30期
2 贾瑞玉;冯伦阔;李永顺;张新建;;基于集成学习的覆盖算法[J];计算机技术与发展;2009年07期
3 时雷;虎晓红;席磊;;基于集成学习的网页分类算法[J];郑州大学学报(理学版);2009年03期
4 王昕昕;;基于遗传算法的分类方法讨论[J];电脑知识与技术;2009年33期
5 张新东;亢俊健;陈嶷瑛;李文斌;;选择分类器进行入侵检测[J];微计算机信息;2010年06期
6 徐冲;王汝传;任勋益;;基于集成学习的入侵检测方法[J];计算机科学;2010年07期
7 李烨,蔡云泽,许晓鸣;基于支持向量机集成的故障诊断[J];控制工程;2005年S2期
8 琚旭;王浩;姚宏亮;;基于Boosting的支持向量机组合分类器[J];合肥工业大学学报(自然科学版);2006年10期
9 蔡铁;伍星;李烨;;集成学习中基于离散化方法的基分类器构造研究[J];计算机应用;2008年08期
10 赵洋;冀俊忠;李文斌;;基于复杂网络的分类器融合[J];科学技术与工程;2008年14期
11 吴焕政;吴渝;肖开州;;基于粗糙集和集成学习的BBS网络舆情分类[J];广西大学学报(自然科学版);2009年05期
12 张振宇;;稳健的多支持向量机自适应提升算法[J];大连交通大学学报;2010年02期
13 徐鹤;王锁萍;王汝传;赵丹;;基于神经网络集成的P2P流量识别研究[J];南京邮电大学学报(自然科学版);2010年03期
14 吴科主;江雨燕;周传华;;一种多层次选择性集成学习算法[J];计算机应用与软件;2011年01期
15 付彬;王志海;王中锋;;最大化边际的分类器选取算法[J];计算机科学与探索;2011年01期
16 周光明;基于解释学习中的不完善理论问题[J];电脑开发与应用;2004年03期
17 俞扬;周志华;;集成学习中完全随机学习策略研究[J];计算机工程;2006年17期
18 常卫东;;基于集成学习的智能入侵检测系统[J];中国科技信息;2006年22期
19 陈华;魏连;郑志娴;许榕生;;基于集成学习的网络取证模型[J];福建电脑;2007年10期
20 王建敏;李铁军;董允强;;基于神经网络集成学习的智能决策支持系统构建[J];电脑知识与技术;2008年27期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
3 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
4 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 张红梅;高海华;王行愚;;抑制样本噪声的AdaBoost算法及其在入侵检测中的应用[A];2007年中国智能自动化会议论文集[C];2007年
6 付焕焕;李俊;张洁;;入侵检测中机器学习算法的集成[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
7 张红梅;;基于粗糙集特征约简的SVM集成入侵检测模型[A];2009中国控制与决策会议论文集(3)[C];2009年
8 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
9 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
10 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
2 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
3 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
4 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
5 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
6 苏强;基于数据挖掘算法的环境毒物QSAR研究[D];上海大学;2013年
7 宋相法;基于稀疏表示和集成学习的若干分类问题研究[D];西安电子科技大学;2013年
8 孙永宣;集成学习下的图像分析关键问题研究[D];合肥工业大学;2013年
9 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
10 刘峰;贝叶斯网络结构学习算法研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 张家红;集成分类学习算法研究[D];山东师范大学;2011年
2 刘晓坤;基于遗传算法的混合学习和集成学习研究[D];天津大学;2003年
3 刘立元;基于集成学习的蛋白质亚细胞定位预测[D];济南大学;2011年
4 贺梁;基于支持向量机的集成学习算法研究[D];华南理工大学;2010年
5 李新军;基于支持向量机的建模预测研究[D];天津大学;2004年
6 李洪伟;基于模式识别和集成学习的电力系统暂态稳定评估[D];华北电力大学(河北);2010年
7 赵万鹏;基于Adaboost算法的数字识别技术的研究与应用[D];中国科学院研究生院(成都计算机应用研究所);2006年
8 王晓芹;类别不平衡数据的集成学习研究[D];山东师范大学;2010年
9 王体龙;基于置信区间的贝叶斯网参数学习算法及集成学习研究[D];吉林大学;2008年
10 杜健;基于神经遗传学习算法的模型优化研究[D];天津大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978