收藏本站
《山东科技大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

集成学习算法研究

马冉冉  
【摘要】:集成学习使用多个学习器来解决同一问题,能够显著提高学习系统的泛化能力,成为近年来机器学习领域中一个重要的研究方向。尽管集成学习的经典算法族Boosting和Bagging已经研究得比较深入,但目前关于集成学习算法的设计还没有统一的规则可循,因此继续从其他角度来研究性能更好的集成学习算法是一个趋势,也很有必要。选择性集成作为一种特殊的集成学习范式,它选择出个体学习器中差异大,泛化性能好的部分学习器参与集成,得到了比以往集成所有的学习器更好的性能。因此如何选择出差异大,泛化性能好的部分个体学习器成为集成学习的一个研究热点。 本文在简单介绍集成学习的相关理论,总结集成学习领域的算法和技术的基础上,主要做了以下两方面的工作: 首先,提出了一种新的基于成对约束和子集选择的集成学习算法。算法中有两个创新点,一是将半监督聚类中出现的新概念(成对约束)引入到Bagging中的Bootstrap可重复采样中以得到具有更大差异性的训练子集;二是定义了一个类别离散度函数。这个函数的函数值是用来衡量训练子集中数据的类别离散程度。通过选择出类别离散程度较好的训练子集以间接实现个体学习器的选择。为了证明算法的有效性,使用10个标准UCI数据集在Matlab7.0的环境下对算法进行了测试,而且还与传统的Bagging算法进行了比较,实验结果表明该算法优于传统的Bagging算法,能获得更好的预测准确率。 其次,提出了一种基于互信息技术的选择性集成学习算法,简称为mRMR-MISEN算法。该算法将特征选择中的基于互信息的最大相关最小冗余准则用于集成学习中的个体学习器的选择。最大相关计算个体学习器在验证集上的输出与目标输出之间的互信息。互信息越大,个体学习器与目标输出越接近,预测性能越好;最小冗余计算各个个体学习器在验证集上的各个输出之间的互信息。互信息越大,两个个体学习器之间的差异性就越小。算法利用最大相关最小冗余准则来实现个体学习器的选择,不仅考虑了选择出的个体学习器的泛化能力,也充分考虑了它们之间的差异性。在Matlab7.0下使用10个标准数据集对算法进行了测试,而且与MISEM (Mutual Information Based Selective Ensemble)和CMISEN(Conditional Mutual Information Based Selective Ensemble)进行了比较,实验结果表明,该算法在预测精度上优于以上两种算法。
【学位授予单位】:山东科技大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP181

【参考文献】
中国期刊全文数据库 前6条
1 施彦,黄聪明,侯朝桢;基于改进的PSO算法的神经网络集成[J];复旦学报(自然科学版);2004年05期
2 付忠良;;关于AdaBoost有效性的分析[J];计算机研究与发展;2008年10期
3 王磊;;基于约束投影的支持向量机选择性集成[J];计算机科学;2009年10期
4 贾华丁;游志胜;王磊;;采用二重扰动机制的支持向量机的集成训练算法[J];控制与决策;2008年07期
5 郭建军;梁敬东;牛又奇;;约束聚类算法研究[J];南京师范大学学报(工程技术版);2008年04期
6 尹学松;胡思良;陈松灿;;基于成对约束的判别型半监督聚类分析[J];软件学报;2008年11期
中国硕士学位论文全文数据库 前1条
1 王丽丽;集成学习算法研究[D];广西大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 蔡坤琪;;基于相关鉴别分析和随机森林的人脸识别方法[J];安徽电子信息职业技术学院学报;2012年01期
2 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
3 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
4 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
5 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
6 钟尚平;林静;;一个基于TSVM的GIF图像通用隐写检测方法[J];北京交通大学学报;2009年02期
7 林正奎;唐焕玲;鲁明羽;王敬东;;基于特征多视图提升Naive Bayesian的Boosting改进算法[J];北京交通大学学报;2009年06期
8 张海;王尧;陈冰;胡荣祖;高红旭;赵凤起;;用Boosting算法预测多硝基芳香族化合物的密度[J];火炸药学报;2007年05期
9 张海;丁毅涛;王尧;胡荣祖;高红旭;赵凤起;;自适应梯度Boosting算法及多硝基芳香族化合物密度的主因子选择[J];火炸药学报;2011年02期
10 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Predictive Control Based on Multi-network for a Deep Seabed Mining Robot Vehicle[A];中国自动化学会控制理论专业委员会A卷[C];2011年
3 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
4 贾少春;胡秀珍;;A Method of Predicting theβ-hairpin Motifs in Proteins[A];第四届全国生物信息学与系统生物学学术大会论文集[C];2010年
5 李胜朋;王洪礼;冯剑丰;;基于不连续回归树的最大李雅谱诺夫指数计算方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
6 蒋全胜;贾民平;胡建中;许飞云;;一种基于流形学习的故障模式识别方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
7 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
8 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
9 徐云峰;;一种新的取证计算模型的研究与实现[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
10 陈华杰;韦巍;;一种基于元泛化的Bagged Boosting算法[A];2005中国控制与决策学术年会论文集(上)[C];2005年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
3 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
4 王龙金;零/低航速减摇鳍升力模型及系统控制策略研究[D];哈尔滨工程大学;2009年
5 邬俊;基于交互式语义推理的图像检索算法研究[D];大连海事大学;2010年
6 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
7 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
8 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
9 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
10 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 王萍;语音情感识别研究[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
4 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
5 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
6 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
7 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
8 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
9 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
10 左国辉;基于子空间方法的人脸识别技术研究[D];哈尔滨工程大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 李国正,杨杰,孔安生,陈念贻;基于聚类算法的选择性神经网络集成[J];复旦学报(自然科学版);2004年05期
2 武勃,黄畅,艾海舟,劳世竑;基于连续Adaboost算法的多视角人脸检测[J];计算机研究与发展;2005年09期
3 李德毅,孟海军,史雪梅;隶属云和隶属云发生器[J];计算机研究与发展;1995年06期
4 沈学华,周志华,吴建鑫,陈兆乾;Boosting和Bagging综述[J];计算机工程与应用;2000年12期
5 燕忠,袁春伟;增强型的蚁群优化算法[J];计算机工程与应用;2003年23期
6 冯兴杰,黄亚楼;带约束条件的聚类算法研究[J];计算机工程与应用;2005年07期
7 朱帮助;;基于特征提取的选择性神经网络集成方法[J];计算机科学;2008年03期
8 宋远骏,杨孝宗,李德毅,崔东华;多机多任务实时系统云调度策略[J];计算机学报;2000年10期
9 周志华,陈世福;神经网络集成[J];计算机学报;2002年01期
10 吕辉军,王晔,李德毅,刘常昱;逆向云在定性评价中的应用[J];计算机学报;2003年08期
【相似文献】
中国期刊全文数据库 前10条
1 凌霄汉;吉根林;;一种基于聚类集成的无监督特征选择方法[J];南京师范大学学报(工程技术版);2007年03期
2 刘郁,陈耘志,张兵;图像挖掘中利用类特征集成的自动学习算法研究[J];电脑知识与技术;2005年30期
3 贾瑞玉;冯伦阔;李永顺;张新建;;基于集成学习的覆盖算法[J];计算机技术与发展;2009年07期
4 时雷;虎晓红;席磊;;基于集成学习的网页分类算法[J];郑州大学学报(理学版);2009年03期
5 王昕昕;;基于遗传算法的分类方法讨论[J];电脑知识与技术;2009年33期
6 张新东;亢俊健;陈嶷瑛;李文斌;;选择分类器进行入侵检测[J];微计算机信息;2010年06期
7 徐冲;王汝传;任勋益;;基于集成学习的入侵检测方法[J];计算机科学;2010年07期
8 李烨,蔡云泽,许晓鸣;基于支持向量机集成的故障诊断[J];控制工程;2005年S2期
9 琚旭;王浩;姚宏亮;;基于Boosting的支持向量机组合分类器[J];合肥工业大学学报(自然科学版);2006年10期
10 蔡铁;伍星;李烨;;集成学习中基于离散化方法的基分类器构造研究[J];计算机应用;2008年08期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
3 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
4 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 张红梅;高海华;王行愚;;抑制样本噪声的AdaBoost算法及其在入侵检测中的应用[A];2007年中国智能自动化会议论文集[C];2007年
6 付焕焕;李俊;张洁;;入侵检测中机器学习算法的集成[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
7 张红梅;;基于粗糙集特征约简的SVM集成入侵检测模型[A];2009中国控制与决策会议论文集(3)[C];2009年
8 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
9 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
10 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
2 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
3 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
4 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
5 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
6 苏强;基于数据挖掘算法的环境毒物QSAR研究[D];上海大学;2013年
7 宋相法;基于稀疏表示和集成学习的若干分类问题研究[D];西安电子科技大学;2013年
8 孙永宣;集成学习下的图像分析关键问题研究[D];合肥工业大学;2013年
9 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
10 刘峰;贝叶斯网络结构学习算法研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 张家红;集成分类学习算法研究[D];山东师范大学;2011年
2 刘晓坤;基于遗传算法的混合学习和集成学习研究[D];天津大学;2003年
3 刘立元;基于集成学习的蛋白质亚细胞定位预测[D];济南大学;2011年
4 贺梁;基于支持向量机的集成学习算法研究[D];华南理工大学;2010年
5 李新军;基于支持向量机的建模预测研究[D];天津大学;2004年
6 李洪伟;基于模式识别和集成学习的电力系统暂态稳定评估[D];华北电力大学(河北);2010年
7 赵万鹏;基于Adaboost算法的数字识别技术的研究与应用[D];中国科学院研究生院(成都计算机应用研究所);2006年
8 王晓芹;类别不平衡数据的集成学习研究[D];山东师范大学;2010年
9 王体龙;基于置信区间的贝叶斯网参数学习算法及集成学习研究[D];吉林大学;2008年
10 杜健;基于神经遗传学习算法的模型优化研究[D];天津大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026