收藏本站
《南京理工大学》 2009年 博士论文
收藏 | 手机打开
二维码
手机客户端打开本文

分类器集成研究

谢元澄  
【摘要】: 集成学习是机器学习领域四个主要研究方向之一,集成是指构建一个分类器的集合,并通过基分类器预测进行(权重)投票给出新数据的分类结果。集成学习在实际问题解决上已得到了广范的应用。集成学习最早被用来提高模型性能,或者减小选择到一个差分类器的可能性。集成学习其他的应用还包括赋予决策判决以置信度、选择优化特征、数据融合、增量学习、不稳定学习和纠错。尽管集成学习还缺乏一个统一的理论框架,但关于对多个分类器的集成仍然产生了很多相关的理论,并且有许多试验也证明了这种方式的有效性。本文主要研究了以下问题:集成学习标签设计、集成误差分析、快速选择性集成,基于集成的噪声检测,聚类分割模型空间,基于ACS (Adaptive Clustering Sampling)的集成学习和基于选择性集成的增量追踪技术。 (一)证明了在n维空间总可以构造出n+1个对称矢量,并以此为基础提出了矢量标签的概念,基于矢量标签实现了多数投票法和平均法的统一,这一特点使得用于解决二分类问题的集成学习算法都可以自动升级为多分类算法。对Korgh 1995年关于集成学习的误差分析理论作了进一步深入,从实验和理论上说明了集成学习的性能除了取决于基分类器之间的差异度,同时不能忽视基分类器个体的性能。实验证明增大基分类器规模和提高基分类器性能可以明显提高选择性集成的性能。并相应设计了排序Bagging (Bootstrap aggregating)算法和随机化Bagging算法,这两种算法只需增加很小的附加运算量就可以在某些数据集上提升Bagging算法的性能。 (二)打破原有选择性集成算法只考虑差异度的思路,提出从同质化的角度研究选择性集成。设计算法,分别从同质化角度以及同质化结合差异化角度进行选择性集成,在个别数据集上其性能接近和超过GASEN (Genetic Algorithm Selective ENsemble)算法。提出层次化修剪技术,解决了大规模基分类器的选择性集成问题,以此为基础进一步提出了快速选择性集成算法。该算法选择性集成速度较GASEN和CLU_ENN (CLUstering Ensembles of Neural Network)要快得多。并且该算法具备并行处理能力,在目前并行计算已非常廉价的前提下具有较强的应用价值。 (三)提出了基于聚类和Boosting的Bagging修剪算法,进一步提出了基于聚类选择的AdaBoost (Adaptive Boost)加速算法,这两种算法在基分类器集合规模较大时性能都可以接近AdaBoost算法,同时训练时间要少一个数量级。基于Boosting检测噪声试验,提出了“伪噪声”概念,并分析了在噪声剔除过程中各类误删和漏删情况以及相应的后果。进而提出基于Cascade的噪声删除策略和弱Boosting算法来增强对噪声的检测能力。最后结合K-NN算法、Boosting算法和Cascade技术提出了全新的噪声删除算法,性能优异,且速度明显快于AdaBoost。 (四)基于“分而治之”和“拼贴”思想分析集成学习,以此为基础提出了使用聚类分割数据模型空间的思想,并说明此时的聚类与传统聚类两者的异同。基于“分而治之”以及对Bootstrap技术和AdaBoost技术的分析,引入ACS采样技术,并对其作适当调整以适应机器学习。使得弱分类器不再是进行盲目学习而是能够进行有目的学习,也即通过ACS采样技术,结合矢量标签我们可以控制弱分类器的学习行为。进一步提出了ACS-Randomization算法,该算法仅通过调节参数就可以实现Bagging, Randomization, Random-Bagging等算法。通过调节参数,可以使得该算法可以在不同类型的数据集上都获得较为理想的效果,也即可以针对不同类型数据集调节相应的学习强度和噪声抑制能力。该算法的试验还说明了噪声抑制和学习能力之间是一种难以调和的关系。 (五)从机器学习的角度分析并提出跟踪任务的本质是增量学习。使用选择性集成技术来实现对目标跟踪的增量学习,同时完成噪声检测与剔除。根据跟踪任务的特点,提出了背景预测技术。并在跟踪任务中使用了HSV颜色空间模型下Walsh局部纹理特征提取,取得了理想的效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 凌霄汉;吉根林;;一种基于聚类集成的无监督特征选择方法[J];南京师范大学学报(工程技术版);2007年03期
2 刘郁,陈耘志,张兵;图像挖掘中利用类特征集成的自动学习算法研究[J];电脑知识与技术;2005年30期
3 贾瑞玉;冯伦阔;李永顺;张新建;;基于集成学习的覆盖算法[J];计算机技术与发展;2009年07期
4 时雷;虎晓红;席磊;;基于集成学习的网页分类算法[J];郑州大学学报(理学版);2009年03期
5 王昕昕;;基于遗传算法的分类方法讨论[J];电脑知识与技术;2009年33期
6 张新东;亢俊健;陈嶷瑛;李文斌;;选择分类器进行入侵检测[J];微计算机信息;2010年06期
7 徐冲;王汝传;任勋益;;基于集成学习的入侵检测方法[J];计算机科学;2010年07期
8 李烨,蔡云泽,许晓鸣;基于支持向量机集成的故障诊断[J];控制工程;2005年S2期
9 琚旭;王浩;姚宏亮;;基于Boosting的支持向量机组合分类器[J];合肥工业大学学报(自然科学版);2006年10期
10 蔡铁;伍星;李烨;;集成学习中基于离散化方法的基分类器构造研究[J];计算机应用;2008年08期
11 赵洋;冀俊忠;李文斌;;基于复杂网络的分类器融合[J];科学技术与工程;2008年14期
12 吴焕政;吴渝;肖开州;;基于粗糙集和集成学习的BBS网络舆情分类[J];广西大学学报(自然科学版);2009年05期
13 张振宇;;稳健的多支持向量机自适应提升算法[J];大连交通大学学报;2010年02期
14 徐鹤;王锁萍;王汝传;赵丹;;基于神经网络集成的P2P流量识别研究[J];南京邮电大学学报(自然科学版);2010年03期
15 吴科主;江雨燕;周传华;;一种多层次选择性集成学习算法[J];计算机应用与软件;2011年01期
16 付彬;王志海;王中锋;;最大化边际的分类器选取算法[J];计算机科学与探索;2011年01期
17 周光明;基于解释学习中的不完善理论问题[J];电脑开发与应用;2004年03期
18 俞扬;周志华;;集成学习中完全随机学习策略研究[J];计算机工程;2006年17期
19 常卫东;;基于集成学习的智能入侵检测系统[J];中国科技信息;2006年22期
20 陈华;魏连;郑志娴;许榕生;;基于集成学习的网络取证模型[J];福建电脑;2007年10期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
3 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
4 张红梅;高海华;王行愚;;抑制样本噪声的AdaBoost算法及其在入侵检测中的应用[A];2007年中国智能自动化会议论文集[C];2007年
5 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 付焕焕;李俊;张洁;;入侵检测中机器学习算法的集成[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
7 张红梅;;基于粗糙集特征约简的SVM集成入侵检测模型[A];2009中国控制与决策会议论文集(3)[C];2009年
8 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
9 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
10 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
2 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
3 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
4 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
5 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
6 苏强;基于数据挖掘算法的环境毒物QSAR研究[D];上海大学;2013年
7 宋相法;基于稀疏表示和集成学习的若干分类问题研究[D];西安电子科技大学;2013年
8 孙永宣;集成学习下的图像分析关键问题研究[D];合肥工业大学;2013年
9 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
10 刘峰;贝叶斯网络结构学习算法研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 张家红;集成分类学习算法研究[D];山东师范大学;2011年
2 刘晓坤;基于遗传算法的混合学习和集成学习研究[D];天津大学;2003年
3 刘立元;基于集成学习的蛋白质亚细胞定位预测[D];济南大学;2011年
4 贺梁;基于支持向量机的集成学习算法研究[D];华南理工大学;2010年
5 李新军;基于支持向量机的建模预测研究[D];天津大学;2004年
6 李洪伟;基于模式识别和集成学习的电力系统暂态稳定评估[D];华北电力大学(河北);2010年
7 赵万鹏;基于Adaboost算法的数字识别技术的研究与应用[D];中国科学院研究生院(成都计算机应用研究所);2006年
8 王晓芹;类别不平衡数据的集成学习研究[D];山东师范大学;2010年
9 王体龙;基于置信区间的贝叶斯网参数学习算法及集成学习研究[D];吉林大学;2008年
10 杜健;基于神经遗传学习算法的模型优化研究[D];天津大学;2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978