收藏本站
《南京理工大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

分类器集成研究

谢元澄  
【摘要】: 集成学习是机器学习领域四个主要研究方向之一,集成是指构建一个分类器的集合,并通过基分类器预测进行(权重)投票给出新数据的分类结果。集成学习在实际问题解决上已得到了广范的应用。集成学习最早被用来提高模型性能,或者减小选择到一个差分类器的可能性。集成学习其他的应用还包括赋予决策判决以置信度、选择优化特征、数据融合、增量学习、不稳定学习和纠错。尽管集成学习还缺乏一个统一的理论框架,但关于对多个分类器的集成仍然产生了很多相关的理论,并且有许多试验也证明了这种方式的有效性。本文主要研究了以下问题:集成学习标签设计、集成误差分析、快速选择性集成,基于集成的噪声检测,聚类分割模型空间,基于ACS (Adaptive Clustering Sampling)的集成学习和基于选择性集成的增量追踪技术。 (一)证明了在n维空间总可以构造出n+1个对称矢量,并以此为基础提出了矢量标签的概念,基于矢量标签实现了多数投票法和平均法的统一,这一特点使得用于解决二分类问题的集成学习算法都可以自动升级为多分类算法。对Korgh 1995年关于集成学习的误差分析理论作了进一步深入,从实验和理论上说明了集成学习的性能除了取决于基分类器之间的差异度,同时不能忽视基分类器个体的性能。实验证明增大基分类器规模和提高基分类器性能可以明显提高选择性集成的性能。并相应设计了排序Bagging (Bootstrap aggregating)算法和随机化Bagging算法,这两种算法只需增加很小的附加运算量就可以在某些数据集上提升Bagging算法的性能。 (二)打破原有选择性集成算法只考虑差异度的思路,提出从同质化的角度研究选择性集成。设计算法,分别从同质化角度以及同质化结合差异化角度进行选择性集成,在个别数据集上其性能接近和超过GASEN (Genetic Algorithm Selective ENsemble)算法。提出层次化修剪技术,解决了大规模基分类器的选择性集成问题,以此为基础进一步提出了快速选择性集成算法。该算法选择性集成速度较GASEN和CLU_ENN (CLUstering Ensembles of Neural Network)要快得多。并且该算法具备并行处理能力,在目前并行计算已非常廉价的前提下具有较强的应用价值。 (三)提出了基于聚类和Boosting的Bagging修剪算法,进一步提出了基于聚类选择的AdaBoost (Adaptive Boost)加速算法,这两种算法在基分类器集合规模较大时性能都可以接近AdaBoost算法,同时训练时间要少一个数量级。基于Boosting检测噪声试验,提出了“伪噪声”概念,并分析了在噪声剔除过程中各类误删和漏删情况以及相应的后果。进而提出基于Cascade的噪声删除策略和弱Boosting算法来增强对噪声的检测能力。最后结合K-NN算法、Boosting算法和Cascade技术提出了全新的噪声删除算法,性能优异,且速度明显快于AdaBoost。 (四)基于“分而治之”和“拼贴”思想分析集成学习,以此为基础提出了使用聚类分割数据模型空间的思想,并说明此时的聚类与传统聚类两者的异同。基于“分而治之”以及对Bootstrap技术和AdaBoost技术的分析,引入ACS采样技术,并对其作适当调整以适应机器学习。使得弱分类器不再是进行盲目学习而是能够进行有目的学习,也即通过ACS采样技术,结合矢量标签我们可以控制弱分类器的学习行为。进一步提出了ACS-Randomization算法,该算法仅通过调节参数就可以实现Bagging, Randomization, Random-Bagging等算法。通过调节参数,可以使得该算法可以在不同类型的数据集上都获得较为理想的效果,也即可以针对不同类型数据集调节相应的学习强度和噪声抑制能力。该算法的试验还说明了噪声抑制和学习能力之间是一种难以调和的关系。 (五)从机器学习的角度分析并提出跟踪任务的本质是增量学习。使用选择性集成技术来实现对目标跟踪的增量学习,同时完成噪声检测与剔除。根据跟踪任务的特点,提出了背景预测技术。并在跟踪任务中使用了HSV颜色空间模型下Walsh局部纹理特征提取,取得了理想的效果。
【学位授予单位】:南京理工大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP181

手机知网App
【引证文献】
中国博士学位论文全文数据库 前4条
1 兰义华;基于图像内容检索的乳腺肿块诊断方法研究[D];华中科技大学;2011年
2 牛小飞;基于遗传规划和集成学习的Web Spam检测关键技术研究[D];山东大学;2012年
3 翟成珺;图像识别技术在猪蓝耳病诊断中的应用研究[D];内蒙古农业大学;2012年
4 王惠亚;基于分类的复杂数据处理方法研究[D];西北大学;2013年
中国硕士学位论文全文数据库 前8条
1 周菲菲;旋转不变的脱机手写体数字识别方法研究[D];苏州大学;2011年
2 杨丽丽;基于人工神经网络的手写数字模式识别和分类[D];中北大学;2012年
3 汪为汉;IPv6网络流量分类识别技术研究[D];重庆大学;2012年
4 王海波;基于有效性的聚类集成研究及其在机场噪声评价中的应用[D];南京航空航天大学;2012年
5 李高亮;基于X射线图像的汽车轮毂缺陷自动检测与识别技术研究[D];中北大学;2013年
6 陈晓平;基于分类器选择集成的入侵检测方法研究[D];河南理工大学;2012年
7 徐诚;基于自主学习的复杂目标跟踪算法研究[D];湖北工业大学;2013年
8 郭文利;基于集成学习的非平衡数据集分类问题的研究[D];西安电子科技大学;2013年
【参考文献】
中国期刊全文数据库 前3条
1 李国正,杨杰,孔安生,陈念贻;基于聚类算法的选择性神经网络集成[J];复旦学报(自然科学版);2004年05期
2 李凯,黄厚宽;一种基于聚类技术的选择性神经网络集成方法[J];计算机研究与发展;2005年04期
3 涂承胜;刁力力;鲁明羽;陆玉昌;;Boosting家族AdaBoost系列代表算法[J];计算机科学;2003年03期
【共引文献】
中国期刊全文数据库 前10条
1 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
2 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
3 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
4 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
5 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
6 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
7 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
8 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
9 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
10 王斌;;基于聚类的决策树在玉米种质筛选中的应用[J];安徽农业科学;2011年33期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
3 ;Predictive Control Based on Multi-network for a Deep Seabed Mining Robot Vehicle[A];中国自动化学会控制理论专业委员会A卷[C];2011年
4 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
5 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
6 韩秋蕾;姚志军;;基于相关滤波器的复杂背景行人探测跟踪算法[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
7 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 蒋全胜;贾民平;胡建中;许飞云;;一种基于流形学习的故障模式识别方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
9 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
10 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
3 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
4 邬俊;基于交互式语义推理的图像检索算法研究[D];大连海事大学;2010年
5 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
6 汤义;智能交通系统中基于视频的行人检测与跟踪方法的研究[D];华南理工大学;2010年
7 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
8 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
9 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
10 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 马冉冉;集成学习算法研究[D];山东科技大学;2010年
2 王萍;语音情感识别研究[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
5 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
6 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
7 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
8 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
9 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
10 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 姚筠;黄勇;;基于灰度共生矩阵的最小值去除法大气校正效果分析[J];安徽农业科学;2008年23期
2 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
3 李玉文;张海军;王英伟;隋祥;;机场航空噪声预测及方法改进[J];环境科学与管理;2008年04期
4 杜慧茜,梅文博,李德生;一种改进的BP神经网络在遥感图像分类中的应用[J];北京理工大学学报;1998年04期
5 董林,陈锡先,唐远炎,吴善培;一种新的手写体数字识别方法[J];北京邮电大学学报;1997年01期
6 方力智;张翠芳;易芳;;基于改进差分进化算法的RBF神经网络优化方法[J];成都大学学报(自然科学版);2009年03期
7 梁莉;郭科;徐松浦;;基于小波神经网络的邮件分类算法研究[J];成都理工大学学报(自然科学版);2007年05期
8 田娟;郑郁正;;模板匹配技术在图像识别中的应用[J];传感器与微系统;2008年01期
9 刘金梅;杨力;罗迟星;;基于数学形态学和小波融合的红外图像去噪[J];弹箭与制导学报;2010年05期
10 沈颖,陈荣生,吴新泉;机场周围飞机噪声评价指标研究[J];东南大学学报;1999年05期
中国重要会议论文全文数据库 前1条
1 李智超;余慧佳;马少平;;使用支持向量机进行作弊页面识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 许向阳;乳腺钼靶图像中肿块检测方法研究[D];华中科技大学;2010年
2 李军;不平衡数据学习的研究[D];吉林大学;2011年
3 李明;面向计算机辅助诊断的胶囊内镜图像处理与分析技术研究[D];华中科技大学;2011年
4 吕宗磊;对聚类及聚类评价若干问题的研究[D];南京航空航天大学;2009年
5 赵强利;基于选择性集成的在线机器学习关键技术研究[D];国防科学技术大学;2010年
6 熊家军;基于数据挖掘的入侵检测关键技术研究[D];华中科技大学;2004年
7 赵恒;数据挖掘中聚类若干问题研究[D];西安电子科技大学;2005年
8 徐伟栋;乳腺X线图像的计算机辅助诊断技术研究[D];浙江大学;2006年
9 陈海霞;面向数据挖掘的分类器集成研究[D];吉林大学;2006年
10 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
中国硕士学位论文全文数据库 前10条
1 冯东庆;基于链接分析的网页排序作弊检测方法研究[D];吉林大学;2011年
2 宋静;SVM与AdaBoost算法的应用研究[D];大连海事大学;2011年
3 张艳芳;贝叶斯网络在手写数字识别中的应用与研究[D];华北电力大学;2011年
4 肖永刚;基于梯度特征和级联分类的快速行人检测[D];天津大学;2010年
5 吴伟;智能视频监控中目标跟踪算法研究及应用[D];中国科学技术大学;2011年
6 高洪涛;支持向量机集成方法研究[D];河北大学;2011年
7 付焕焕;基于集成学习的入侵检测系统的研究与实现[D];南京航空航天大学;2010年
8 孙宸;基于半监督在线学习的跟踪算法研究[D];上海交通大学;2012年
9 姜苏迪;核主成分分析在企业经济效益分析中的应用[D];哈尔滨工程大学;2011年
10 张俊生;基于动态阈值分割的汽车轮毂缺陷检测技术研究[D];中北大学;2012年
【二级引证文献】
中国博士学位论文全文数据库 前1条
1 郝欣;基于乳腺X线肿块影像的计算机辅助诊断技术研究[D];浙江大学;2013年
中国硕士学位论文全文数据库 前1条
1 赵盛荣;基于Gmac模型的乳腺肿块分割[D];华中科技大学;2012年
【二级参考文献】
中国期刊全文数据库 前2条
1 吴建鑫,周志华,沈学华,陈兆乾;一种选择性神经网络集成构造方法[J];计算机研究与发展;2000年09期
2 周志华,陈世福;神经网络集成[J];计算机学报;2002年01期
【相似文献】
中国期刊全文数据库 前10条
1 刘郁,陈耘志,张兵;图像挖掘中利用类特征集成的自动学习算法研究[J];电脑知识与技术;2005年30期
2 贾瑞玉;冯伦阔;李永顺;张新建;;基于集成学习的覆盖算法[J];计算机技术与发展;2009年07期
3 时雷;虎晓红;席磊;;基于集成学习的网页分类算法[J];郑州大学学报(理学版);2009年03期
4 王昕昕;;基于遗传算法的分类方法讨论[J];电脑知识与技术;2009年33期
5 张新东;亢俊健;陈嶷瑛;李文斌;;选择分类器进行入侵检测[J];微计算机信息;2010年06期
6 徐冲;王汝传;任勋益;;基于集成学习的入侵检测方法[J];计算机科学;2010年07期
7 李烨,蔡云泽,许晓鸣;基于支持向量机集成的故障诊断[J];控制工程;2005年S2期
8 琚旭;王浩;姚宏亮;;基于Boosting的支持向量机组合分类器[J];合肥工业大学学报(自然科学版);2006年10期
9 蔡铁;伍星;李烨;;集成学习中基于离散化方法的基分类器构造研究[J];计算机应用;2008年08期
10 赵洋;冀俊忠;李文斌;;基于复杂网络的分类器融合[J];科学技术与工程;2008年14期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
3 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
4 张红梅;高海华;王行愚;;抑制样本噪声的AdaBoost算法及其在入侵检测中的应用[A];2007年中国智能自动化会议论文集[C];2007年
5 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 付焕焕;李俊;张洁;;入侵检测中机器学习算法的集成[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
7 张红梅;;基于粗糙集特征约简的SVM集成入侵检测模型[A];2009中国控制与决策会议论文集(3)[C];2009年
8 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
9 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
10 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
2 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
3 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
4 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
5 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
6 苏强;基于数据挖掘算法的环境毒物QSAR研究[D];上海大学;2013年
7 宋相法;基于稀疏表示和集成学习的若干分类问题研究[D];西安电子科技大学;2013年
8 孙永宣;集成学习下的图像分析关键问题研究[D];合肥工业大学;2013年
9 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
10 刘峰;贝叶斯网络结构学习算法研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 张家红;集成分类学习算法研究[D];山东师范大学;2011年
2 刘晓坤;基于遗传算法的混合学习和集成学习研究[D];天津大学;2003年
3 刘立元;基于集成学习的蛋白质亚细胞定位预测[D];济南大学;2011年
4 贺梁;基于支持向量机的集成学习算法研究[D];华南理工大学;2010年
5 李新军;基于支持向量机的建模预测研究[D];天津大学;2004年
6 李洪伟;基于模式识别和集成学习的电力系统暂态稳定评估[D];华北电力大学(河北);2010年
7 赵万鹏;基于Adaboost算法的数字识别技术的研究与应用[D];中国科学院研究生院(成都计算机应用研究所);2006年
8 王晓芹;类别不平衡数据的集成学习研究[D];山东师范大学;2010年
9 王体龙;基于置信区间的贝叶斯网参数学习算法及集成学习研究[D];吉林大学;2008年
10 杜健;基于神经遗传学习算法的模型优化研究[D];天津大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026