收藏本站
《上海大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于特征选择技术的集成学习方法及其应用研究

刘天羽  
【摘要】: 学习方法的泛化能力是机器学习及其应用过程中所面临的关键性挑战问题。集成学习通过训练多个个体并将其结果进行合成,显著地提高了学习系统的泛化能力,成为近年来机器学习领域一个重要的研究方向,并被国际权威T.G Dietterich称为当前机器学习四大研究方向之首。设计出更有效的集成学习实现方法,以提高集成学习的泛化能力,并将集成学习应用到实际问题领域中取得很好的效果,是集成学习研究的热点问题。 特征选择也是机器学习领域的重要问题,特征选择可以去除冗余特征、无关特征、甚至噪声特征,从而可以得到一个无冗余、无噪声的样本集。可以有助于提高模式识别的识别率,机器学习的精度。一个特征选择的过程在原理上可以看成是一个组合优化过程,在原有的特征中选择其中的一部分,使某个特定的评价函数最优。 现在机器学习领域有许多算法与特征选择密切相关,比如集成学习和多任务学习,如何结合集成学习和特征选择算法,设计出更加有效的集成学习实现方法,提高集成学习的泛化能力,是个很重要的研究方向。 本文在分析集成方法研究现状的基础上,运用特征选择算法围绕提高集成学习方法的泛化能力展开了深入的研究,提出了更有效的集成学习方法,提高了集成学习的精度并且研究了新算法在实际数据上的应用。 特征选择后,一些没有选中的特征可能就不再进入学习器,如何利用这些特征提高学习器的精度是一个重用的问题。本文将已经提出的多任务学习技术,应用到集成学习当中,取得了很好的效果。 本文的主要工作和创新点如下: (1)研究了集成学习中个体的特征选择的问题。首先对每个个体的训练数据集进行特征选择,降低了数据集的规模,减少了无效特征和冗余特征的干扰。提出了基于预报风险的嵌入式特征选择算法的集成学习方法PRIFEB(Prediction Risk based Feature sElection for Bagging)和基于互信息特征选择算法的集成学习算法MIFEB(Mutual Information based Feature sElection for Bagging)。并作了相应的对比实验,结果表明这两种新算法提高了集成学习的泛化能力。 (2)研究了数据集在经过特征选择之后冗余的信息如何被重用的问题,并将多任务学习的概念推广到集成学习中。充分利用经过特征选择之后被删除的冗余特征的信息,提出了基于预报风险的多任务学习算法H-MTL(Heuristic Multi-Task Learning)、基于遗传算法的多任务学习算法GA-MTL(GeneticAlgorithm based Multi-Task Learning)和基于遗传算法的集成多任务学习算法GA-ENMTL(Genetic Algorithm based Ensemble Multi-Task Learning),实验表明这些算法充分利用了经过特征选择之后被删除的冗余特征信息,提高了集成学习的泛化能力。 (3)研究了集成学习中的个体选择问题。利用特征选择算法进行集成个体的选择,选择出个体差异度大的个体用于集成。提出了基于互信息算法的选择性集成学习算法MISEN(Mutual Information based Selective ENsemble),实验表明该算法提高了集成学习的效果,同时提高了选择个体的效率。 (4)研究了基于特征选择的半监督学习问题。通过运用特征选择算法去除数据的无效特征和冗余特征,提出了基于预报风险的嵌入式特征选择算法的Co-Training半监督学习算法FESCOT(FEature Selection Co-Training)。实验表明新算法可以有效地提高半监督学习的泛化能力。
【学位授予单位】:上海大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP18

【引证文献】
中国博士学位论文全文数据库 前1条
1 杨勇;基于粗糙集理论的表情识别研究[D];西南交通大学;2009年
中国硕士学位论文全文数据库 前8条
1 王文栋;GEP及SVM融合的分类技术研究[D];广西师范学院;2010年
2 王虹;群智能算法在气液两相流型识别中的应用[D];东北电力大学;2011年
3 张家红;集成分类学习算法研究[D];山东师范大学;2011年
4 张翔;特征提取新方法及其应用研究[D];江南大学;2011年
5 李建;聚类融合研究及其应用[D];哈尔滨工程大学;2011年
6 胡银娥;基于粗糙集的朴素贝叶斯分类算法研究[D];长沙理工大学;2012年
7 杨长盛;基于成对差异性度量的选择性集成学习方法研究[D];安徽大学;2010年
8 张岚;基于几何代数的可视化分类器研究[D];燕山大学;2013年
【参考文献】
中国期刊全文数据库 前3条
1 李国正,杨杰,孔安生,陈念贻;基于聚类算法的选择性神经网络集成[J];复旦学报(自然科学版);2004年05期
2 周志华,陈世福;神经网络集成[J];计算机学报;2002年01期
3 李国正;杨杰;王嘉驹;耿道颖;;支持向量机规则提取在大脑胶质瘤诊断中的应用[J];生物医学工程学杂志;2006年02期
【共引文献】
中国期刊全文数据库 前10条
1 吴大宏,赵人达;基于遗传算法与神经网络的桥梁结构健康监测系统研究初探[J];四川建筑科学研究;2002年03期
2 刘铮;孙俊;王冬;费维水;;施工危险源辨识结果库知识的获取研究[J];四川建筑科学研究;2006年03期
3 张安勤;数据挖掘与进化算法[J];安徽教育学院学报;2002年03期
4 马宁;李斌;;基于神经网络集成的车牌字符识别[J];安徽广播电视大学学报;2012年02期
5 程家兴,陈万里;列车控制问题的计算分析及自适应算法[J];安徽大学学报(自然科学版);2002年02期
6 李豹;;并行神经元集成在风险评估中的应用[J];安徽工程科技学院学报(自然科学版);2009年04期
7 蒋中;遗传算法在PID参数优化中的应用[J];安徽建筑工业学院学报(自然科学版);2000年01期
8 阮怀忠,张建中;基于改进遗传算法的TSP问题求解[J];安徽建筑工业学院学报(自然科学版);2003年04期
9 陈杰,周冬华;浮点数编码的遗传算法在模糊控制器参数寻优中的应用[J];安徽建筑工业学院学报(自然科学版);2004年02期
10 方潜生;硬件进化(EHW)的研究与进展[J];安徽建筑工业学院学报(自然科学版);2004年06期
中国重要会议论文全文数据库 前10条
1 杨益;方潜生;汪力君;;基于Handel-C的数字芯片的设计方法研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 胡杨林;蒋洁琼;王明煌;曾勤;邱岳峰;邹俊;陈红丽;FDS team;;聚变裂变混合堆长寿命锕系废料嬗变处理的中子学优化分析[A];安徽新能源技术创新与产业发展博士科技论坛论文集[C];2010年
4 周绮凤;林成德;罗林开;彭洪;;一种基于黎曼度量的训练样本类不平衡SVM分类方法研究[A];第二十六届中国控制会议论文集[C];2007年
5 孙燕;孙峥;黄鹍;;基于模拟退火机制的隔离小生境混合遗传算法[A];第二十六届中国控制会议论文集[C];2007年
6 孙燕;孙峥;;利用正交遗传算法优化交通检测点分布[A];第二十六届中国控制会议论文集[C];2007年
7 郭玉堂;刘路路;;基于佳点集遗传算法的边缘检测[A];第二十七届中国控制会议论文集[C];2008年
8 刘向;邹逢兴;张湘平;高政;;面向节能的混合流水车间调度方法的研究[A];第二十七届中国控制会议论文集[C];2008年
9 ;Predictive Control Based on Multi-network for a Deep Seabed Mining Robot Vehicle[A];中国自动化学会控制理论专业委员会A卷[C];2011年
10 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
3 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
4 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
5 邬俊;基于交互式语义推理的图像检索算法研究[D];大连海事大学;2010年
6 时长江;豆科类杂草种子图像识别系统研究[D];中国海洋大学;2009年
7 汪木兰;神经网络硬化实现的共性技术在电力传动中应用研究[D];合肥工业大学;2010年
8 韩艳玲;可能性构造空间理论与计算机作曲思维模型研究[D];华中科技大学;2010年
9 彭北青;第三方物流配送车辆路径问题模型及算法研究[D];华中科技大学;2009年
10 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 赫英毅;毫米波段基于TE_(21)模差网络设计[D];中国工程物理研究院;2009年
2 万成;动态环境下的元胞遗传算法研究[D];南昌航空大学;2010年
3 朱志斌;基于金属材料的扰动磁场检测技术研究[D];南昌航空大学;2010年
4 李坤;参数参与进化的自适应遗传算法研究[D];南昌航空大学;2010年
5 马冉冉;集成学习算法研究[D];山东科技大学;2010年
6 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
7 王辉;基于改进遗传算法的物流配送路径优化研究[D];山东科技大学;2010年
8 纪二云;基于改进遗传算法的电力系统无功优化的研究[D];山东科技大学;2010年
9 王萍;语音情感识别研究[D];山东科技大学;2010年
10 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 王志良;人工心理学──关于更接近人脑工作模式的科学[J];北京科技大学学报;2000年05期
2 徐永红;洪文学;高直;郑成博;;多元数据升维变换的几何代数表示原理[J];燕山大学学报;2008年05期
3 徐永红;洪文学;高直;;模式特征的几何代数多向量表示方法[J];燕山大学学报;2010年02期
4 唐艳;柳建新;龚安栋;;ICA+CSSD的脑-机接口分类[J];电子科技大学学报;2008年03期
5 陶亮,庄镇泉;基于小波分解和支持向量机的准正面人脸识别方法[J];电路与系统学报;2003年06期
6 何良华,邹采荣,包永强,赵力;人脸面部表情识别的研究进展[J];电路与系统学报;2005年01期
7 贾嵘;洪刚;薛建辉;崔建武;;粒子群优化–最小二乘支持向量机算法在高压断路器机械故障诊断中的应用[J];电网技术;2010年03期
8 乔立岩;彭喜元;马云彤;;基于遗传算法和支持向量机的特征子集选择方法[J];电子测量与仪器学报;2006年01期
9 乔立岩;彭喜元;彭宇;;基于微粒群算法和支持向量机的特征子集选择方法[J];电子学报;2006年03期
10 李岩山;;基于Clifford代数的数字图像水印技术[J];电子学报;2008年05期
中国博士学位论文全文数据库 前10条
1 于洪;Rough Set理论及其在数据挖掘中的应用研究[D];重庆大学;2003年
2 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
3 毛勇;基于支持向量机的特征选择方法的研究与应用[D];浙江大学;2006年
4 刘悦;神经网络集成及其在地震预报中的应用研究[D];上海大学;2005年
5 何良华;人脸表情识别中若干关键技术的研究[D];东南大学;2005年
6 李烨;基于支持向量机的集成学习研究[D];上海交通大学;2007年
7 腾少冬;应用于个人机器人的人工心理模型的研究[D];北京科技大学;2006年
8 王玉洁;基于人工心理的情感建模及人工情感交互技术研究[D];北京科技大学;2007年
9 杨国亮;人工心理相关技术研究—面部表情识别与情感建模[D];北京科技大学;2006年
10 张雪元;基于人工心理的服务机器人交互平台相关技术研究[D];北京科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 段晶;朴素贝叶斯分类及其应用研究[D];大连海事大学;2011年
2 王秀景;语音识别技术研究与实现[D];山东科技大学;2011年
3 樊金荣;EMD分析在故障诊断中的应用与研究[D];武汉理工大学;2003年
4 王峻;朴素贝叶斯分类模型的研究与应用[D];合肥工业大学;2006年
5 吴明旺;基于粗糙的数据挖掘属性约简算法研究[D];电子科技大学;2006年
6 王丽丽;集成学习算法研究[D];广西大学;2006年
7 石佑红;基于支持向量机的文本分类的研究[D];北京交通大学;2007年
8 周健;基于粗糙集和SVM的语音情感识别[D];西南交通大学;2007年
9 苏映雪;特征选择算法研究[D];国防科学技术大学;2006年
10 陈玉萍;群体智能算法在图像压缩中的应用研究[D];江南大学;2007年
【二级引证文献】
中国期刊全文数据库 前1条
1 刘庆贵;周冬桥;;基于多传感器融合的卷烟机自诊断系统设计[J];传感器与微系统;2012年03期
中国博士学位论文全文数据库 前1条
1 朱林;基于特征加权与特征选择的数据挖掘算法研究[D];上海交通大学;2013年
中国硕士学位论文全文数据库 前4条
1 张思懿;基于核方法的异常检测技术的研究[D];江南大学;2012年
2 邹江波;面向数据流挖掘的集成分类模型研究[D];浙江工商大学;2013年
3 李磊;基于云模型的数据挖掘算法研究及在入侵检测中的应用[D];江南大学;2013年
4 王月肖;基于案例的社区教育e-learning情绪教学推理研究[D];首都师范大学;2013年
【二级参考文献】
中国期刊全文数据库 前2条
1 崔伟东;周志华;李星;;神经网络VC维计算研究[J];计算机科学;2000年07期
2 周志华;何佳洲;陈世福;;神经网络国际研究动向——2000年国际神经网络联合大会评述[J];模式识别与人工智能;2000年04期
【相似文献】
中国期刊全文数据库 前10条
1 凌霄汉;吉根林;;一种基于聚类集成的无监督特征选择方法[J];南京师范大学学报(工程技术版);2007年03期
2 刘郁,陈耘志,张兵;图像挖掘中利用类特征集成的自动学习算法研究[J];电脑知识与技术;2005年30期
3 贾瑞玉;冯伦阔;李永顺;张新建;;基于集成学习的覆盖算法[J];计算机技术与发展;2009年07期
4 时雷;虎晓红;席磊;;基于集成学习的网页分类算法[J];郑州大学学报(理学版);2009年03期
5 王昕昕;;基于遗传算法的分类方法讨论[J];电脑知识与技术;2009年33期
6 张新东;亢俊健;陈嶷瑛;李文斌;;选择分类器进行入侵检测[J];微计算机信息;2010年06期
7 徐冲;王汝传;任勋益;;基于集成学习的入侵检测方法[J];计算机科学;2010年07期
8 李烨,蔡云泽,许晓鸣;基于支持向量机集成的故障诊断[J];控制工程;2005年S2期
9 琚旭;王浩;姚宏亮;;基于Boosting的支持向量机组合分类器[J];合肥工业大学学报(自然科学版);2006年10期
10 蔡铁;伍星;李烨;;集成学习中基于离散化方法的基分类器构造研究[J];计算机应用;2008年08期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
3 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
4 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 张红梅;高海华;王行愚;;抑制样本噪声的AdaBoost算法及其在入侵检测中的应用[A];2007年中国智能自动化会议论文集[C];2007年
6 付焕焕;李俊;张洁;;入侵检测中机器学习算法的集成[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
7 张红梅;;基于粗糙集特征约简的SVM集成入侵检测模型[A];2009中国控制与决策会议论文集(3)[C];2009年
8 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
9 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
10 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
2 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
3 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
4 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
5 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
6 苏强;基于数据挖掘算法的环境毒物QSAR研究[D];上海大学;2013年
7 宋相法;基于稀疏表示和集成学习的若干分类问题研究[D];西安电子科技大学;2013年
8 孙永宣;集成学习下的图像分析关键问题研究[D];合肥工业大学;2013年
9 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
10 刘峰;贝叶斯网络结构学习算法研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 张家红;集成分类学习算法研究[D];山东师范大学;2011年
2 刘晓坤;基于遗传算法的混合学习和集成学习研究[D];天津大学;2003年
3 刘立元;基于集成学习的蛋白质亚细胞定位预测[D];济南大学;2011年
4 贺梁;基于支持向量机的集成学习算法研究[D];华南理工大学;2010年
5 李新军;基于支持向量机的建模预测研究[D];天津大学;2004年
6 李洪伟;基于模式识别和集成学习的电力系统暂态稳定评估[D];华北电力大学(河北);2010年
7 赵万鹏;基于Adaboost算法的数字识别技术的研究与应用[D];中国科学院研究生院(成都计算机应用研究所);2006年
8 王晓芹;类别不平衡数据的集成学习研究[D];山东师范大学;2010年
9 王体龙;基于置信区间的贝叶斯网参数学习算法及集成学习研究[D];吉林大学;2008年
10 杜健;基于神经遗传学习算法的模型优化研究[D];天津大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026