收藏本站
《上海大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于特征选择技术的集成学习方法及其应用研究

刘天羽  
【摘要】: 学习方法的泛化能力是机器学习及其应用过程中所面临的关键性挑战问题。集成学习通过训练多个个体并将其结果进行合成,显著地提高了学习系统的泛化能力,成为近年来机器学习领域一个重要的研究方向,并被国际权威T.G Dietterich称为当前机器学习四大研究方向之首。设计出更有效的集成学习实现方法,以提高集成学习的泛化能力,并将集成学习应用到实际问题领域中取得很好的效果,是集成学习研究的热点问题。 特征选择也是机器学习领域的重要问题,特征选择可以去除冗余特征、无关特征、甚至噪声特征,从而可以得到一个无冗余、无噪声的样本集。可以有助于提高模式识别的识别率,机器学习的精度。一个特征选择的过程在原理上可以看成是一个组合优化过程,在原有的特征中选择其中的一部分,使某个特定的评价函数最优。 现在机器学习领域有许多算法与特征选择密切相关,比如集成学习和多任务学习,如何结合集成学习和特征选择算法,设计出更加有效的集成学习实现方法,提高集成学习的泛化能力,是个很重要的研究方向。 本文在分析集成方法研究现状的基础上,运用特征选择算法围绕提高集成学习方法的泛化能力展开了深入的研究,提出了更有效的集成学习方法,提高了集成学习的精度并且研究了新算法在实际数据上的应用。 特征选择后,一些没有选中的特征可能就不再进入学习器,如何利用这些特征提高学习器的精度是一个重用的问题。本文将已经提出的多任务学习技术,应用到集成学习当中,取得了很好的效果。 本文的主要工作和创新点如下: (1)研究了集成学习中个体的特征选择的问题。首先对每个个体的训练数据集进行特征选择,降低了数据集的规模,减少了无效特征和冗余特征的干扰。提出了基于预报风险的嵌入式特征选择算法的集成学习方法PRIFEB(Prediction Risk based Feature sElection for Bagging)和基于互信息特征选择算法的集成学习算法MIFEB(Mutual Information based Feature sElection for Bagging)。并作了相应的对比实验,结果表明这两种新算法提高了集成学习的泛化能力。 (2)研究了数据集在经过特征选择之后冗余的信息如何被重用的问题,并将多任务学习的概念推广到集成学习中。充分利用经过特征选择之后被删除的冗余特征的信息,提出了基于预报风险的多任务学习算法H-MTL(Heuristic Multi-Task Learning)、基于遗传算法的多任务学习算法GA-MTL(GeneticAlgorithm based Multi-Task Learning)和基于遗传算法的集成多任务学习算法GA-ENMTL(Genetic Algorithm based Ensemble Multi-Task Learning),实验表明这些算法充分利用了经过特征选择之后被删除的冗余特征信息,提高了集成学习的泛化能力。 (3)研究了集成学习中的个体选择问题。利用特征选择算法进行集成个体的选择,选择出个体差异度大的个体用于集成。提出了基于互信息算法的选择性集成学习算法MISEN(Mutual Information based Selective ENsemble),实验表明该算法提高了集成学习的效果,同时提高了选择个体的效率。 (4)研究了基于特征选择的半监督学习问题。通过运用特征选择算法去除数据的无效特征和冗余特征,提出了基于预报风险的嵌入式特征选择算法的Co-Training半监督学习算法FESCOT(FEature Selection Co-Training)。实验表明新算法可以有效地提高半监督学习的泛化能力。
【学位授予单位】:上海大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP18

知网文化
【引证文献】
中国博士学位论文全文数据库 前1条
1 杨勇;基于粗糙集理论的表情识别研究[D];西南交通大学;2009年
中国硕士学位论文全文数据库 前7条
1 王文栋;GEP及SVM融合的分类技术研究[D];广西师范学院;2010年
2 王虹;群智能算法在气液两相流型识别中的应用[D];东北电力大学;2011年
3 张家红;集成分类学习算法研究[D];山东师范大学;2011年
4 张翔;特征提取新方法及其应用研究[D];江南大学;2011年
5 李建;聚类融合研究及其应用[D];哈尔滨工程大学;2011年
6 胡银娥;基于粗糙集的朴素贝叶斯分类算法研究[D];长沙理工大学;2012年
7 杨长盛;基于成对差异性度量的选择性集成学习方法研究[D];安徽大学;2010年
【参考文献】
中国期刊全文数据库 前3条
1 李国正,杨杰,孔安生,陈念贻;基于聚类算法的选择性神经网络集成[J];复旦学报(自然科学版);2004年05期
2 周志华,陈世福;神经网络集成[J];计算机学报;2002年01期
3 李国正;杨杰;王嘉驹;耿道颖;;支持向量机规则提取在大脑胶质瘤诊断中的应用[J];生物医学工程学杂志;2006年02期
【共引文献】
中国期刊全文数据库 前10条
1 吴大宏,赵人达;基于遗传算法与神经网络的桥梁结构健康监测系统研究初探[J];四川建筑科学研究;2002年03期
2 刘铮;孙俊;王冬;费维水;;施工危险源辨识结果库知识的获取研究[J];四川建筑科学研究;2006年03期
3 张安勤;数据挖掘与进化算法[J];安徽教育学院学报;2002年03期
4 马宁;李斌;;基于神经网络集成的车牌字符识别[J];安徽广播电视大学学报;2012年02期
5 程家兴,陈万里;列车控制问题的计算分析及自适应算法[J];安徽大学学报(自然科学版);2002年02期
6 李豹;;并行神经元集成在风险评估中的应用[J];安徽工程科技学院学报(自然科学版);2009年04期
7 蒋中;遗传算法在PID参数优化中的应用[J];安徽建筑工业学院学报(自然科学版);2000年01期
8 阮怀忠,张建中;基于改进遗传算法的TSP问题求解[J];安徽建筑工业学院学报(自然科学版);2003年04期
9 陈杰,周冬华;浮点数编码的遗传算法在模糊控制器参数寻优中的应用[J];安徽建筑工业学院学报(自然科学版);2004年02期
10 方潜生;硬件进化(EHW)的研究与进展[J];安徽建筑工业学院学报(自然科学版);2004年06期
中国重要会议论文全文数据库 前10条
1 杨益;方潜生;汪力君;;基于Handel-C的数字芯片的设计方法研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 胡杨林;蒋洁琼;王明煌;曾勤;邱岳峰;邹俊;陈红丽;FDS team;;聚变裂变混合堆长寿命锕系废料嬗变处理的中子学优化分析[A];安徽新能源技术创新与产业发展博士科技论坛论文集[C];2010年
4 周绮凤;林成德;罗林开;彭洪;;一种基于黎曼度量的训练样本类不平衡SVM分类方法研究[A];第二十六届中国控制会议论文集[C];2007年
5 孙燕;孙峥;黄鹍;;基于模拟退火机制的隔离小生境混合遗传算法[A];第二十六届中国控制会议论文集[C];2007年
6 孙燕;孙峥;;利用正交遗传算法优化交通检测点分布[A];第二十六届中国控制会议论文集[C];2007年
7 郭玉堂;刘路路;;基于佳点集遗传算法的边缘检测[A];第二十七届中国控制会议论文集[C];2008年
8 刘向;邹逢兴;张湘平;高政;;面向节能的混合流水车间调度方法的研究[A];第二十七届中国控制会议论文集[C];2008年
9 ;Predictive Control Based on Multi-network for a Deep Seabed Mining Robot Vehicle[A];中国自动化学会控制理论专业委员会A卷[C];2011年
10 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
3 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
4 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
5 邬俊;基于交互式语义推理的图像检索算法研究[D];大连海事大学;2010年
6 时长江;豆科类杂草种子图像识别系统研究[D];中国海洋大学;2009年
7 汪木兰;神经网络硬化实现的共性技术在电力传动中应用研究[D];合肥工业大学;2010年
8 韩艳玲;可能性构造空间理论与计算机作曲思维模型研究[D];华中科技大学;2010年
9 彭北青;第三方物流配送车辆路径问题模型及算法研究[D];华中科技大学;2009年
10 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 赫英毅;毫米波段基于TE_(21)模差网络设计[D];中国工程物理研究院;2009年
2 万成;动态环境下的元胞遗传算法研究[D];南昌航空大学;2010年
3 朱志斌;基于金属材料的扰动磁场检测技术研究[D];南昌航空大学;2010年
4 李坤;参数参与进化的自适应遗传算法研究[D];南昌航空大学;2010年
5 马冉冉;集成学习算法研究[D];山东科技大学;2010年
6 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
7 王辉;基于改进遗传算法的物流配送路径优化研究[D];山东科技大学;2010年
8 纪二云;基于改进遗传算法的电力系统无功优化的研究[D];山东科技大学;2010年
9 王萍;语音情感识别研究[D];山东科技大学;2010年
10 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 王志良;人工心理学──关于更接近人脑工作模式的科学[J];北京科技大学学报;2000年05期
2 陶亮,庄镇泉;基于小波分解和支持向量机的准正面人脸识别方法[J];电路与系统学报;2003年06期
3 何良华,邹采荣,包永强,赵力;人脸面部表情识别的研究进展[J];电路与系统学报;2005年01期
4 贾嵘;洪刚;薛建辉;崔建武;;粒子群优化–最小二乘支持向量机算法在高压断路器机械故障诊断中的应用[J];电网技术;2010年03期
5 乔立岩;彭喜元;马云彤;;基于遗传算法和支持向量机的特征子集选择方法[J];电子测量与仪器学报;2006年01期
6 乔立岩;彭喜元;彭宇;;基于微粒群算法和支持向量机的特征子集选择方法[J];电子学报;2006年03期
7 谭华春;章毓晋;;基于人脸相似度加权距离的非特定人表情识别[J];电子与信息学报;2007年02期
8 肖云;韩崇昭;郑庆华;赵婷;;基于粗糙集-支持向量机理论的过滤误报警方法[J];电子与信息学报;2007年12期
9 张丽新,王家廞,赵雁南,杨泽红;基于Relief的组合式特征选择[J];复旦学报(自然科学版);2004年05期
10 邓赵红,王士同,吴锡生,胡德文;鲁棒的极大熵聚类算法RMEC及其例外点标识[J];中国工程科学;2004年09期
中国博士学位论文全文数据库 前10条
1 于洪;Rough Set理论及其在数据挖掘中的应用研究[D];重庆大学;2003年
2 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
3 毛勇;基于支持向量机的特征选择方法的研究与应用[D];浙江大学;2006年
4 刘悦;神经网络集成及其在地震预报中的应用研究[D];上海大学;2005年
5 何良华;人脸表情识别中若干关键技术的研究[D];东南大学;2005年
6 李烨;基于支持向量机的集成学习研究[D];上海交通大学;2007年
7 腾少冬;应用于个人机器人的人工心理模型的研究[D];北京科技大学;2006年
8 王玉洁;基于人工心理的情感建模及人工情感交互技术研究[D];北京科技大学;2007年
9 杨国亮;人工心理相关技术研究—面部表情识别与情感建模[D];北京科技大学;2006年
10 张雪元;基于人工心理的服务机器人交互平台相关技术研究[D];北京科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 段晶;朴素贝叶斯分类及其应用研究[D];大连海事大学;2011年
2 樊金荣;EMD分析在故障诊断中的应用与研究[D];武汉理工大学;2003年
3 王峻;朴素贝叶斯分类模型的研究与应用[D];合肥工业大学;2006年
4 吴明旺;基于粗糙的数据挖掘属性约简算法研究[D];电子科技大学;2006年
5 石佑红;基于支持向量机的文本分类的研究[D];北京交通大学;2007年
6 周健;基于粗糙集和SVM的语音情感识别[D];西南交通大学;2007年
7 苏映雪;特征选择算法研究[D];国防科学技术大学;2006年
8 陈玉萍;群体智能算法在图像压缩中的应用研究[D];江南大学;2007年
9 李岚;基于信息熵的属性约简及其应用[D];大连海事大学;2008年
10 张楠;关于支持向量机中的参数优化的研究[D];西北大学;2008年
【二级引证文献】
中国期刊全文数据库 前1条
1 刘庆贵;周冬桥;;基于多传感器融合的卷烟机自诊断系统设计[J];传感器与微系统;2012年03期
中国硕士学位论文全文数据库 前1条
1 张思懿;基于核方法的异常检测技术的研究[D];江南大学;2012年
【二级参考文献】
中国期刊全文数据库 前2条
1 崔伟东;周志华;李星;;神经网络VC维计算研究[J];计算机科学;2000年07期
2 周志华;何佳洲;陈世福;;神经网络国际研究动向——2000年国际神经网络联合大会评述[J];模式识别与人工智能;2000年04期
【相似文献】
中国期刊全文数据库 前10条
1 倪勇;吴汶芪;李君;;基于小样本的集成学习研究[J];机电工程;2009年12期
2 缪志敏;赵陆文;胡谷雨;王琼;;基于单类分类器的半监督学习[J];模式识别与人工智能;2009年06期
3 柳斌;李之棠;涂浩;;一种基于半监督学习的应用层流量分类方法[J];微电子学与计算机;2008年10期
4 刘天羽;李国正;尤鸣宇;;不均衡故障诊断数据上的特征选择[J];小型微型计算机系统;2009年05期
5 刘天羽;李国正;;大脑胶质瘤诊断中不均衡问题的特征选择[J];广西师范大学学报(自然科学版);2009年03期
6 缪志敏;胡谷雨;赵陆文;陈彦德;;一种基于支持向量数据描述的半监督学习算法[J];解放军理工大学学报(自然科学版);2010年01期
7 李霞;王连喜;蒋盛益;;面向不平衡问题的集成特征选择[J];山东大学学报(工学版);2011年03期
8 严岳松;倪桂强;缪志敏;潘志松;汪肇强;;基于SVDD的半监督入侵检测研究[J];微电子学与计算机;2009年10期
9 李国正;李丹;;集成学习中特征选择技术[J];上海大学学报(自然科学版);2007年05期
10 凌霄汉;吉根林;;一种基于聚类集成的无监督特征选择方法[J];南京师范大学学报(工程技术版);2007年03期
中国重要会议论文全文数据库 前10条
1 柳斌;李之棠;涂浩;;一种基于半监督学习的应用层流量分类方法[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
2 付焕焕;李俊;张洁;;入侵检测中机器学习算法的集成[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
3 李爱新;孙铁;郭炎峰;;基于人工神经网络的脑电信号模式分类[A];自动化技术与冶金流程节能减排——全国冶金自动化信息网2008年会论文集[C];2008年
4 王浩畅;赵铁军;刘延力;于浩;;生物医学文本中命名实体识别的智能化方法[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
5 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
6 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 王强;曾向阳;王曙光;李娜;;主元分析在水下目标特征选择中的应用[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
8 高砚军;徐华平;;基于窗口自适应灰度共生矩阵的SAR图像分类[A];第六届全国信息获取与处理学术会议论文集(1)[C];2008年
9 李晓丽;王彤;杜振龙;;基于粗糙集理论的流数据最优特征选择[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
10 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国重要报纸全文数据库 前10条
1 周晓娟;TD已过分水岭[N];通信产业报;2008年
2 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
3 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
4 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
5 海通证券 娄静吴先兴;把握风险收益特征选择最适合自己的基金[N];上海证券报;2007年
6 寇怀忠(作者为黄委数字办教授级高工,博士);应用神经网络研究河流水沙运动规律的相关问题[N];黄河报;2006年
7 PALADIN;化整为零,变繁为简[N];电脑报;2003年
8 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年
9 张小明;如何选择供应链[N];现代物流报;2005年
10 张小东;促销之十大常见误区(一)[N];黑龙江经济报;2006年
中国博士学位论文全文数据库 前10条
1 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
2 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
3 黄东山;特征选择及半监督分类方法研究[D];华中科技大学;2011年
4 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
5 刘华文;基于信息熵的特征选择算法研究[D];吉林大学;2010年
6 刘峰;贝叶斯网络结构学习算法研究[D];北京邮电大学;2008年
7 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
8 孔怡青;半监督学习及其应用研究[D];江南大学;2009年
9 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
10 王娇;多视图的半监督学习研究[D];北京交通大学;2010年
中国硕士学位论文全文数据库 前10条
1 贺梁;基于支持向量机的集成学习算法研究[D];华南理工大学;2010年
2 张家红;集成分类学习算法研究[D];山东师范大学;2011年
3 邱玉祥;特征选择和集成学习及其在入侵检测中的应用[D];南京师范大学;2008年
4 刘晓坤;基于遗传算法的混合学习和集成学习研究[D];天津大学;2003年
5 李涛;基于条件互信息的集成学习的研究与应用[D];中国海洋大学;2009年
6 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
7 葛荐;基于集成算法的半监督学习研究[D];南京信息工程大学;2012年
8 赵万鹏;基于Adaboost算法的数字识别技术的研究与应用[D];中国科学院研究生院(成都计算机应用研究所);2006年
9 王体龙;基于置信区间的贝叶斯网参数学习算法及集成学习研究[D];吉林大学;2008年
10 刘立元;基于集成学习的蛋白质亚细胞定位预测[D];济南大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026