收藏本站
《复旦大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

集成学习中若干关键问题的研究

王清  
【摘要】:分类是机器学习和数据挖掘中的一项重要任务,在现实生活中有着广泛的应用。例如,根据邮件的标题和内容判断其是否为垃圾邮件,根据病人的各项检测指标判断其是否患有某种疾病等。目前已经提出了许多分类学习算法,如决策树、贝叶斯网络、人工神经网络、支持向量机等。 集成学习通过训练若干有差异的学习器,并将它们的预测结果进行合成。相对于单个学习器,集成学习算法在大多数情况下可以显著提高学习系统的泛化能力,因此对集成学习理论和算法的研究一直是机器学习领域的一个重点和热点。 为了构造一个强的集成学习系统,现在一般认为,集成中各个体学习器应该具有较高的精度并且个体之间具有较高的差异度。目前已经提出了许多集成方法,如Bagging、AdaBoost、Random Subspace、Random Forest等。虽然这些算法获得了广泛的关注,并在许多现实的应用中取得了良好的效果,但是仍然存在许多关键问题需要改进和完善,其中包括:Bagging算法只适用于不稳定的分类器;AdaBoost算法容易过拟合有噪声的训练数据因而健壮性较差,同时不支持并行化;Random Subspace仅适用于含有大量冗余特征的数据;对于一些特定的学习算法如朴素贝叶斯、支持向量机等,现有集成算法的提升能力均十分有限,等等。这些问题表明我们有必要设计基于其它思路的集成学习算法以弥补现有算法的不足。 本文在分析现有集成算法现状的基础上,围绕基于处理输入属性和类别属性以设计有效的集成算法问题展开了深入的研究,另外还研究了中心化矩阵广义逆的在线更新问题。具体来说,本文的主要工作和创新点如下: 1.研究了基于多任务学习思想的决策树集成算法,提出了一种新的决策树集成算法MTForest。该算法通过枚举使用每个输入属性作为辅助任务和类别属性来共同决定决策树构建过程中每个节点的最佳划分,以建立集成中的个体决策树分类器。 2.分析了现有基于处理类别标记的集成算法的不足,首次提出了能够同时适用于两类和多类学习问题的基于处理类别标记的集成算法MACLEN。该算法通过枚举每个输入属性和类别属性来构建一系列具有不同偏置的新类别标记的集合,通过对每个新的类别标记表示的问题进行学习得到若干有差异的个体分类器,最后将它们对新样例的预测结果进行结合作为集成的最终输出。 3.研究了基于弱化朴素贝叶斯条件独立假设的集成算法,提出了完全随机贝叶斯分类器集成算法RBNC。该算法使用随机搜索的方式来构建集成中的个体分类器,即在朴素贝叶斯的结构之上,使用完全随机化的方式确定每个属性的父节点。该算法的优点是避免了结构学习的高计算复杂度,弱化了条件独立假设以及通过集成避免了个体随机结构导致的高方差。 4.此外,本文还研究了中心化矩阵广义逆的在线更新问题,首次给出了当向矩阵中插入一列(行)数据或删除已有的一列(行)数据时,其对应的中心化矩阵广义逆的精确更新公式。同时我们将此结果应用到在线维数约简问题中,提出了在线最小二乘线性判别分析(LS-OLDA)算法。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP181

【引证文献】
中国期刊全文数据库 前2条
1 李平红;陶晓玲;王勇;;一种多分类器选择性集成的网络流量分类方法[J];计算机应用与软件;2014年07期
2 周济;文志强;林海龙;;集成学习有效性研究[J];软件导刊;2014年06期
中国博士学位论文全文数据库 前2条
1 李海生;基于证据理论的分类方法研究[D];华南理工大学;2013年
2 张靖;面向高维小样本数据的分类特征选择算法研究[D];合肥工业大学;2014年
中国硕士学位论文全文数据库 前4条
1 周茜;基于多任务学习的人脸识别方法[D];西北大学;2013年
2 刘婷婷;选择性集成迁移算法研究[D];西安电子科技大学;2013年
3 周宇超;复杂场景下的多目标跟踪算法研究[D];吉林大学;2014年
4 孙鹏;基于多视图的半监督学习分类算法的研究[D];吉林大学;2014年
【参考文献】
中国期刊全文数据库 前1条
1 周志华,陈世福;神经网络集成[J];计算机学报;2002年01期
【共引文献】
中国期刊全文数据库 前10条
1 马宁;李斌;;基于神经网络集成的车牌字符识别[J];安徽广播电视大学学报;2012年02期
2 蔡坤琪;;基于相关鉴别分析和随机森林的人脸识别方法[J];安徽电子信息职业技术学院学报;2012年01期
3 李豹;;并行神经元集成在风险评估中的应用[J];安徽工程科技学院学报(自然科学版);2009年04期
4 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
5 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
6 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
7 陈景年;黄厚宽;杨莉萍;田凤占;;基于分布不完整数据选择性分类器[J];北京交通大学学报;2008年02期
8 陈景年;黄厚宽;徐力;伊传环;;利用增益率构建混合型选择性不完整数据分类器[J];北京交通大学学报;2009年05期
9 林正奎;唐焕玲;鲁明羽;王敬东;;基于特征多视图提升Naive Bayesian的Boosting改进算法[J];北京交通大学学报;2009年06期
10 王中锋;王志海;付彬;;贝叶斯网络分类器结构与变量分布的差异性分析[J];北京交通大学学报;2011年02期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 程泽凯;泰锋;;贝叶斯网络分类器结构学习:基于启发式的G2算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 杨波;秦锋;程泽凯;;一种新的分类学习系统评估度量[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 赵越岭;王英丽;;基于粗糙集感应电动机故障诊断决策规则分析[A];第二十七届中国控制会议论文集[C];2008年
5 ;Gas Thickness On-line Monitoring Instrument Design Based on BP Neural Network[A];第二十七届中国控制会议论文集[C];2008年
6 ;Predictive Control Based on Multi-network for a Deep Seabed Mining Robot Vehicle[A];中国自动化学会控制理论专业委员会A卷[C];2011年
7 ;Fault Diagnosis Based on Bayesian Networks for the Data Incomplete Industrial System[A];中国自动化学会控制理论专业委员会A卷[C];2011年
8 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
9 贾少春;胡秀珍;;A Method of Predicting theβ-hairpin Motifs in Proteins[A];第四届全国生物信息学与系统生物学学术大会论文集[C];2010年
10 陈清光;许家佗;于波;郭喆千;屠立平;崔龙涛;张志枫;费兆馥;;亚健康状态脉图特征的数据挖掘研究[A];全国第十二次中医诊断学术年会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
3 刘家国;基于突发事件风险的供应链利益分配与行为决策研究[D];哈尔滨工程大学;2010年
4 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
5 邬俊;基于交互式语义推理的图像检索算法研究[D];大连海事大学;2010年
6 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
7 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
8 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
9 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
10 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
中国硕士学位论文全文数据库 前10条
1 马冉冉;集成学习算法研究[D];山东科技大学;2010年
2 王萍;语音情感识别研究[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
5 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
6 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
7 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
8 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
9 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
10 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 闫芳;林小竹;刘家彬;;基于直接LDA的人脸识别方法研究[J];北京石油化工学院学报;2011年02期
2 刘永俊;宋东兴;何世明;陈才扣;;二维非线性鉴别分析及人脸识别[J];常熟理工学院学报;2008年02期
3 刘明,袁保宗,唐晓芳;证据理论k-NN规则中确定相似度参数的新方法[J];电子学报;2005年04期
4 印勇;何文娟;郭之强;郭攀;徐亦达;;分块PCA和奇异值分解相结合的人脸识别算法[J];重庆大学学报;2012年08期
5 李颖新,阮晓钢;基于支持向量机的肿瘤分类特征基因选取[J];计算机研究与发展;2005年10期
6 金骏;张道强;;半监督鲁棒联机聚类算法[J];计算机研究与发展;2008年03期
7 李烨;蔡云泽;尹汝泼;许晓鸣;;基于证据理论的多类分类支持向量机集成[J];计算机研究与发展;2008年04期
8 孙鑫,刘兵,刘本永;基于分块PCA的人脸识别[J];计算机工程与应用;2005年27期
9 王肖霞;杨风暴;;基于冲突强度和非正则化的证据合成方法研究[J];计算机工程与应用;2006年30期
10 施万锋;胡学钢;俞奎;;一种面向高维数据的均分式Lasso特征选择方法[J];计算机工程与应用;2012年01期
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
3 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
4 李烨;基于支持向量机的集成学习研究[D];上海交通大学;2007年
5 周昌军;基于图像重构和特征融合的人脸识别方法研究[D];大连理工大学;2008年
6 程丽丽;支持向量机集成学习算法研究[D];哈尔滨工程大学;2009年
7 赵武锋;人脸识别中特征提取方法的研究[D];浙江大学;2009年
8 孔怡青;半监督学习及其应用研究[D];江南大学;2009年
9 刘峤;基于最短描述长度的高维特征选择方法研究[D];电子科技大学;2010年
10 孙亮;若干机器学习算法的研究与应用[D];吉林大学;2012年
中国硕士学位论文全文数据库 前3条
1 李文娟;网络舆情倾向性分析技术研究与实现[D];哈尔滨工业大学;2011年
2 王海珍;基于LDA的人脸识别技术研究[D];西安电子科技大学;2010年
3 刘成;基于多任务学习的自然图像分类方法研究[D];西北大学;2012年
【二级参考文献】
中国期刊全文数据库 前2条
1 崔伟东;周志华;李星;;神经网络VC维计算研究[J];计算机科学;2000年07期
2 周志华;何佳洲;陈世福;;神经网络国际研究动向——2000年国际神经网络联合大会评述[J];模式识别与人工智能;2000年04期
【相似文献】
中国期刊全文数据库 前10条
1 张沧生;崔丽娟;杨刚;倪志宏;;集成学习算法的比较研究[J];河北大学学报(自然科学版);2007年05期
2 陈凯;;基于聚类技术的集成学习差异性研究[J];南京工业职业技术学院学报;2008年04期
3 李凯;崔丽娟;;集成学习算法的差异性及性能比较[J];计算机工程;2008年06期
4 潘志松;燕继坤;;少数类的集成学习[J];南京航空航天大学学报;2009年04期
5 陈凯;马景义;;一种选择性SER-BagBoosting Trees集成学习研究[J];计算机科学;2009年09期
6 陈全;赵文辉;李洁;江雨燕;;选择性集成学习算法的研究[J];计算机技术与发展;2010年02期
7 饶峰;;核机器集成学习算法的误差分析[J];重庆文理学院学报(自然科学版);2010年04期
8 吴科主;江雨燕;周传华;;一种多层次选择性集成学习算法[J];计算机应用与软件;2011年01期
9 张春霞;张讲社;;选择性集成学习算法综述[J];计算机学报;2011年08期
10 付忠良;;通用集成学习算法的构造[J];计算机研究与发展;2013年04期
中国重要会议论文全文数据库 前4条
1 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
2 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
3 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
4 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
5 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
6 李烨;基于支持向量机的集成学习研究[D];上海交通大学;2007年
7 程丽丽;支持向量机集成学习算法研究[D];哈尔滨工程大学;2009年
8 林智勇;基于核方法的不平衡数据学习[D];华南理工大学;2009年
9 夏俊士;基于集成学习的高光谱遥感影像分类[D];中国矿业大学;2013年
10 谢元澄;分类器集成研究[D];南京理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 张妤;支持向量机集成学习方法研究[D];山西大学;2008年
2 李涛;基于条件互信息的集成学习的研究与应用[D];中国海洋大学;2009年
3 杨长盛;基于成对差异性度量的选择性集成学习方法研究[D];安徽大学;2010年
4 曹振田;基于Q统计量的选择性集成学习研究[D];安徽大学;2010年
5 王丽丽;集成学习算法研究[D];广西大学;2006年
6 马冉冉;集成学习算法研究[D];山东科技大学;2010年
7 张新东;集成学习及其应用研究[D];石家庄经济学院;2010年
8 吴科主;基于多任务的多层次选择性集成学习的研究[D];安徽工业大学;2010年
9 李平;集成学习中差异性控制方法研究[D];大连海事大学;2012年
10 田智辉;基于集成学习的故障诊断方法研究[D];西安石油大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026