收藏本站
《中国科学技术大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于神经网络集成的增量式学习

林民龙  
【摘要】:增量式学习是机器学习领域的一个重要研究方向。在增量式学习中,训练数据是只能分批获得并用于训练的。增量式学习方法需要能够从新的数据集中学习新的知识,并在不访问旧数据集的情况下保留从旧的数据集中学习到的知识。在本文中,我们主要研究基于神经网络集成的增量式学习算法。 首先,我们对简单的增量式学习问题进行研究,并提出了基于负相关学习和选择性集成学习的方法,即选择性负相关学习的方法(Selective Negative Correlation Learning,SNCL)。在SNCL中,对新来的数据集,使用已有的神经网络集成的副本,通过负相关学习算法来学习,使得神经网络集成能够更好的对新来的数据集进行学习,同时在一定程度上保留已学习过的信息。学习过后,将新的神经网络集成加入到原有的神经网络集成中,再对神经网络集成中的个体进行选择,使得神经网络集成的大小不会随着新的数据的到来而增大。我们使用了3个UCI数据库上的数据集以及2个生物学上的数据集进行实验,将SNCL与另外两种基于负相关学习的方法比较,同时也与其他已有方法,做了简单的分析比较,通过实验证明了SNCL的有效性。 随后,考虑到增量式学习中比较容易出现类别不平衡的情况,为了更好的研究在增量式学习模式下的类别不平衡情况,我们深入研究了在非增量式学习中的类别不平衡问题。在这部分研究中,我们通过分析类别不平衡问题的特点及难点,以及已有算法的特点,从而引出在训练过程中对样本进行动态采样的思路,并基于此思路设计了基于多层感知机(Multi-Layer Perceptrons,MLP)的动态采样算法(Dynamic Sampling,DyS)。在DyS中,我们使用MLP做为基本分类器,并且采用逐个样本训练的模式。在训练的过程中,根据MLP对训练样本的学习的实时状态来决定每个样本是否要被用于更新MLP的连接权值。选择样本的标准兼顾了类别不平衡的情况和各个样本的难易程度,使得DyS能够同时侧重于小类的样本和那些更难被分类的样本。我们使用了18个UCI数据库上的多类的类别不平衡数据集进行实验,将DyS和其他相关的方法比较,包括预采样方法,代价敏感学习方法,boosting类方法和主动学习方法。实验结果表明,DyS能获得比其他方法更好的性能。 最后,在前面两项研究的基础上,我们研究了类别不平衡的增量式学习。其中主要考虑的情况包括:整体的训练集是类别不平衡的从而导致各个子训练集是类别不平衡的,在新的子训练集中并伴随着新类别的出现和旧类别的缺失;整体训练集是类别平衡的,但是由于采样偏差而造成各个子训练集是类别不平衡的,同时也有新类别的出现和旧类别的缺失。我们在这部分研究中提出一种新的算法框架,即混合集成模型的选择性继续学习(Selective Further Learning with Hybrid Ensemble, SFLHE)。我们使用了MLP和朴素贝叶斯(Naive Bayes, NB)这两种类型的分类器做为集成的组成部分,并对集成中的每个个体设置了一个影响权值,并使用每个个体的输出在影响权值上的加权平均做为集成整体的输出。同时,使用了负相关学习来训练MLP集成的训练,并在MLP集成和NB模型的训练中,考虑了类别不平衡的情况,使得SFLHE可以解决类别不平衡的增量式学习问题。我们使用了3个人工的数据集和10个UCI数据库上的实际数据集来模拟增量式学习的过程进行实验,并通过实验证明了SFLHE可以有效解决类别不平衡的增量式学习问题。同时,通过对SFLHE的组成部分的深入分析,说明了SFLHE可以很好的组合其两种类型的组成部分MLP和NB的优点,以获得同时优于这二者的性能。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP181

【引证文献】
中国硕士学位论文全文数据库 前1条
1 邵龙;基于面向对象与集成学习的遥感影像分类方法研究[D];中国地质大学(北京);2013年
【参考文献】
中国期刊全文数据库 前2条
1 刘胥影;吴建鑫;周志华;;一种基于级联模型的类别不平衡数据分类方法[J];南京大学学报(自然科学版);2006年02期
2 叶志飞;文益民;吕宝粮;;不平衡分类问题研究综述[J];智能系统学报;2009年02期
【共引文献】
中国期刊全文数据库 前10条
1 王成;刘亚峰;王新成;闫桂荣;;分类器的分类性能评价指标[J];电子设计工程;2011年08期
2 刘欢欢;李寿山;周国栋;李逸薇;;中文情绪识别方法研究[J];江西师范大学学报(自然科学版);2013年02期
3 辛宪会;叶秋果;滕惠忠;郭思海;李军;张靓;韩晓宏;;小样本机器学习算法的特性分析与应用[J];海洋测绘;2007年03期
4 邹权;郭茂祖;刘扬;王峻;;类别不平衡的分类方法及在生物信息学中的应用[J];计算机研究与发展;2010年08期
5 林舒杨;李翠华;江弋;林琛;邹权;;不平衡数据的降采样方法研究[J];计算机研究与发展;2011年S3期
6 廖志芳;陈宇宙;樊晓平;瞿志华;;面向非平衡混合数据的改进计数最近邻分类算法[J];计算机工程与应用;2008年12期
7 李明方;张化祥;张雯;计华;;不平衡数据集的神经网络阈值优化方法[J];计算机工程与应用;2010年20期
8 秦姣龙;王蔚;;Bagging组合的不平衡数据分类方法[J];计算机工程;2011年14期
9 文益民;李健;杜飞明;陈方;;集成学习算法在不平衡分类中的应用研究[J];计算技术与自动化;2009年02期
10 李艳玲;郭文普;徐东辉;;一种不平衡数据的分类方法[J];中国电子科学研究院学报;2012年03期
中国博士学位论文全文数据库 前9条
1 罗林开;支持向量机的核选择[D];厦门大学;2007年
2 周绮凤;基于支持向量机的若干分类问题研究[D];厦门大学;2007年
3 廖志芳;大肠早癌辅助诊断数据挖掘方法研究[D];中南大学;2008年
4 曹苏群;基于模糊Fisher准则的聚类与特征降维研究[D];江南大学;2009年
5 孙正;基于图像的焊接缺陷提取与识别方法研究[D];中国矿业大学;2010年
6 邹权;基于二级结构的非编码RNA挖掘方法研究[D];哈尔滨工业大学;2009年
7 唐明珠;类别不平衡和误分类代价不等的数据集分类方法及应用[D];中南大学;2012年
8 张宏涛;面向生物文本的实体关系自动抽取问题研究[D];清华大学;2012年
9 王瑞;针对类别不平衡和代价敏感分类问题的特征选择和分类算法[D];中国科学技术大学;2013年
中国硕士学位论文全文数据库 前10条
1 李明方;少数类数据识别方法及性能评价[D];山东师范大学;2011年
2 王瑞伟;网络安全取证的应用研究[D];江南大学;2011年
3 陈胤子;手写识别算法研究及在移动平台上的应用[D];北京邮电大学;2011年
4 杨帆;BO-AUC多类分类评估方法的研究[D];安徽工业大学;2011年
5 刘国强;基于组合抽样技术的集成学习算法研究与应用[D];中国海洋大学;2011年
6 杨智;基于不平衡数据集的客户流失预测研究[D];西南交通大学;2011年
7 李建军;比较句与比较关系识别研究及其应用[D];重庆大学;2011年
8 石瀚凌;基于集成代价敏感分类方法的客户流失预测研究[D];重庆大学;2011年
9 郭颖婕;基于随机森林的植物抗性基因识别方法研究[D];哈尔滨工业大学;2011年
10 王思漫;基于基因表达谱的肿瘤分类方法研究[D];南京理工大学;2012年
【同被引文献】
中国期刊全文数据库 前10条
1 林先成;李永树;;面向对象的成都平原多源遥感影像分割尺度研究[J];测绘科学;2010年04期
2 侯飞;胡召玲;;基于多尺度分割的煤矿区典型地物遥感信息提取[J];测绘通报;2012年01期
3 高伟;刘修国;彭攀;陈启浩;;一种改进的高分辨率遥感影像分割方法[J];地球科学(中国地质大学学报);2010年03期
4 明冬萍;骆剑承;周成虎;王晶;;高分辨率遥感影像特征分割及算法评价分析[J];地球信息科学;2006年01期
5 宋杨;李长辉;林鸿;;面向对象的eCognition遥感影像分类识别技术应用[J];地理空间信息;2012年02期
6 龚珍;吴浩;黎华;;面向对象的遥感影像植被信息提取技术研究[J];安徽农业科学;2012年30期
7 姚国红;张锦;王励;;面向对象的高分辨率遥感影像地理要素提取[J];测绘科学;2012年06期
8 岁秀珍;阮仁宗;马荣华;夏双;;面向对象的多尺度水体信息提取[J];地理空间信息;2012年06期
9 杨娜;秦志远;张俊;;基于支持向量机无限集成学习方法的遥感图像分类[J];测绘科学;2013年01期
10 颜士威;曹云刚;雒根雄;王亚飞;;遥感影像面向对象信息提取技术在GIS土地管理中的应用[J];测绘科学;2013年01期
中国博士学位论文全文数据库 前1条
1 易俐娜;面向对象遥感影像分类不确定性分析[D];武汉大学;2011年
中国硕士学位论文全文数据库 前4条
1 张新东;集成学习及其应用研究[D];石家庄经济学院;2010年
2 张雨霁;高分辨率遥感影像面向对象变化信息自动提取研究[D];辽宁工程技术大学;2011年
3 王丽丽;集成学习算法研究[D];广西大学;2006年
4 熊立志;基于分水岭算法的遥感影像过分割问题的研究[D];太原科技大学;2012年
【二级参考文献】
中国期刊全文数据库 前1条
1 姜远,周志华,谢琪,陈兆乾;神经网络集成在肺癌细胞识别中的应用[J];南京大学学报(自然科学版);2001年05期
【相似文献】
中国期刊全文数据库 前10条
1 刘关松,徐建国,高敦岳;基于神经网络集成的舌苔分类方法[J];计算机工程;2003年14期
2 乔双,宋建中;基于DSP并行结构的多神经网络集成分类器[J];物理实验;2003年11期
3 龚安;张敏;;基于约束规划的选择性神经网络集成方法[J];计算机科学;2007年06期
4 凌锦江,周志华;基于因果发现的神经网络集成方法[J];软件学报;2004年10期
5 傅强,胡上序,赵胜颖;基于PSO算法的神经网络集成构造方法[J];浙江大学学报(工学版);2004年12期
6 孔安生,王洪澄,李国正;神经网络集成与支持向量机在多值分类问题上的比较研究[J];计算机工程与应用;2005年01期
7 沈掌泉,孔繁胜;基于个体选择的动态权重神经网络集成方法研究[J];计算机工程与应用;2005年12期
8 巩文科;李长河;石争浩;赵洁;;基于样本重构的神经网络集成学习方法[J];计算机应用;2006年06期
9 文习明;;基于神经网络集成的数据分析[J];现代计算机;2006年05期
10 阮忠;林方;;基于神经网络的入侵检测系统的实现[J];计算机与网络;2008年09期
中国重要会议论文全文数据库 前10条
1 李蓬宁;;一种新的非线性神经网络集成股市预测模型[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
2 张郴;;基于神经网络集成的旅游需求预测模型[A];中国地理学会百年庆典学术论文摘要集[C];2009年
3 赵庶旭;党建武;马海民;;基于FIF的神经网络自律集成研究[A];2007'仪表,自动化及先进集成技术大会论文集(二)[C];2007年
4 吴月明;王益群;李莉;;基于神经网络集成的可靠性分布模型的智能识别[A];2006年全国机械可靠性学术交流会论文集[C];2006年
5 吕强;刘士荣;俞金寿;;神经网络聚类加权集成及其应用[A];2007年中国智能自动化会议论文集[C];2007年
6 张正道;胡寿松;;基于神经网络免疫集成的非线性时间序列故障预报[A];江苏省自动化学会七届四次理事会暨2004学术年会青年学者论坛论文集[C];2004年
7 肖迪;林锦国;胡寿松;;一种新的粗糙RBF网络集成方法[A];第二十七届中国控制会议论文集[C];2008年
8 潘晔;顾幸生;卢胜利;;基于信度分配的并行集成CMAC及其在建模中的应用[A];2009年中国智能自动化会议论文集(第八分册)[控制理论与应用(专刊)][C];2009年
9 钱博;;基于神经网络集成的说话人识别算法仿真研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年
10 陈保家;李力;赵新泽;;基于尺度-小波能量谱、粗糙集和神经网络集成的内燃机故障诊断方法[A];第二十六届中国控制会议论文集[C];2007年
中国重要报纸全文数据库 前1条
1 记者 王进;华中科大船海学院六项目获国家自然基金资助[N];中国船舶报;2010年
中国博士学位论文全文数据库 前10条
1 林民龙;基于神经网络集成的增量式学习[D];中国科学技术大学;2012年
2 于合龙;精准农业生产中若干智能决策问题研究[D];吉林大学;2010年
3 黄保海;基于分解—集成的汽轮发电机组故障诊断方法研究[D];华北电力大学;2012年
4 朱真峰;快速增量式分类算法研究[D];复旦大学;2010年
5 高敬阳;神经网络集成BOOSTING类算法研究[D];北京化工大学;2012年
6 陈晓娟;模拟电路神经网络故障诊断方法的研究[D];吉林大学;2006年
7 李辉;提高密度泛函理论方法计算吸收能的精度:神经网络和遗传算法[D];东北师范大学;2009年
8 肖迪;新型粗糙神经网络的模式识别与故障诊断方法的研究[D];南京航空航天大学;2005年
9 戴群;基于ICBP模型的混合神经网络与多样化集成方法的研究[D];南京航空航天大学;2009年
10 甘志刚;仿人机器人数字仿真与虚拟示教关键技术研究[D];华南理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 李岩;神经网络集成及其在分类和回归问题中的应用研究[D];华北电力大学(河北);2010年
2 李贝贝;神经网络集成算法研究及其在煤矿安全中的应用[D];山东师范大学;2012年
3 徐瑜;基于主动差异学习神经网络集成的电力变压器故障诊断方法研究[D];湘潭大学;2010年
4 夏贵荣;神经网络集成在公交行驶时间预测中的研究与应用[D];兰州理工大学;2010年
5 张冬威;基于网络聚类选择的神经网络集成方法及其在农业中的应用[D];吉林大学;2011年
6 杨阳;基于输出误差曲线差异度计算的神经网络集成[D];北京化工大学;2011年
7 胡啸;神经网络集成在洪灾损失评估中的应用研究[D];江西理工大学;2012年
8 潘远;粗集约简的神经网络集成在遥感影像分类中的应用[D];辽宁工程技术大学;2012年
9 孙洁;基于神经网络集成的人体体型分析与号型归档研究[D];浙江理工大学;2013年
10 孙智源;基于过程神经网络集成的航空发动机性能衰退预测[D];哈尔滨工业大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026