收藏本站
《山东师范大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

集成分类学习算法研究

张家红  
【摘要】:分类是数据挖掘中的一项重要任务,分类是先通过类标号已知的数据建立模型,然后对类标未知的样本进行分类。分类正确率是衡量一个分类器性能的重要指标,然而单个的分类器有时不能达到较好的正确率,而集成学习的出现使得这一问题得到改善。集成分类学习是指通过多个分类器来解决同一学习任务,能够获得比仅使用单一分类器更好的性能。集成学习成为近年来机器学习领域的一个热点方向,由于其优良的特性,现已在多个领域得到应用,例如行星探测、字符识别、生物认证、Web信息过滤等。 目前集成学习的研究内容主要包括两个方面:第一,个体学习器精度不能太低,如果学习精度过低,将导致集成的精度不高;第二,个体学习器之间要有差异性,如果没有差异性,则集成是没有意义的。目前已有多种产生差异性的方法,如:基于特征集技术,通过某种策略选取特征子集,可以通过不同的特征集获取个体间的差异性;基于数据技术,采用取样技术获取不同训练数据来获得个体间差异性。然而集成学习还存在着一些未解决的问题,如何设计差异性大的学习器,以及差异性的度量问题。通过对集成学习的深入了解,本文把集成学习应用到分类过程中,在两大经典算法AdaBoost和Bagging的基础上做了一定的改进。获得了好的分类性能以及更快的收敛速度。 具体来说,本文开展并完成的工作主要包括以下几点: (1)首先介绍了分类的过程,目前常用的分类算法的基本思想,各种分类算法的优缺点,简要介绍了集成学习的基本概念,分析了两大代表算法AdaBoost和Bagging的理论基础,对选择性集成学习进行了简要阐述,指出目前集成学习的不足以及发展方向,为更好的发展集成学习提供了依据。 (2)为了产生精度更高、收敛速度更快的集成,提出了一种新的标记迭代过程中错分样本的AdaBoost算法(MWBoost),该算法通过在提升过程中,总是把上一个分类器错分的样本全部参入到下一个分类器的训练中,同时在分类正确的样本中进行重采样,从而使得后一轮提升中分类器能够更快速地关注那些难以分类的样本。该算法在UCI的多个数据集上进行了测试,并且与传统的AdaBoost算法进行了比较,实验结果表明新的算法具有更好的分类精度以及更快的收敛速度。 (3)为了产生多样性的分类器,基于模糊聚类思想,提出了一种新的Bagging集成方法F-Bagging。基本思想是,首先把训练数据通过模糊聚类思想聚类,然后根据隶属度矩阵,如果样例属于多个簇的隶属度差值在一个阈值范围内,那么就把此样例同时划分到这几个簇中,此方法充分遵循了样例的实际分布,最后把各个子集进行训练。由于各子集所包含的数据及数据的类别各不相同,因而使得成员分类器存在着较大的差异性。成员分类器的个数由子集来确定,当训练好分类器之后,考虑到每个簇中的样本相似程度高,因此每一个簇的数据通过训练之后会得到一个比较适合于识别这一类样本的分类器,因此根据测试样例到各个簇中心的距离比例,对分类器进行加权,实验结果表明,此方法对模式分类能取得较好的效果。
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP311.13

【引证文献】
中国硕士学位论文全文数据库 前7条
1 汪克高;贵州省精准扶贫中贫困户的识别研究[D];贵州财经大学;2016年
2 毕凯;基于集成学习的药物相互作用信息抽取系统的研究与实现[D];西北农林科技大学;2016年
3 李星;基于集成学习的多光谱遥感图像分类研究[D];北方民族大学;2016年
4 杨晔;基于行为的恶意代码检测方法研究[D];西安电子科技大学;2015年
5 陈实;基于随机森林的神经肽剪切位点预测方法研究[D];华中科技大学;2015年
6 卢婷;基于AdaBoost的分类器学习算法比较研究[D];华东理工大学;2014年
7 邹江波;面向数据流挖掘的集成分类模型研究[D];浙江工商大学;2013年
【参考文献】
中国期刊全文数据库 前6条
1 张家红;张化祥;刘伟;;标记错分样本的AdaBoost算法[J];计算机工程与设计;2010年06期
2 谢元澄;杨静宇;;删除最差基学习器来层次修剪Bagging集成[J];计算机研究与发展;2009年02期
3 蒋焰;丁晓青;;基于多步校正的改进AdaBoost算法[J];清华大学学报(自然科学版);2008年10期
4 武妍;项恩宁;;动态权值预划分实值Adaboost人脸检测算法[J];计算机工程;2007年03期
5 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
6 李凯,黄厚宽;一种基于聚类技术的选择性神经网络集成方法[J];计算机研究与发展;2005年04期
中国博士学位论文全文数据库 前2条
1 程丽丽;支持向量机集成学习算法研究[D];哈尔滨工程大学;2009年
2 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 陈杰;陈彩;梁毅;;基于Word2vec的文档分类方法[J];计算机系统应用;2017年11期
2 黄慧;;基于机器学习的微博情感分类研究[J];湖北农机化;2017年05期
3 敖成凤;李艳妮;吴亚东;王松;蒋宏宇;裴文琦;;城市餐饮消费行为数据可视化[J];西南科技大学学报;2017年03期
4 王郝日钦;;基于自动编码器的文本分类实现[J];中国高新区;2017年16期
5 孟欣;左万利;;基于word embedding的短文本特征扩展与分类[J];小型微型计算机系统;2017年08期
6 刘丽娜;齐佳音;齐宏伟;蒋思;;在线评论中离散情感的分布研究[J];情报科学;2017年08期
7 邓三鸿;傅余洋子;王昊;;基于LSTM模型的中文图书多标签分类研究[J];数据分析与知识发现;2017年07期
8 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;基于语义串抽取及主题相似度度量的维吾尔文文本分类[J];中文信息学报;2017年04期
9 阿力木江·艾沙;;基于Rapid Miner的维吾尔文文本预处理及分类实验设计[J];中国教育技术装备;2017年12期
10 戚后林;顾磊;;概率潜在语义分析的KNN文本分类算法[J];计算机技术与发展;2017年07期
中国博士学位论文全文数据库 前4条
1 李军;空天资源对地观测协同任务规划方法[D];国防科学技术大学;2013年
2 李海生;基于证据理论的分类方法研究[D];华南理工大学;2013年
3 孙建文;基于集成特征选择的网络书写纹识别研究[D];华中师范大学;2011年
4 杨勇;基于粗糙集理论的表情识别研究[D];西南交通大学;2009年
【同被引文献】
中国硕士学位论文全文数据库 前10条
1 张荷;基于PU学习的软件故障检测方法研究[D];西北农林科技大学;2015年
2 史蓉;扶贫“双到”中扶贫对象的识别与动态调整[D];仲恺农业工程学院;2014年
3 乔桢;集成学习多样性研究[D];大连海事大学;2014年
4 张盼盼;基于篇章的蛋白质交互关系抽取[D];大连理工大学;2014年
5 周中侠;基于集成学习的人脸特征抽取及识别研究[D];扬州大学;2014年
6 刘志伟;基于Qemu的恶意程序行为捕获软件研究与实现[D];西安电子科技大学;2014年
7 索生宝;蛋白质翻译后修饰位点预测及其功能分析[D];南昌大学;2013年
8 何林娜;基于机器学习的药名实体识别及药物关系抽取[D];大连理工大学;2013年
9 罗转香;贵州农村贫困问题研究[D];贵州财经大学;2013年
10 杨沐晞;基于随机森林模型的二手房价格评估研究[D];中南大学;2012年
【二级引证文献】
中国硕士学位论文全文数据库 前9条
1 王永祥;基于ECG的心脏骤停预测方法研究[D];吉林大学;2017年
2 王绎博;基于改进LDP特征的人脸识别方法[D];南京理工大学;2017年
3 蒋跃;雷达目标RCS建模与识别技术研究[D];南京理工大学;2017年
4 姚新;公路隧道图像型火灾火焰检测方法研究[D];大连海事大学;2016年
5 金相君;低频辐射源杂散特征提取及分类方法研究[D];南京航空航天大学;2016年
6 魏超;基于LIBS光谱数据的组合分类算法应用研究[D];西北大学;2015年
7 张野;数据流查询语言中语法分析器的设计[D];电子科技大学;2015年
8 戴冬平;某银行信息化管理与发展战略研究[D];华中师范大学;2014年
9 张莹;基于数据流挖掘的流量识别技术研究[D];曲阜师范大学;2014年
【二级参考文献】
中国期刊全文数据库 前10条
1 蒋焰;丁晓青;;基于多步校正的改进AdaBoost算法[J];清华大学学报(自然科学版);2008年10期
2 武妍;项恩宁;;动态权值预划分实值Adaboost人脸检测算法[J];计算机工程;2007年03期
3 方敏;;集成学习的多分类器动态融合方法研究[J];系统工程与电子技术;2006年11期
4 朱谊强;张洪才;程咏梅;杨涛;赵春晖;;基于Adaboost算法的实时行人检测系统[J];计算机测量与控制;2006年11期
5 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
6 王建宇;陈熙霖;高文;赵德斌;;背景变化鲁棒的自适应视觉跟踪目标模型[J];软件学报;2006年05期
7 马勇,丁晓青;Real-Time Multi-View Face Detection and Pose Estimation Based on Cost-Sensitive AdaBoost[J];Tsinghua Science and Technology;2005年02期
8 李凯,黄厚宽;一种基于聚类技术的选择性神经网络集成方法[J];计算机研究与发展;2005年04期
9 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
10 王建会,王洪伟,申展,胡运发;一种实用高效的文本分类算法[J];计算机研究与发展;2005年01期
中国博士学位论文全文数据库 前2条
1 王磊;支持向量机学习算法的若干问题研究[D];电子科技大学;2007年
2 何灵敏;支持向量机集成及在遥感分类中的应用[D];浙江大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 崔丽娟;李凯;倪志宏;;基于分类的集成学习算法研究[J];河北大学学报(自然科学版);2007年04期
2 袁汉宁;;双层多示例集成学习[J];武汉理工大学学报(信息与管理工程版);2011年05期
3 俞扬;周志华;;集成学习中完全随机学习策略研究[J];计算机工程;2006年17期
4 张沧生;崔丽娟;杨刚;倪志宏;;集成学习算法的比较研究[J];河北大学学报(自然科学版);2007年05期
5 陈凯;;基于聚类技术的集成学习差异性研究[J];南京工业职业技术学院学报;2008年04期
6 李凯;崔丽娟;;集成学习算法的差异性及性能比较[J];计算机工程;2008年06期
7 潘志松;燕继坤;;少数类的集成学习[J];南京航空航天大学学报;2009年04期
8 陈凯;马景义;;一种选择性SER-BagBoosting Trees集成学习研究[J];计算机科学;2009年09期
9 陈全;赵文辉;李洁;江雨燕;;选择性集成学习算法的研究[J];计算机技术与发展;2010年02期
10 张燕平;曹振田;赵姝;郑尧军;杜玲;窦蓉蓉;;一种新的决策树选择性集成学习方法[J];计算机工程与应用;2010年17期
中国重要会议论文全文数据库 前10条
1 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 Wen Feng;;A Novel Lips Detection Method Combined Adaboost Algorithm and Camshift Algorithm[A];2012年计算机应用与系统建模国际会议论文集[C];2012年
3 张超;苗振江;;基于AdaBoost的面部信息感知[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
4 郭翌;汪源源;;基于Adaboost算法的颈动脉粥样硬化判别方法[A];中国仪器仪表学会第十一届青年学术会议论文集[C];2009年
5 张红梅;高海华;王行愚;;抑制样本噪声的AdaBoost算法及其在入侵检测中的应用[A];2007年中国智能自动化会议论文集[C];2007年
6 陆文聪;钮冰;金雨欢;;基于AdaBoost算法的亚细胞位置预测[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
7 陈宏伟;刘建伟;费向东;;一种半监督环境下的Adaboost算法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
8 唐晓丹;苗振江;;基于AdaBoost和粒子滤波的目标跟踪[A];第十四届全国图象图形学学术会议论文集[C];2008年
9 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
10 ;Using Skin Color and HAD-AdaBoost Algorithm for Face Detection in Color Images[A];Information Technology and Computer Science—Proceedings of 2012 National Conference on Information Technology and Computer Science[C];2012年
中国博士学位论文全文数据库 前10条
1 阿里木·赛买提(Alim.Samat);基于集成学习的全极化SAR图像分类研究[D];南京大学;2015年
2 王永明;集成回归问题若干关键技术研究[D];华东师范大学;2015年
3 常征;基于混合集成学习的眼部与四肢交互动作建模与识别[D];北京科技大学;2016年
4 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
5 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
6 张非;对抗逃避攻击的防守策略研究[D];华南理工大学;2015年
7 张文博;多类别智能分类器方法研究[D];西安电子科技大学;2014年
8 许劲松;智能交通中目标检测与分类关键技术研究[D];南京理工大学;2014年
9 佟旭;基于复杂网络理论的糖尿病肾病辨证建模研究[D];北京中医药大学;2016年
10 赵作林;基于图像分析的北京地区杨树种类识别研究[D];北京林业大学;2015年
中国硕士学位论文全文数据库 前10条
1 邢盼盼;基于Bagging的两阶段特征选择集成分类器研究[D];郑州大学;2017年
2 高伟;基于半监督集成学习的情感分类方法研究[D];苏州大学;2015年
3 宋文展;基于抽样的集成进化算法研究[D];广西大学;2015年
4 汤莹;迁移与集成学习在文本分类中的应用研究[D];江苏科技大学;2015年
5 刘政;基于知识元和集成学习的中文微博情感分析[D];大连理工大学;2015年
6 丘桥云;结合文本倾向性分析的股评可信度计算研究[D];哈尔滨工业大学;2014年
7 秦海;融合非标记样本选择的集成学习研究[D];湘潭大学;2015年
8 李想;基于多示例的集成学习理论与应用研究[D];合肥工业大学;2014年
9 李震宇;基于集成学习的数字图像隐写定量分析[D];解放军信息工程大学;2014年
10 王希玲;基于选择性集成学习的网络入侵检测方法研究[D];青岛科技大学;2016年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026