收藏本站
《中国海洋大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于组合抽样技术的集成学习算法研究与应用

刘国强  
【摘要】:不平衡数据集分类和集成学习是当今机器学习领域的主要研究内容。传统分类方法大多基于训练数据集各类样本的数目基本平衡和误分类代价相同等假设,以准确率为分类器性能评价指标,因此在解决不平衡数据集分类问题时大大降低了少数类的分类性能,模型的实际工程应用效果不佳。 不平衡数据集往往具有少数类数据绝对或相对稀少、噪声数据干扰大、数据碎片多等特点,应用单一分类器难以实现准确分类。提升不平衡数据集分类性能的方法主要包括数据重采样、训练集划分、特征选择、代价敏感学习、分类器集成、单类学习等方法。本文通过实验分析单纯依赖数据层面或算法改进层面的方法都不能较高地提高少数类的分类性能。目前常用的SMOTE等重采样方法存在少数类分布稀疏、扩充数据盲目性、多数类信息损失等问题,Adaboost等集成学习方法也存在多数类过拟合或分类器性能退化问题。所以,有效提高少数类的分类精度并且不影响分类器总体分类性能是一个值得深入研究的课题。 本文从改善不平衡数据集的数据分布、适当的算法改进以及恰当的分类器性能评价等方面讨论,提出了将组合重抽样方法与改进Adaboost算法相结合的TSNIMA分类器集成算法。该算法根据样本集内部分布特性,在SMOTE重抽样方法的基础上自适应选择近邻,从而实现在合成少数类样本时减小少数类分布稀疏性对新样本的影响程度,改善训练样本集的不平衡度。由于Adaboost算法的特点是在学习阶段根据分类器误差的大小统一调整样本权重,所以不适合解决不平衡数据集分类学习问题。本文针对不同类别的样本采用多种权重修改策略,有效防止了边界样本、噪声数据在学习时对分类器性能的恶化,提高了少数类样本的识别率。将所提出的算法在WEKA开源平台上实现,应用UCI标准数据集中的不平衡数据进行验证。实验证明在多项分类器性能指标上,TSNIMA算法都优于SMOTEBoost、Asymboost以及单一分类等方法。 本文创新性地应用这种组合抽样与集成学习方法来解决实际工程中的烟叶香型分类问题。实验证明,TSNIMA集成分类器在面对不平衡度较高的烟叶香型分类数据时表现良好,少数类分类错误率最低,而且多数类样本分类精度仍有一定提高。研究表明,以决策树为基分类器的TSNIMA模型还可以为用户提取出更有价值的规则。通过工程应用验证,该算法具有良好的鲁棒性和应用推广价值。
【学位授予单位】:中国海洋大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP181

【参考文献】
中国期刊全文数据库 前10条
1 侯彩虹,崔运花,余润仙,曾宪奕,丁永生;基于模糊聚类分析的织物质量分级方法[J];东华大学学报(自然科学版);2005年01期
2 李正欣;赵林度;;基于SMOTEBoost的非均衡数据集SVM分类器[J];系统工程;2008年05期
3 赵青松;李兴兵;唐小松;;基于支持向量机的烟叶感官品质评价[J];计算机工程与应用;2007年10期
4 王和勇;樊泓坤;姚正安;;SMOTE和Biased-SVM相结合的不平衡数据分类方法[J];计算机科学;2008年05期
5 高妍方;赵青松;陈英武;;基于代价敏感贝叶斯网络的烟叶感官质量评价[J];计算机工程;2008年21期
6 潘志松;燕继坤;;少数类的集成学习[J];南京航空航天大学学报;2009年04期
7 高大启,吴守一;并联神经网络在烤烟内在品质评定中的应用[J];农业机械学报;1999年01期
8 丁香乾,曹均阔,贺英;Kohonen网络与BP网络的集成应用研究[J];青岛海洋大学学报(自然科学版);2003年04期
9 吴广潮;陈奇刚;;不平衡数据集中的组合分类算法[J];计算机工程与设计;2007年23期
10 常爱霞;张建平;杜咏梅;王树声;贾兴华;付秋娟;张骏;刘洪祥;;烤烟香型相关化学成分主导的不同产区烟叶聚类分析[J];中国烟草学报;2010年02期
中国博士学位论文全文数据库 前2条
1 陈海霞;面向数据挖掘的分类器集成研究[D];吉林大学;2006年
2 谷琼;面向非均衡数据集的机器学习及在地学数据处理中的应用[D];中国地质大学;2009年
中国硕士学位论文全文数据库 前3条
1 杨宁;支持向量机在感官评估中的应用研究[D];中国海洋大学;2004年
2 李涛;基于条件互信息的集成学习的研究与应用[D];中国海洋大学;2009年
3 董燕杰;不平衡数据集分类的Random-SMOTE方法研究[D];大连理工大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
2 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
3 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
4 谢纪刚;裘正定;;非平衡数据集Fisher线性判别模型[J];北京交通大学学报;2006年05期
5 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
6 蒋宗礼;徐学可;;一种基于集成学习与类指示器的文本分类方法[J];北京工业大学学报;2010年04期
7 李飞;高小榕;高上凯;;基于随机森林算法的高维脑电特征优选[J];北京生物医学工程;2007年04期
8 李勇,王建波;分类回归树中分裂法则的相合性质[J];北京师范大学学报(自然科学版);2002年01期
9 任杰;柳毅;金鑫;别荣芳;;基于数据挖掘的蔬菜图片病害自动分类[J];北京师范大学学报(自然科学版);2006年06期
10 ;A rough sets based pruning method for bagging ensemble[J];重庆邮电大学学报(自然科学版);2008年03期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
3 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
4 宫会丽;丁香乾;杨宁;;烟叶有害成分风险评估模型研究与应用[A];中国灾害防御协会风险分析专业委员会第二届年会论文集(一)[C];2006年
5 陈华杰;韦巍;;一种基于元泛化的Bagged Boosting算法[A];2005中国控制与决策学术年会论文集(上)[C];2005年
6 ;Adaptive multi-LSSVR based soft sensing for cobalt oxalate synthesis process[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
7 ;Multiple ANNs Combined Scheme for Fault Diagnosis of Power Transformers[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
8 师凯;蔡延光;邹谷山;王涛;;蚁群算法及粒子群算法对比及在VRP中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
9 刘峰;瞿俊;;基于聚类分析和神经网络的时间序列预测方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
10 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 杨宁;计算机辅助卷烟配方设计关键技术研究[D];中国海洋大学;2010年
4 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
5 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
6 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
7 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
8 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年
9 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
10 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前10条
1 马冉冉;集成学习算法研究[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
4 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
5 牛文娟;基于图像处理的烟叶分级研究[D];郑州大学;2010年
6 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
7 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
8 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
9 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
10 朱新荣;径向基函数神经网络集成算法的研究及应用[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 李章海;王能如;王东胜;朱显灵;徐增汉;周慧玲;;烤烟香气指数的建立及其与烟叶质量特征的关系[J];安徽农业科学;2007年04期
2 郭德勇;李念友;裴大文;郑登锋;;煤与瓦斯突出预测灰色理论-神经网络方法[J];北京科技大学学报;2007年04期
3 郭德勇;范金志;马世志;王仪斌;;煤与瓦斯突出预测层次分析-模糊综合评判方法[J];北京科技大学学报;2007年07期
4 罗兵;余光柱;;不平衡类分布下多分类问题的提升算法[J];长江大学学报(自科版)理工卷;2007年02期
5 杨质敏;高维数据的降维方法研究及其应用[J];长沙大学学报;2003年02期
6 赵胜利;吴雅琴;刘燕;刘永建;白永兵;;基于SOM-BP复合神经网络的边坡稳定性分析[J];河北农业大学学报;2007年03期
7 冯夏庭,赵洪波;岩爆预测的支持向量机[J];东北大学学报;2002年01期
8 侯彩虹,崔运花,曾宪奕,丁永生;纺织品感官评估的进展与展望[J];东华大学学报(自然科学版);2003年03期
9 李军,周成虎;地学数据特征分析[J];地理科学;1999年02期
10 马洪超,胡光道;地学数据融合技术综述[J];地质科技情报;1999年01期
中国硕士学位论文全文数据库 前4条
1 刘庆平;神经网络与支持向量机学习算法的理论及仿真研究[D];燕山大学;2003年
2 贺英;计算智能方法研究及其集成应用[D];中国海洋大学;2003年
3 王丽丽;集成学习算法研究[D];广西大学;2006年
4 孙德全;数据库的负载自动识别及自管理技术研究[D];中国石油大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 凌霄汉;吉根林;;一种基于聚类集成的无监督特征选择方法[J];南京师范大学学报(工程技术版);2007年03期
2 刘郁,陈耘志,张兵;图像挖掘中利用类特征集成的自动学习算法研究[J];电脑知识与技术;2005年30期
3 贾瑞玉;冯伦阔;李永顺;张新建;;基于集成学习的覆盖算法[J];计算机技术与发展;2009年07期
4 时雷;虎晓红;席磊;;基于集成学习的网页分类算法[J];郑州大学学报(理学版);2009年03期
5 王昕昕;;基于遗传算法的分类方法讨论[J];电脑知识与技术;2009年33期
6 张新东;亢俊健;陈嶷瑛;李文斌;;选择分类器进行入侵检测[J];微计算机信息;2010年06期
7 徐冲;王汝传;任勋益;;基于集成学习的入侵检测方法[J];计算机科学;2010年07期
8 李烨,蔡云泽,许晓鸣;基于支持向量机集成的故障诊断[J];控制工程;2005年S2期
9 琚旭;王浩;姚宏亮;;基于Boosting的支持向量机组合分类器[J];合肥工业大学学报(自然科学版);2006年10期
10 蔡铁;伍星;李烨;;集成学习中基于离散化方法的基分类器构造研究[J];计算机应用;2008年08期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
3 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
4 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 张红梅;高海华;王行愚;;抑制样本噪声的AdaBoost算法及其在入侵检测中的应用[A];2007年中国智能自动化会议论文集[C];2007年
6 付焕焕;李俊;张洁;;入侵检测中机器学习算法的集成[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
7 张红梅;;基于粗糙集特征约简的SVM集成入侵检测模型[A];2009中国控制与决策会议论文集(3)[C];2009年
8 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
9 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
10 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
2 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
3 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
4 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
5 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
6 苏强;基于数据挖掘算法的环境毒物QSAR研究[D];上海大学;2013年
7 宋相法;基于稀疏表示和集成学习的若干分类问题研究[D];西安电子科技大学;2013年
8 孙永宣;集成学习下的图像分析关键问题研究[D];合肥工业大学;2013年
9 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
10 刘峰;贝叶斯网络结构学习算法研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 张家红;集成分类学习算法研究[D];山东师范大学;2011年
2 刘晓坤;基于遗传算法的混合学习和集成学习研究[D];天津大学;2003年
3 刘立元;基于集成学习的蛋白质亚细胞定位预测[D];济南大学;2011年
4 贺梁;基于支持向量机的集成学习算法研究[D];华南理工大学;2010年
5 李新军;基于支持向量机的建模预测研究[D];天津大学;2004年
6 李洪伟;基于模式识别和集成学习的电力系统暂态稳定评估[D];华北电力大学(河北);2010年
7 赵万鹏;基于Adaboost算法的数字识别技术的研究与应用[D];中国科学院研究生院(成都计算机应用研究所);2006年
8 王晓芹;类别不平衡数据的集成学习研究[D];山东师范大学;2010年
9 王体龙;基于置信区间的贝叶斯网参数学习算法及集成学习研究[D];吉林大学;2008年
10 杜健;基于神经遗传学习算法的模型优化研究[D];天津大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026