收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于半监督和集成学习的不平衡数据特征选择和分类

房晓南  
【摘要】:随着大数据时代的到来,机器学习和数据挖掘技术正面临着前所未有的机遇和挑战。作为机器学习最核心的研究领域之一,分类问题受到了研究者持续而广泛的关注,并且出现了大量的经典理论、算法模型和应用软件。但是在现实应用领域,获取到的分类数据集经常存在类别间样本数分布不平衡的情况,造成传统分类器的分类效果明显下降,这种情况被称为类别不平衡问题。简单而言,类别不平衡就是一个类中的样本数量要明显少于另一个(或几个)类。类别不平衡问题在通讯、互联网、生态学、生物学、医学等领域广泛存在,并被列为当前数据挖掘界最突出问题之一。从学习的角度分析,少数类往往包含更重要的分类信息而且错分少数类样本的代价会更高。但是由于少数类样本不但与一些异常且重要的情况有着密切的关联,而且获取少数类样本的成本更高,因此识别的难度往往会更大。另一方面,由于大多数标准的分类算法只考虑训练集为平衡的情况,当面临不平衡数据的时候就可能会生成不理想的分类器。近几年来,由于类不平衡问题在许多应用场景中经常出现,不平衡数据分类已经成为机器学习和数据挖掘研究群体的关注热点。鉴于此,本文基于集成学习和半监督学习的相关方法,对不平衡数据的分类和特征选择问题展开了研究。现将本文的主要工作和成果总结如下:1)当前搜索引擎公司普遍受到垃圾网页(web spam)问题的困扰,本文针对不平衡垃圾网页数据集提出了一种结合过采样方法SMOTE与随机森林的改进方法SMOTERF。在WEBSPAM-UK2007数据集上的对比实验表明,本文方法在分类结果,尤其是AUC值上有了明显提升。即使与参数优化后的随机森林对比,其AUC值也有一定提高。本文方法简单且泛化能力强,可以用于搜索引擎垃圾网页检测。2)基于近几年提出的一个高效的集成学习算法旋转森林,本文提出了三个改进算法,并分别应用于不平衡的垃圾网页检测和高度不平衡数据分类的问题中。首先,本文先用SMOTE方法平衡垃圾网页数据集的原始分布,再利用改进的嵌套旋转森林算法进行分类。实验结果证明SMOTE和嵌套旋转森林的结合方法可以明显地提高不平衡的垃圾网页数据集的分类效果。针对高度不平衡数据集的分类问题,本文将两个经典的不平衡预处理方法随机欠采样和SMOTE过采样分别嵌入到旋转森林的特征提取过程中,生成了两个改进算法SROForest和RUROForest。在22个高度不平衡数据集上的对比实验结果表明,本文方法对AUC值的提高较为明显。非参数统计结果也证明了本文方法,尤其是RUROForest的表现优于其他对比方法。3)由于在许多现实数据集中,类别分布不平衡和标记样本数量过少的情况经常同时存在,因此,本文提出了一系列SMOTE与半监督框架下的自标记技术和多分类器模型的结合方法,来解决欠标记且不平衡的垃圾网页数据集分类问题。在部分标记的WEBSPAM-UK2007数据集上的对比实验结果表明,本文提出的方法,特别是基于多分类器模型的方法能够在基本不降低分类精度的前提下,显著提高spam类的recall值和整体的AUC值,是解决只有少量标记且类不平衡数据集分类问题的一个有效策略。4)针对利用高维不平衡的卵巢癌微阵列数据进行诊断及生存预测的问题,本文提出了一个基于随机森林的过滤式不平衡特征选择算法IFSRF。该算法选用AUC值作为特征选择时的评价指标,因此可以显著降低类分布不平衡给分类系统带来的负面影响。实验结果表明IFSRF能够明显提高所有分类器特别是随机森林在卵巢癌诊断、生存预测和复发预测3个不平衡数据集上的AUC值,同时还能保证整体分类精度略有提高。本文方法实现简单且鲁棒性强,可以广泛用于癌症微阵列数据集的分类问题中。综上所述,本文针对垃圾网页检测、高度不平衡数据分类和卵巢癌诊断与生存预测等不平衡数据分类问题,从样本的预处理、集成学习、半监督学习和特征选择等几个不同的角度提出了相应的解决方案,并通过实验验证了它们的有效性。本文工作可以为今后的不平衡数据分类研究提供帮助。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王胜祥;现实、实践与理论——兼谈图书馆高位理论[J];黑龙江图书馆;1990年02期
2 王健庭;火信号的采集与相关修正[J];数据采集与处理;1987年02期
3 陈国阶;我国东西部发展不平衡与西部开发[J];科技导报;1995年07期
4 王萌;施艳艳;王海明;沈明辉;;不平衡电网电压下双馈风力发电系统强励控制[J];测控技术;2014年07期
5 漫征;;克服地区落后论的错误思想[J];新闻战线;1960年11期
6 ;来稿选题建议[J];青年研究;1999年01期
7 沈睿;;区域发展不平衡——不同地域中小企业信息化建设差距较大[J];每周电脑报;2004年08期
8 张昕竹;用电信普遍服务政策改善经济发展不平衡[J];通信世界;2001年16期
9 周耘;;试论我国年鉴发展的不平衡性[J];图书馆学研究;1987年04期
10 刘叶婷;;智慧城市应依“标”而建[J];信息化建设;2013年09期
11 韩继章;;不平衡种种[J];高校图书馆工作;2014年01期
12 蔡瑞瑱;;浅析华为上下行不平衡故障[J];广东通信技术;2009年11期
13 王建定;;扩大优质教育资源是一个长期的动态的过程[J];现代教学;2010年03期
14 廖枫明;;架空输电线路覆冰不平衡张力的计算与分析[J];通讯世界;2014年07期
15 邹权;郭茂祖;刘扬;王峻;;类别不平衡的分类方法及在生物信息学中的应用[J];计算机研究与发展;2010年08期
16 唐小卫;朱金福;高强;;流不平衡条件下飞机恢复的优化模型与算法研究[J];小型微型计算机系统;2010年04期
17 李文昌;;我国企业信息化建设现状、问题及政策建议[J];中国管理信息化;2006年12期
18 刘铁;马超;黄秋元;;一种IQ delay不平衡估计与补偿方法[J];网络新媒体技术;2013年04期
19 侯利明;孙宝升;;I/Q不平衡对卫星高速数据中继系统的影响[J];无线电通信技术;2005年06期
20 金瑞卿;1997年收款机市场回顾[J];市场与电脑;1998年02期
中国重要会议论文全文数据库 前6条
1 张雨石;唐丽敏;王庸凯;陈文科;;关于中日航线集装箱运量不平衡原因的分析[A];中国航海学会——2004年度学术交流会优秀论文集[C];2004年
2 廖芳宇;;基于LabVIEW的三相不平衡的测量[A];2011年云南电力技术论坛论文集(入选部分)[C];2011年
3 沙鹏程;;关于西部民营企业可持续发展的思考[A];第十四次全国回族学研讨会论文汇编[C];2003年
4 张敦伟;丁博;;配电网三相不平衡补偿的探讨[A];2007中国电机工程学会电力系统自动化专委会供用电管理自动化学科组(分专委会)二届三次会议论文集[C];2007年
5 王仲生;王翔;;转子不平衡自愈监控系统设计[A];第七届全国信息获取与处理学术会议论文集[C];2009年
6 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前4条
1 孙绍华;不平衡电网条件下并网逆变关键技术研究[D];哈尔滨工业大学;2015年
2 艾旭升;基于免疫系统的不平衡数据分类方法研究[D];苏州大学;2016年
3 房晓南;基于半监督和集成学习的不平衡数据特征选择和分类[D];山东师范大学;2016年
4 杨泽平;基于神经网络的不平衡数据分类方法研究[D];华东理工大学;2015年
中国硕士学位论文全文数据库 前10条
1 刘庆;双馈异步风力发电机在电网电压不平衡条件下的控制策略研究[D];贵州大学;2015年
2 刘静蕾;60GHz通信系统中IQ不平衡的影响分析与补偿算法研究[D];电子科技大学;2014年
3 贾鹏飞;针对高密度不平衡样本分类方法的研究[D];哈尔滨工业大学;2014年
4 刘娜;我国排舞运动发展的基本问题探析[D];山东体育学院;2015年
5 张子伟;电网电压不平衡时电压型PWM整流器控制策略的研究[D];河南理工大学;2014年
6 潘嘉进;船舶电力系统电压不平衡时光伏并网系统控制研究[D];大连海事大学;2016年
7 张立旺;基于不平衡数据的分类方法研究[D];中北大学;2016年
8 岳彦哲;不平衡电网条件下双馈异步电机优化控制研究[D];北方工业大学;2016年
9 王若宇;电网不平衡条件下三相PWM整流器控制及并联研究[D];东北大学;2014年
10 杨康;基于结构化SVM的直接优化不平衡准则算法研究[D];安徽大学;2016年
中国重要报纸全文数据库 前10条
1 本报记者 刘金松;教育最大的不公平是教育资源不平衡[N];经济观察报;2014年
2 程凯;解决不平衡还要靠市场[N];中华工商时报;2005年
3 本报见习记者 周宁;示范小城镇建设“四个不平衡”[N];经济信息时报;2013年
4 记者 张黎明;我市治堵工作进展不平衡[N];金华日报;2014年
5 本报记者 任珺;发展不平衡 差距大隐忧多[N];中国煤炭报;2014年
6 本报记者 黄志凌 实习生 戴必莲;保险:从不平衡到平衡[N];四川日报;2004年
7 戴盈;中法贸易存在结构性不平衡短期难逆转[N];中国信息报;2013年
8 记者 王宙洁;宽松过头 全球陷入不平衡复苏格局[N];上海证券报;2013年
9 海北支队 高军;抓基层应重点抓薄弱环节[N];人民武警;2008年
10 本报记者 李香才;运网不平衡为智能交通提供空间[N];中国证券报;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978