收藏本站
《信阳师范学院》 2019年
收藏 | 手机打开
二维码
手机客户端打开本文

基于划分和抽样技术的非平衡类学习算法

周俊  
【摘要】:非平衡类问题是机器学习领域的一个重要研究方向,其表现为数据集样本类别分布的严重不平衡。在一些现实问题中,正确分类少数类样本往往比正确分类多数类样本更受关注,如在癌症检测问题中,只有少数样本为癌症样本,如何有效识别这些癌症样本更加重要。传统分类方法如k近邻、C4.5、朴素贝叶斯、支持向量机等通常试图学习具有高准确率的分类模型,这往往导致模型不能充分学习少数类样本的特征,进而忽略甚至错误分类少数类样本。针对该问题,本文提出两种非平衡类学习算法:(1)提出一种基于划分的非平衡类学习算法(ILDP)。在学习阶段,ILDP使用划分方法将多数类样本集划分为多个簇,并将每个簇分别与少数类样本集合并得一组新的训练集;ILDP在每一个训练集上学习一个分类模型;因此,ILDP构建一个包含多个分类模型的分类器库。在预测阶段,ILDP使用划分方法从分类器库中选择一个模型用于预测样本类别。(2)提出一种基于划分和抽样技术的非平衡类学习算法(ILDPS)。与ILDP一样,ILDPS使用划分方法将多数类样本集划分为多个簇,并将每个簇分别与少数类样本集合并得一组新的数据集。不同于ILDP,ILDPS将抽样技术应用到每个数据集上,以获得一个新的训练集,进而学习一个分类模型。因此,ILDPS也学习一个包含多个分类模型的分类器库。在算法ILDP和ILDPS中,划分方法有两个重要作用:充分考虑多数类中样本的局部性特征;获得相对平衡的训练数据集。在ILDPS中,抽样技术的主要作用在于进一步平衡每个训练集,进而学习具有更高泛化能力的模型。KEEL数据集上的实验结果表明,所提算法均能有效提升传统分类方法在指标recall、g-mean、f-measure和AUC上的泛化性能;ILDPS算法则进一步提升ILDP算法在非平衡类问题上的泛化能力,并优于其他高级非平衡类算法。
【学位授予单位】:信阳师范学院
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP181

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 张宏哲;;FFT算法的一种改进[J];长安大学学报(自然科学版);1988年01期
2 苑宝生,俞铁城;连呼汉语识别研究[J];声学学报;1989年06期
3 孙杨模;;操作系统常见的几种算法举例分析[J];湖北三峡职业技术学院学报;2010年02期
4 郜振华;吴昊;;一种改进的混合蝙蝠算法[J];南华大学学报(自然科学版);2019年01期
5 吴天行;郭键;;基于“反学习”理论的人工蜂群算法在订单分批问题中的应用[J];物流技术;2017年12期
6 全燕;陈龙;;算法传播的风险批判:公共性背离与主体扭曲[J];华中师范大学学报(人文社会科学版);2019年01期
7 肖海军;成金华;何凡;;双核因素蝙蝠算法[J];中南民族大学学报(自然科学版);2018年01期
8 张进;;一种快速双对分逻辑运算算法[J];情报学报;1992年03期
9 陈广江;用MUSIC算法处理非均匀间隔采样数据[J];系统工程与电子技术;1998年09期
10 于浩;王芳;;ROHC算法在LWIP上的仿真与实现[J];计算机仿真;2017年12期
中国重要会议论文全文数据库 前8条
1 李孟霖;余祥;巫岱玥;许新坤;;基于蚁群TSP算法的路径规划问题研究[A];第六届中国指挥控制大会论文集(上册)[C];2018年
2 李灯熬;王晓毓;赵菊敏;史萌;张沛;;基于3D-MAP和CNMC多径抑制算法[A];第九届中国卫星导航学术年会论文集——S03 卫星导航信号及抗干扰技术[C];2018年
3 王璐;姜亢;张鹏;;星上压缩算法评测方案[A];第四届高分辨率对地观测学术年会论文集[C];2017年
4 孙迪峰;梁旭斌;赵天青;许学忠;郑辉;成龙;;宽带MUSIC算法中同步干扰的影响与对策[A];中国声学学会2017年全国声学学术会议论文集[C];2017年
5 尹冀锋;;一种新的图象自适应增强算法[A];四川省通信学会一九九二年学术年会论文集[C];1992年
6 王世平;马时平;李权合;何林远;王晨;丁文杉;刘坤;;一种基于边缘约束的快速图像去雾算法[A];第八届中国航空学会青年科技论坛论文集[C];2018年
7 张炜;李勇刚;周晓君;;一种求解有城市访问顺序约束旅行商问题的状态转移算法[A];2018中国自动化大会(CAC2018)论文集[C];2018年
8 饶洪辉;姬长英;;基于分水岭算法的绿色作物和背景分割[A];农业工程科技创新与建设现代农业——2005年中国农业工程学会学术年会论文集第三分册[C];2005年
中国重要报纸全文数据库 前1条
1 林珊珊;算法推荐中的伦理冲突[N];学习时报;2019年
中国博士学位论文全文数据库 前10条
1 苗苗;类电磁机制算法及若干应用的研究[D];西安电子科技大学;2017年
2 刘婧;非理想条件下DOA估计算法研究[D];哈尔滨工程大学;2018年
3 郑伟华;快速傅立叶变换—算法及应用[D];湖南大学;2015年
4 彭展;序列挖掘中几类关键问题的模型及算法研究[D];西安电子科技大学;2017年
5 李勇;基于深度学习的粒子图像测速算法研究及应用[D];华中科技大学;2018年
6 宋云胜;基于划分与压缩的加速学习算法研究[D];山西大学;2018年
7 滕飞;基于视觉的内河重点水域船舶跟踪算法研究[D];武汉理工大学;2016年
8 谢涌泉;蜜蜂算法研究与应用[D];武汉理工大学;2015年
9 陈克明;动态多智能算法及其在物流配送系统中的应用研究[D];东华大学;2018年
10 丁才昌;分布估计算法性能及分类研究[D];武汉大学;2014年
中国硕士学位论文全文数据库 前10条
1 张韵婷;面向静态轨迹的异常检测算法研究[D];沈阳建筑大学;2017年
2 阎逸飞;基于Key-Value倾斜模型的Spark动态数据分区算法[D];北京邮电大学;2019年
3 叶德旺;脉冲星候选体特征筛选算法的研究与设计[D];贵州师范大学;2019年
4 王梦娜;灰狼优化算法的改进及其在参数估计中的应用[D];西安理工大学;2019年
5 张远亮;分布式异构图聚类算法研究[D];浙江大学;2019年
6 周俊;基于划分和抽样技术的非平衡类学习算法[D];信阳师范学院;2019年
7 宋阳;基于划分的聚类算法的改进及其应用[D];沈阳工业大学;2019年
8 刘慧慧;ARL中CLEAN算法的优化研究[D];郑州轻工业大学;2019年
9 王旻;虚拟低音算法的主客观评价研究[D];南京大学;2019年
10 原晓琦;基于雾霾天气下的单幅车辆图像检测算法应用研究[D];西南石油大学;2018年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026