收藏本站
《华东理工大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

基于神经网络的不平衡数据分类方法研究

杨泽平  
【摘要】:不平衡数据分类问题是机器学习领域内一个重要的研究课题,引起国内外学者的广泛关注。不平衡数据普遍存在于现实生活中,例如:基因表达数据、信用卡交易数据和医学数据等。现有分类器及其学习算法在解决不平衡数据分类问题时,由于只关注整体识别率而往往忽视少数类的识别率。如何改善类间样本的不平衡,增加少数类的识别率,同时兼顾多数类的准确度,是亟需解决的一个问题。 本论文分析和比较了一些常用的分类模型与算法对不平衡数据集的学习和推广性能,从数据和算法两个层面重点研究基于神经网络的不平衡数据分类方法。本文的主要研究工作如下: (1)在分析了不平衡数据对神经网络及其误差反传(Back-propagation, BP)算法性能影响的基础上,提出了面向不平衡数据集的主动下采样算法。该算法可以自动去除远离边界的多数类样本,在保持整体分布特性近似不变的前提下,使得类别间不平衡程度得到改善。本文根据不平衡分类评价指标对主动下采样算法和现有采样方法进行了比较。实验结果表明,本文提出的下采样算法能够有效地减轻不平衡数据对BP算法性能的影响,提高少数类识别率且兼顾整体识别率。 (2)传统采样方法在解决不平衡分类问题时容易导致类间样本重叠,现有数据清理算法在判断样本是否可删除时总是存在误删除现象。借鉴离群点检测算法的思想,结合采样方法,提出了边界噪声因子(Borderline Noise Factor, BNF)的概念,给出了基于边界噪声因子的数据清理算法。实验结果证明,基于边界噪声因子的数据清理算法和采样方法相结合可有效改善不平衡和类间样本重叠对BP算法性能的影响。 (3)针对不平衡数据对极限学习机(Extreme Learning Machine, ELM)算法的影响,提出了量子行为粒子群优化极限学习机算法,该算法采用量子行为粒子群优化算法来优化极限学习机的网络结构,在经验风险和结构风险之间保持一个良好的平衡,并采用面向不平衡数据集分类器的评价标准作为优化算法的目标评价函数;实验结果证明,该算法不仅能够优化极限学习机的网络结构,且适用于不平衡数据集。 (4)传统极限学习机对不平衡数据集分类时,采用相同的错分代价,导致少数类的识别率不高,针对这一问题提出了加权极限学习机的权值新策略;极限学习机算法随机选择输入权值和隐层阈值而导致隐节点大量冗余,加重了网络结构的复杂程度,影响了极限学习机的推广性能,因此提出了一种自适应剪枝算法来解决隐节点冗余问题,并采用隐节点输出向量正交投影距离和隐节点输出向量的范数这两种剪枝标准:将自适应剪枝算法与加权极限学习机相结合,提出自适应剪枝加权极限学习机算法。实验证明,自适应剪枝加权极限学习机算法能够有效地解决不平衡问题,且有很好的推广性能。 (5)基因表达数据有着样本分布不平衡,基因维数大,样本维数小等特点,针对基因表达数据的特点,采用分类信息指数准则来进行初始基因的选择,然后利用主成分分析进行降维,同等条件下,采用不同的分类算法对实际的基因表达数据(结肠数据集、白血病数据集、蛋白质数据集等)进行了分析,结果表明本文所提出的这些不平衡分类算法能够提高基因表达数据的分类准确率。 总之,本论文主要以经典的机器学习数据库不平衡数据集和基因表达数据为应用对象,从数据和算法两方面提出一系列学习方法,提高了神经网络对不平衡数据集的分类能力。
【学位授予单位】:华东理工大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP18

【参考文献】
中国期刊全文数据库 前8条
1 谢纪刚;裘正定;;非平衡数据集Fisher线性判别模型[J];北京交通大学学报;2006年05期
2 李颖新,阮晓钢;基于支持向量机的肿瘤分类特征基因选取[J];计算机研究与发展;2005年10期
3 林舒杨;李翠华;江弋;林琛;邹权;;不平衡数据的降采样方法研究[J];计算机研究与发展;2011年S3期
4 王和勇;樊泓坤;姚正安;;SMOTE和Biased-SVM相结合的不平衡数据分类方法[J];计算机科学;2008年05期
5 高大启;有教师的线性基本函数前向三层神经网络结构研究[J];计算机学报;1998年01期
6 邓万宇;郑庆华;陈琳;许学斌;;神经网络极速学习方法研究[J];计算机学报;2010年02期
7 刘波;王凌;金以慧;;差分进化算法研究进展[J];控制与决策;2007年07期
8 尹军梅;杨明;万建武;;一种面向不平衡数据集的核Fisher线性判别分析方法[J];模式识别与人工智能;2010年03期
【共引文献】
中国期刊全文数据库 前10条
1 许小健;张金轮;;微进化算法[J];安徽工程科技学院学报(自然科学版);2010年04期
2 马丽丽;贺超兴;纪建伟;张志斌;;基于BP神经网络番茄果实横纵径生长的建模研究[J];安徽农业科学;2008年06期
3 ;Multi-swingby optimization of mission to Saturn using global optimization algorithms[J];Acta Mechanica Sinica;2009年06期
4 ;A Preliminary Application of the Differential Evolution Algorithm to Calculate the CNOP[J];Atmospheric and Oceanic Science Letters;2009年06期
5 许小健;干洪;张金轮;;差分进化算法及其在固结系数计算中的应用[J];地下空间与工程学报;2010年05期
6 傅阳光;周成平;胡汉平;;无人飞行器海上航迹规划差分进化算法研究[J];兵工学报;2012年03期
7 董奎勇,杨萍;预报细纱条干不匀率的BP神经网络方法[J];北京纺织;2002年05期
8 黄林军,刘让同;BP神经网络在羊毛品质预测中的应用研究[J];北京纺织;2003年05期
9 刘全金;李颖新;阮晓钢;;基于SVM的灵敏度分析方法选取肿瘤特征基因[J];北京工业大学学报;2007年09期
10 焦建成,邢济收,杨大勇;电火花加工中最优加工条件的确定[J];北京机械工业学院学报;2004年01期
中国重要会议论文全文数据库 前10条
1 李娜;高广勇;何宏启;曹阳;;基于神经网络模型的室内空气品质评价方法研究[A];2011中国环境科学学会学术年会论文集(第四卷)[C];2011年
2 孔笋;陈增强;;基于差分进化的QoS组播路由算法[A];第二十九届中国控制会议论文集[C];2010年
3 龚鹍;邓方;陈杰;;基于自适应差分进化算法和傅里叶神经网络的电子罗盘的标定[A];中国自动化学会控制理论专业委员会B卷[C];2011年
4 王亚楠;陈杰;甘明刚;;基于差分进化的改进粒子滤波目标跟踪算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年
5 王伟;张航;罗大庸;;基于核模糊C均值聚类和局部建模方法的烟气含氧量软测量模型[A];中国自动化学会控制理论专业委员会C卷[C];2011年
6 ;A New Multiple Attribute Decision Making Method Based on Preference and Projection Pursuit Clustering Model[A];中国自动化学会控制理论专业委员会D卷[C];2011年
7 李俊峰;祝开建;;2005年~2007年国际深空轨迹优化竞赛综述[A];动力学与控制及航天应用[C];2008年
8 李二保;雷菁;徐富兵;华力;;LDPC码度分布的优化研究[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
9 李志伟;胥颐;郝天珧;刘劲松;;利用非线性方法反演琉球-台湾-吕宋地区的岩石层P波速度结构[A];中国科学院地质与地球物理研究所2007学术论文汇编(第六卷)[C];2008年
10 Steve Roecker;;A global optimizing approach for waveform inversion of receiver functions[A];中国科学院地质与地球物理研究所第十届(2010年度)学术年会论文集(中)[C];2011年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 吴德烽;计算智能在三维表面扫描机器人系统中的应用研究[D];大连海事大学;2010年
3 王正家;ACA互连的多因素作用分析与性能优化[D];华中科技大学;2010年
4 朱少敏;多媒体数字水印若干关键算法研究[D];中国电力科学研究院;2010年
5 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
6 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
7 杨国鹏;基于机器学习方法的高光谱影像分类研究[D];解放军信息工程大学;2010年
8 刘贵;精毛纺织品虚拟加工中的预报与反演模型研究[D];东华大学;2010年
9 张明明;面向量子可逆逻辑自动综合的多目标进化算法研究[D];东华大学;2010年
10 齐峰;人工神经树网络模型的优化研究与应用[D];山东师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 曹婷婷;基于结构方程的商户小额贷款信用评价研究[D];大连理工大学;2010年
2 龚正;多目标进化算法改进策略的研究[D];湘潭大学;2010年
3 刘子文;改进的粒子群算法在停车场中的应用[D];湘潭大学;2010年
4 范勤勤;基于协进化策略的改进差分进化算法及应用[D];华东理工大学;2011年
5 李飞;改进的AEA算法及其在过程建模中的应用[D];华东理工大学;2011年
6 苏友富;基于车辆实时调度的公交优化措施研究[D];昆明理工大学;2009年
7 夏宇庆;人工鱼群与差分进化混合优化算法在水质模拟预测中的应用[D];浙江大学;2011年
8 卫炜;注塑成型工艺参数多目标优化设计[D];中南林业科技大学;2009年
9 梁峰;基于BPSO和变邻域差分进化算法的配电网重构[D];东北电力大学;2011年
10 张锐;基于图像处理的帘子布疵点检测的算法研究[D];中原工学院;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 谢纪刚;裘正定;;非平衡数据集Fisher线性判别模型[J];北京交通大学学报;2006年05期
2 徐志高,关正西,张炜;模糊神经网络在导弹动力系统多故障诊断中的应用[J];弹箭与制导学报;2005年01期
3 陈光禹,李为民;一种基于神经网络的ICCAT专家系统测试方法的研究[J];电子学报;1994年08期
4 张吴明,钟约先;基于改进差分进化算法的相机标定研究[J];光学技术;2004年06期
5 何小荣,陈丙珍,胡山鹰,朱振伟;一种新的BP神经网络培训方法[J];化工学报;1994年05期
6 方强,陈德钊,俞欢军,吴晓华;基于优进策略的差分进化算法及其化工应用[J];化工学报;2004年04期
7 刘波,王凌,金以慧,黄德先;微粒群优化算法研究进展[J];化工自动化及仪表;2005年03期
8 邹权;郭茂祖;刘扬;王峻;;类别不平衡的分类方法及在生物信息学中的应用[J];计算机研究与发展;2010年08期
9 周荃;王崇骏;王王君;陈世福;;PC4.5:用于不均衡数据集的C4.5改进算法[J];计算机辅助工程;2006年03期
10 肖健华;吴今培;;样本数目不对称时的SVM模型[J];计算机科学;2003年02期
【相似文献】
中国期刊全文数据库 前10条
1 王胜祥;现实、实践与理论——兼谈图书馆高位理论[J];黑龙江图书馆;1990年02期
2 王健庭;火信号的采集与相关修正[J];数据采集与处理;1987年02期
3 陈国阶;我国东西部发展不平衡与西部开发[J];科技导报;1995年07期
4 王萌;施艳艳;王海明;沈明辉;;不平衡电网电压下双馈风力发电系统强励控制[J];测控技术;2014年07期
5 漫征;;克服地区落后论的错误思想[J];新闻战线;1960年11期
6 ;来稿选题建议[J];青年研究;1999年01期
7 沈睿;;区域发展不平衡——不同地域中小企业信息化建设差距较大[J];每周电脑报;2004年08期
8 张昕竹;用电信普遍服务政策改善经济发展不平衡[J];通信世界;2001年16期
9 周耘;;试论我国年鉴发展的不平衡性[J];图书馆学研究;1987年04期
10 刘叶婷;;智慧城市应依“标”而建[J];信息化建设;2013年09期
中国重要会议论文全文数据库 前10条
1 张雨石;唐丽敏;王庸凯;陈文科;;关于中日航线集装箱运量不平衡原因的分析[A];中国航海学会——2004年度学术交流会优秀论文集[C];2004年
2 廖芳宇;;基于LabVIEW的三相不平衡的测量[A];2011年云南电力技术论坛论文集(入选部分)[C];2011年
3 沙鹏程;;关于西部民营企业可持续发展的思考[A];第十四次全国回族学研讨会论文汇编[C];2003年
4 张敦伟;丁博;;配电网三相不平衡补偿的探讨[A];2007中国电机工程学会电力系统自动化专委会供用电管理自动化学科组(分专委会)二届三次会议论文集[C];2007年
5 王仲生;王翔;;转子不平衡自愈监控系统设计[A];第七届全国信息获取与处理学术会议论文集[C];2009年
6 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 冉亮;胡海辉;;论变电站电能不平衡的有效检查方法[A];华东六省一市电机(电力)工程学会输配电技术研讨会2005年年会论文集[C];2005年
8 暴庆民;胡伟;何辄;李海龙;赵永强;赵东楼;揣宇;;火电厂原煤斗棚煤自动疏通分析以及对策[A];《电站信息》2013年第07期[C];2013年
9 于宝山;龚镇雄;王翠萍;李东晖;李呐;;音乐对经络不平衡指数的影响[A];中国音乐治疗学会第三届学术交流会论文集[C];1993年
10 陈秀华;宋艳华;丁晓钦;;社会主义初级阶段的剥削及其主要形式[A];上海市社会科学界第五届学术年会文集(2007年度)(马克思主义研究学科卷)[C];2007年
中国重要报纸全文数据库 前10条
1 海北支队 高军;抓基层应重点抓薄弱环节[N];人民武警;2008年
2 本报记者 李香才;运网不平衡为智能交通提供空间[N];中国证券报;2013年
3 记者 王传真 叶前;深圳特区扩至全市[N];新华每日电讯;2010年
4 东航国际金融香港公司 金纬;人民币“外升内贬”缘于经济不平衡[N];证券时报;2012年
5 记者 田俊荣;银行业仍存在三大不平衡[N];人民日报;2006年
6 ;全球央行联手难解“货币不平衡”困局[N];21世纪经济报道;2011年
7 本报记者 朱宇;罗奇:中国经济应解决发展不平衡问题[N];中国证券报;2009年
8 记者 梁敏 编辑 朱贤佳;全球利率政策两极分化凸显经济复苏不平衡[N];上海证券报;2009年
9 市委讲师团;怎么看我国发展不平衡[N];德州日报;2010年
10 记者 严婷;各国金融政要:为“经济不平衡”探寻平衡之路[N];第一财经日报;2011年
中国博士学位论文全文数据库 前1条
1 杨泽平;基于神经网络的不平衡数据分类方法研究[D];华东理工大学;2015年
中国硕士学位论文全文数据库 前10条
1 刘芷滔;严格成对不平衡可分组设计[D];北京交通大学;2014年
2 朱晓冬;量刑不平衡问题研究[D];苏州大学;2006年
3 杨鸿骏;针对不平衡文本的分类方法研究[D];北京邮电大学;2014年
4 王代弟;配电网三相不平衡问题的分析与研究[D];沈阳工业大学;2007年
5 张玉;信贷作为金融不平衡的先行指示器的有效性分析[D];广东财经大学;2014年
6 李昆;相干光OFDM系统IQ不平衡补偿算法研究[D];天津理工大学;2014年
7 袁小庆;不平衡数据问题的统计分析[D];东北师范大学;2006年
8 孙瑞;不平衡电网电压下双馈风电机组的输出特性分析和控制[D];燕山大学;2014年
9 孙永亮;订单流不平衡和股票价格行为研究[D];天津大学;2007年
10 茹一帆;TDD MIMO-OFDM系统中I/Q不平衡的估计与补偿[D];西安电子科技大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026