收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

不平衡数据学习的研究

李军  
【摘要】:本文首先阐述不平衡数据学习的研究背景、现状和相关工作,以及模型评估与模型选择相关工作等。然后,围绕不平衡数据学习的解决策略,开展一系列研究工作,从不同角度探讨与不平衡数据学习相关的问题。本文研究内容和主要贡献包括以下几个方面: (1)提出一种基于Boosting技术和过采样技术融合的不平衡数据学习算法PCBoost。PCBoost算法分为权值初始化、数据合成、子分类器学习、子分类器集成学习等四个阶段。提出一种新的数据合成方法,在数据合成后训练子分类器,被子分类器错分的合成样例将被删除,从而起到扰动修正的作用。讨论并证明了PCBoost算法权值更新的规范性以及误差界和参数选择问题。与SMOTEBoost、DataBoost-IM等算法实验比较结果表明,PCBoost有处理不平衡数据的优势。 (2)提出基于欠采样的不平衡数据分类算法。不平衡数据分类的关键在于有效地寻找分类边界,而只有处于边界附近的样例才对分类边界的寻找有贡献,基于上述思想,提出基于欠采样的不平衡数据分类算法。定义δ可去概念,判断多数类样例是否远离分类边界,并基于此对多数类样例进行欠采样,然后在欠采样数据集上训练分类器。 (3)针对不平衡数据分类器评估,提出关注少数类准确度的性能评估度量加权AUC——wAUC。模型评估是数据挖掘的重要步骤,合理的性能评估度量能够保证选择最优的分类器,对于不平衡数据学习,其性能评估度量应关注少数类上的准确度,wAUC以真正率为积分变量,对ROC曲线下方面积加权,使得wAUC更加偏置于在少数类上取得更佳性能的分类器。 (4)提出基于层次分析法构造多种度量或多种方法综合评价的模型选择框架。不同性能评估方法和度量侧重不同方面,因此,选择分类器的结果不尽相同。基于层次分析法的模型选择框架,集成多种性能评估方法和度量,综合考虑分类器在各个性能评估方法和度量下的性能指标,给出集成结果。这种基于层次分析法的模型选择框架参数是可调整的。 本文针对不平衡数据分类问题,在过采样、欠采样、集成学习和模型评估等方面展开研究工作,分别取得相应研究成果,公开发表了相关论文。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李晓波;;集成分类对比:Bagging NB & Boosting NB[J];微电子学与计算机;2010年08期
2 郭红刚,方敏;AdaBoost方法在入侵检测技术上的应用[J];计算机应用;2005年01期
3 黄国宏;刘刚;;一种新的RBF神经元网络分类算法[J];计算机仿真;2008年08期
4 夏火松;刘建;;基于VSM的文本分类挖掘算法综述[J];情报探索;2010年09期
5 常冬霞;张贤达;;基于小生境技术的人脸分类算法[J];电视技术;2009年S2期
6 唐德玉;杨进;;基于数据挖掘的IDDM入侵检测系统模型的设计和实现[J];电脑知识与技术(学术交流);2007年14期
7 周屹;;基于Naive Bayes的文本分类器的设计与实现[J];黑龙江工程学院学报;2007年02期
8 周德全;郭艳清;;离散贝叶斯分类算法雷达目标一维距离像识别[J];电光与控制;2007年05期
9 武建华;沈钧毅;方加沛;;提取有效规则的关联分类算法[J];西安交通大学学报;2009年04期
10 李广奎;高明霞;毛国君;姚文集;;同构XML流层次分类研究[J];微计算机信息;2010年30期
11 徐小慧;张安;端木京顺;郝秦霞;;基于粒子群分类器的遥感图像目标识别[J];红外与激光工程;2007年04期
12 王全;;一种多分辨率数据流在线分类算法[J];计算机应用;2007年10期
13 黄国宏;刘刚;;新的C-RBF神经网络分类器的设计与实现[J];计算机应用研究;2008年03期
14 徐健;常志国;;一种改进的基于SNoW的人脸定位算法[J];现代电子技术;2008年18期
15 程有龙;李斌;张文聪;庄镇泉;;融合先验知识的自适应行人跟踪算法[J];模式识别与人工智能;2009年05期
16 殷慧;曹永锋;孙洪;;基于多维金字塔表达和AdaBoost的高分辨率SAR图像城区场景分类算法[J];自动化学报;2010年08期
17 霍颖瑜;王晓峰;;一种新的SVM多类分类算法[J];佳木斯大学学报(自然科学版);2006年04期
18 张晓龙;江川;骆名剑;;ROC分析技术在机器学习中的应用[J];计算机工程与应用;2007年04期
19 张勇;;一种新的多类别多标签关联分类方法的研究[J];福建电脑;2007年08期
20 杨亮,周娅;C4.5改进算法及其在客户价值分析上的应用[J];桂林电子工业学院学报;2005年03期
中国重要会议论文全文数据库 前10条
1 李晓波;;集成分类对比:Bagging NB & Boosting NB[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
2 周德全;;离散贝叶斯分类算法及分类误差估计[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
3 雷蕾;吴乃君;刘鹏;刘兰娟;;灵敏度分析:分类器中的缺失数据[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
4 张国荣;;基于SVM分类算法的电力变压器故障诊断[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
5 李秋洁;茅耀斌;王执铨;;一种基于boosting的不平衡数据分类算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年
6 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
7 朱思俞;石锋;;不定人连续汉语音的四声识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
8 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
9 尧德中;廖祥;;基于支持向量机的脑电模式分类技术研究[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
10 徐蔚然;于武贵;郭军;;基于统计方法的混排文字切分与分类[A];第八届全国汉字识别学术会议论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 李军;不平衡数据学习的研究[D];吉林大学;2011年
2 谢元澄;分类器集成研究[D];南京理工大学;2009年
3 王喆;面向模式表示与模式源的分类器设计方法研究[D];南京航空航天大学;2008年
4 杨显飞;数据流集成分类器算法研究[D];哈尔滨工程大学;2011年
5 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
6 杨春宇;数据流上的聚类与分类算法[D];清华大学;2009年
7 覃姜维;迁移学习方法研究及其在跨领域数据分类中的应用[D];华南理工大学;2011年
8 赵强利;基于选择性集成的在线机器学习关键技术研究[D];国防科学技术大学;2010年
9 王亮;基于判别模式学习的人体行为识别方法研究[D];哈尔滨工业大学;2011年
10 王瑞;针对类别不平衡和代价敏感分类问题的特征选择和分类算法[D];中国科学技术大学;2013年
中国硕士学位论文全文数据库 前10条
1 余力涛;直推式迁移分类算法与应用研究[D];大连理工大学;2012年
2 张丽;基于Boosting技术的显露模式集成分类算法[D];湖南大学;2011年
3 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
4 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
5 武婷婷;分类器性能评价研究[D];北京交通大学;2010年
6 潘世瑞;基于分类器集成技术的数据流分类研究[D];西北农林科技大学;2011年
7 王秀霞;分类器的选择性集成及其差异性研究[D];兰州理工大学;2011年
8 李丹;基于JEP的癌症分类算法研究[D];湖南大学;2011年
9 曹仪;组合分类器及其在公司财务困境预测中的应用[D];湖南师范大学;2013年
10 杜晓旭;基于Boosting算法的人脸识别方法研究[D];浙江大学;2006年
中国重要报纸全文数据库 前10条
1 通讯员 黄慧文;吉隆全体党员开展“比学促学”活动[N];日喀则报;2008年
2 冀灵渊 朔城区四中;为学生创设快乐的学习情境[N];朔州日报;2010年
3 民乐县逸夫小学 宋晓华;用爱心培养学生主动学习的兴趣[N];张掖日报;2005年
4 姜堰市东桥中心小学 杨爱军;在课文课堂中渗透心理教育[N];成才导报.教育周刊;2005年
5 师炜;西安学习经验可全省推广[N];西安日报;2003年
6 黄明;精子分类器决定生男生女[N];广东科技报;2000年
7 山东省临沭县白旄中学 张秀伟;如何培养中学生学习历史的习惯[N];学知报;2011年
8 本报记者 靳晓燕;哦,学习是能倒着来的[N];光明日报;2011年
9 剑河民族中学 刘明;刍议性格与学习的关系[N];贵州民族报;2011年
10 郭佳 编译;21世纪的学习什么样[N];中国教师报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978