收藏本站
《华中科技大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于动态代价敏感的机器学习研究

陈晓林  
【摘要】:传统的机器学习算法是以追求精度为目的,并假定不同类别间的错误分类代价是相同的。但事实并非如此,在很多现实应用中,将一个类别错误分成其他类别的代价有时比将其他类别错误分成该类别的代价高出很多。代价敏感机器学习充分考虑误分类代价,更关注感兴趣类别的正确识别率,在提高该正确识别率的同时,使得错误分类付出的代价尽可能少。 目前,代价敏感机器学习方法使用静态误分类代价,容易产生数据集或应用域依赖,不能较好地解决类分布不均衡的问题,得到的分类器的泛化性能不强。为此,提出一种基于动态误分类代价的机制,该机制充分结合应用域专家的知识,形成客观的具有代表性的误分类代价空间,对不同数据子集灵活地选择更合适的误分类代价,能够更好地逼近应用域数据集真实的误分类代价。 定义了一个最优误分类代价函数,该函数可以保证少数类与多数类之间、类别内部的反馈率与精确率之间达到最佳折中;提出了自适应误分类动态代价寻优方法,该方法根据应用域数据集的不同,自动在其可行误分类代价空间里,搜索适合于不同数据子集的最优误分类代价,形成一个代价敏感分类器。 以前机器学习的评价指标体系不再适合代价敏感分类器的性能评价。为解决这一问题,定义了多个评价代价敏感分类器性能的度量指标,反映分类器在不同类别之间关于精确率、反馈率、Kappa值和F-measure的均衡程度。这些指标旨对各类的反馈率和精确率进行几何平均并最大化,以达到二者之间的最佳折中,充分提高代价少数类的正确识别率,同时尽可能少地牺牲分类器的整体性能。 依据动态误分类代价机制和动态代价自适应算法,提出了三种单一分类器的代价敏感构造算法:(1)自适应动态代价优化决策树算法(ADODT),该算法以决策树为基础,采用最速梯度上升误分类代价寻优方法,在较快的时间内达到算法收敛;(2)基于遗传算法的代价敏感分类器算法(CSC-SGA),该算法以最优误分类代价函数作为适应度函数,用遗传算法来搜寻不均衡数据集的最优误分类代价;(3)自适应动态代价敏感SVM分类器算法(ADC-SVM),该算法以SGA作为最优误分类代价的搜寻算法,以代价敏感SVM作为个体构造分类器,在面对不均衡数据集时,所得分类器的性能比当前的代价敏感SVM有着显著提升。 基于动态误分类代价机制和自适应代价寻优方法,结合bagging技术,提出了一个新颖的代价敏感集成分类器算法----自适应动态代价优化集成分类器(ADOE)。该方法利用重采样技术(有放回和无放回两种形式),并对每个不同类别的实例进行误代价加权,结合误分类代价寻优算法,利用不稳定的学习算法训练多个子分类器,用投票方式对原始数据集实例重新赋予代价敏感性的类别标志,得到的代价非敏感的集成分类器具有代价敏感的分类能力。该分类器在面对类分布严重偏斜的数据集时,分类精度高且性能稳定。 利用真实的数据集做了大量实验,实验结果表明,提出的方法比当前一些方法在性能上有显著提高,特别是自适应动态代价优化集成分类器,能很好地解决类分布严重不均衡数据集的分类问题。并以论文提出的自适应动态代价优化集成分类器设计了一个乳腺癌辅助诊断原型系统,取得了较好的辅助诊断效果。
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP181

【引证文献】
中国硕士学位论文全文数据库 前1条
1 莫嘉林;基于代价敏感布雷格曼散度的旋转机械轴承故障诊断研究[D];长沙理工大学;2013年
【参考文献】
中国期刊全文数据库 前2条
1 邵虹,崔文成,张继武,赵宏;医疗诊断专家系统研究进展[J];小型微型计算机系统;2003年03期
2 丁孝年;陈松灿;;代价敏感特征选择和半监督学习相结合的乳腺癌辅助诊断[J];应用科学学报;2008年03期
【共引文献】
中国期刊全文数据库 前10条
1 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
2 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
3 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
4 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
5 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
6 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
7 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
8 濮永仙;;贝叶网在农业专家系统中的研究与应用[J];安徽农业科学;2011年07期
9 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
10 王斌;;基于聚类的决策树在玉米种质筛选中的应用[J];安徽农业科学;2011年33期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 程泽凯;泰锋;;贝叶斯网络分类器结构学习:基于启发式的G2算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
4 ;Predictive Control Based on Multi-network for a Deep Seabed Mining Robot Vehicle[A];中国自动化学会控制理论专业委员会A卷[C];2011年
5 ;Fault Diagnosis Based on Bayesian Networks for the Data Incomplete Industrial System[A];中国自动化学会控制理论专业委员会A卷[C];2011年
6 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
7 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
8 刘向南;王浩;姚宏亮;;一种基于x~2测试的贪婪搜索结构学习算法[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
9 陆晨;彭怡;李友元;寇纲;;基于分类与TOPSIS方法预测公司审计变更[A];经济全球化与系统工程——中国系统工程学会第16届学术年会论文集[C];2010年
10 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
3 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
4 邬俊;基于交互式语义推理的图像检索算法研究[D];大连海事大学;2010年
5 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
6 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
7 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
8 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
9 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
10 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 郑伟;MDL算法用于时间梯度设计试验猪骨骼肌基因调控网络分析上的研究[D];华中农业大学;2010年
2 马冉冉;集成学习算法研究[D];山东科技大学;2010年
3 王萍;语音情感识别研究[D];山东科技大学;2010年
4 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
5 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
6 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
7 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
8 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
9 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
10 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 屈跃灵,张雁,李会轩;转盘轴承常见故障分析及改进措施[J];轴承;2000年09期
2 王卓 ,田振华 ,赵丁选;滚动轴承的振动监测与故障诊断系统[J];轴承;2002年03期
3 余光伟;郑敏;雷子恒;宋卓远;朱贸;;小波变换在滚动轴承故障分析中的应用[J];轴承;2011年07期
4 杨伟;贾石峰;;基于RBF神经网络的风力发电机组故障诊断研究[J];电气传动自动化;2009年02期
5 陈果;;滚动轴承早期故障的特征提取与智能诊断[J];航空学报;2009年02期
6 郑恩辉;李平;宋执环;;代价敏感支持向量机[J];控制与决策;2006年04期
7 唐明珠;阳春华;桂卫华;谢永芳;;代价敏感概率神经网络及其在故障诊断中的应用[J];控制与决策;2010年07期
8 常家东;基于BP神经网络的磨机调心滚子轴承故障诊断研究[J];煤矿机械;2004年03期
9 郭艳平;颜文俊;包哲静;杨强;;基于经验模态分解和散度指标的风力发电机滚动轴承故障诊断方法[J];电力系统保护与控制;2012年17期
10 程光友;;时域指标在滚动轴承故障诊断中的应用[J];中国设备工程;2005年12期
中国博士学位论文全文数据库 前1条
1 李萌;旋转机械轴承故障的特征提取与模式识别方法研究[D];吉林大学;2008年
中国硕士学位论文全文数据库 前4条
1 李辉;滚动轴承和齿轮振动信号分析与故障诊断方法[D];西北工业大学;2001年
2 陈刚;齿轮和滚动轴承故障的振动诊断[D];西北工业大学;2007年
3 张维新;基于小波分析与神经网络的轴承故障诊断研究[D];天津大学;2008年
4 瞿益丹;基于HHT和SVM的滚动轴承故障振动信号的诊断研究[D];中南大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 赵卫东,盛昭瀚,杜雪寒;基于神经网络的案例推理医疗诊断[J];东南大学学报(自然科学版);2000年03期
2 樊永正;模仿思维的医学专家系统[J];计算机研究与发展;1995年04期
3 刘自伟;常见内科疾病中医诊疗专家辅助系统的设计及其实现[J];计算机时代;1994年01期
4 张红梅,王永成;一个仿人疾病诊断专家系统模型[J];计算机应用研究;2000年01期
5 花蕾,杨育彬,李宁,叶玉坤;基于知识的肺癌早期细胞诊断系统[J];计算机应用研究;2000年02期
6 张立群,李杰;一种应用于多专家会诊系统的调度专家算法[J];计算机应用研究;2000年03期
7 徐宁,王宽全,张大鹏;基于神经网络的掌纹诊病专家系统[J];计算机应用研究;2001年02期
8 林媛,陈新,崔智;面向对象的医疗诊断推理机设计[J];计算机应用与软件;2001年01期
9 刘世岳,李珩,张俐,姚天顺;Co-training机器学习方法在中文组块识别中的应用[J];中文信息学报;2005年03期
10 林东,邵军力;医学诊疗领域通用专家系统设计与实现[J];自动化学报;1995年03期
中国硕士学位论文全文数据库 前1条
1 王娟娟;基于代价敏感的乳腺癌自动诊断方法研究及其应用[D];南京航空航天大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 尤建忠;常见图书编校错误分类(下)[J];科技与出版;1996年04期
2 尤建忠;常见图书编校错误分类(上)[J];科技与出版;1996年03期
3 卫东;郑恩辉;杨敏;吴向阳;张英;陈乐;;基于支持向量机的误分类代价敏感模糊推理系统[J];控制与决策;2010年02期
4 汪西莉,刘芳,焦李成;结合边缘信息的多尺度MRF图像分割[J];中国图象图形学报;2004年06期
5 周生明;廖元秀;;Cost-Sensitive学习的一个新课题[J];广西师范大学学报(自然科学版);2007年04期
6 刘星毅;;基于性价比的分裂属性选择方法[J];计算机应用;2009年03期
7 李春雨,盛昭瀚;对学习样本无误分类的对数型目标函数BP算法[J];系统工程理论与实践;1997年08期
8 袁鼎荣;张师超;朱晓峰;张晨;;基于相对等待时间的代价敏感决策树[J];计算机科学与探索;2007年03期
9 覃泽;韦建忠;;CSL中测试属性选择方法[J];微计算机信息;2008年06期
10 廖元秀;周生明;;误差在Cost-Sensitive分类中的应用[J];广西师范大学学报(自然科学版);2011年02期
中国重要会议论文全文数据库 前10条
1 李春雨;盛昭瀚;;对学习样本无误分类的改进BP算法[A];1996年中国控制会议论文集[C];1996年
2 杨家忠;张侃;;民用航空中的人误分类与分析[A];中国人类工效学学会第六次学术交流会论文摘要汇编[C];2003年
3 余惠祥;段桂华;;综合物化探异常的自适应模式识别和反演[A];1993年中国地球物理学会第九届学术年会论文集[C];1993年
4 吴成东;李孟歆;;自动视觉检测系统及其在胶合板缺陷识别中的应用[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(上)[C];2003年
5 孙义明;曾继东;;数据挖掘技术及其应用[A];全国计算机安全学术交流会论文集(第二十二卷)[C];2007年
6 张东波;王耀南;;一种可变离散精度粗逻辑网络[A];2006中国控制与决策学术年会论文集[C];2006年
7 赵春晖;王福利;贾明兴;;一种改进的聚类算法在间歇过程中的应用[A];2006中国控制与决策学术年会论文集[C];2006年
8 陈宏伟;刘建伟;费向东;;一种半监督环境下的Adaboost算法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
9 向坚;俞坚;叶绿;;一种高效的大规模RFID数据集合清理方法[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
10 应宏微;;基于分形维数特征的车牌汉字识别[A];第二十四届中国控制会议论文集(下册)[C];2005年
中国博士学位论文全文数据库 前10条
1 唐明珠;类别不平衡和误分类代价不等的数据集分类方法及应用[D];中南大学;2012年
2 陈晓林;基于动态代价敏感的机器学习研究[D];华中科技大学;2010年
3 郑恩辉;基于支持向量机的代价敏感数据挖掘研究与应用[D];浙江大学;2006年
4 付连艳;处理效应评估的统计方法[D];东北师范大学;2011年
5 王玲;基于图像特征选择的田间籽棉成熟度与品级判别技术研究[D];南京农业大学;2009年
6 杨艳屏;主动学习算法及其在心血管疾病诊断中的应用研究[D];华中科技大学;2010年
7 朱文圣;基因型常有误差时单倍型分析的统计方法[D];东北师范大学;2006年
8 马光志;多代价敏感的反传神经网络优化研究[D];华中科技大学;2009年
9 禇一平;基于条件随机场模型的视频目标分割算法研究[D];浙江大学;2007年
10 田江;基于支持向量机的孤立点检测方法研究[D];大连理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 李宝琨;特征自动构建的异常检测分类模型研究[D];太原理工大学;2004年
2 倪艾玲;改进代价敏感的决策树学习方法研究[D];广西师范大学;2006年
3 巫光福;有序的误分类数据的贝叶斯分析[D];厦门大学;2008年
4 骆盈盈;基于数据挖掘的欠费预警系统的设计与实现[D];中南大学;2006年
5 靳燕;代价敏感异常分类算法研究[D];太原理工大学;2007年
6 曾雪;基于代价敏感的决策树的电信离网分析模型的研究[D];昆明理工大学;2008年
7 宋明丽;基于概念学习的模糊规则提取方法的研究[D];大连理工大学;2008年
8 刘锴明;代价敏感的缺失值填充若干问题研究[D];广西师范大学;2010年
9 董玮炜;采用距离分类法的伪随机电流注入模拟电路测试[D];湖南大学;2006年
10 吕彥波;基于支持向量机的入侵检测系统研究[D];西安理工大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026