收藏本站
《郑州大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于EP的多分类器表决分类算法

刘孟旭  
【摘要】:数据挖掘又称数据库中知识发现,是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务,在商业、金融、电讯、DNA分析、科学研究等诸多领域具有广泛的应用。统计学、机器学习、神经网络等领域的研究者提出了很多分类方法,大部分算法是内存驻留算法,适用于小型数据集。随着数据集的数据量和维数的增加,建立高效的、适用于大型数据集的分类算法已成为数据挖掘的一项挑战性任务。 基于显露模式(Emerging Pattern,EP)的分类方法是针对大型数据集的分类提出的,EP是G.Dong和J.Li提出的一种新的知识模式,这些模式能够捕获目标类和非目标类上多组属性之间的差异,具有很好的分类性能。第一个基于EP的分类算法是G.Dong等提出的CAEP算法,此后相继提出了JEP-Classifier、BCEP和DeEPs等一系列基于EP的分类算法。相关研究表明,基于EP的分类算法的平均分类准确率优于决策树等传统算法,显示了EP在分类方面的优越性。 另一方面,提升(Boosting)与装袋(Bagging)以及其他基于委员会的方法能够显著改善某些算法的分类准确率。基于委员会的方法试图通过合并多个弱分类器建立一个有效的委员会来构造一个更加有效的分类器。以提升和装袋为代表的组合分类方法成为提高某些算法分类准确率的有效方法。但是,现有的组合分类方法研究主要使用决策树、神经网络以及贝叶斯方法作为基分类器,其他类型的分类算法还有待进一步研究。 本文首次提出了建立基于EP的多分类器表决分类算法的思想。由于采用什么样的算法建立基分类器成为实现上述思想需要解决的首要问题,因此我们又提出了一个新的基于EP的分类算法作为基分类器的学习算法,即:基于基本显露模式的分类算法(Classification by Essential Emerging Patterns,CEEP)。以CEEP算法为基分类器学习算法,我们进一步提出采用自助方式建立多个并列的基分类器,通过投票表决的方式合并多个基分类器的组织策略,最终实现了本文提出的算法思想,得到一个融合了基于EP的分类算法和组合分类方法两者优势的新型的分类算法,即:基于EP的多分类器表决分类算法(Classification by Voting Classifiers based on Essential Emerging Patterns,CVCEEP)。 CEEP算法采用了一种基于模式树(P-树)的更快速有效算法挖掘eEP,改 基于EP的多分类器表决分类算法 进了己有的同时使用支持度和增长率EP的评分标准,提出以增长率为标准的评 分策略,并且解决了参数的自适应选择等问题,实验表明CEEP算法具有很好的 分类性能。因此,CEEP算法既是CVCEEP算法的一个重要组成部分,也是一个 独立而完善的基于EP的分类算法。 为了测试算法的分类性能,我们使用UCI机器学习库中的12个数据集作为 实验数据集。并且将实验结果与NB、CS.O、CAEP、LB以及BCEP比较, CEEP 算法显示了很好的分类性能,而且CVCEEP算法的分类准确率和CEEP相比有 显著提高。实验结果表明,本文算法的分类准确率可以与已知最好的分类算法相 媲美。
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP311.13

知网文化
【引证文献】
中国期刊全文数据库 前1条
1 孙宜贵;李周芳;职为梅;刘孟旭;;数据挖掘分类器性能度量相关问题的研究[J];山西电子技术;2006年05期
中国硕士学位论文全文数据库 前1条
1 邱雪妮;稿件分类决策支持系统的分析与设计[D];哈尔滨工业大学;2008年
【参考文献】
中国期刊全文数据库 前1条
1 范明;王秉政;;一种直接在Trans-树中挖掘频繁模式的新算法[J];计算机科学;2003年08期
【共引文献】
中国期刊全文数据库 前10条
1 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
2 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
3 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
4 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
5 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
6 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
7 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
8 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
9 王斌;;基于聚类的决策树在玉米种质筛选中的应用[J];安徽农业科学;2011年33期
10 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
3 贾允毅;胥布工;王世华;刘步春;;端对端网络时钟漂移补偿算法研究及其实现[A];第二十六届中国控制会议论文集[C];2007年
4 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
5 ;Predictive Control Based on Multi-network for a Deep Seabed Mining Robot Vehicle[A];中国自动化学会控制理论专业委员会A卷[C];2011年
6 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
7 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
8 李小红;李寅;谢成明;;基于连续Adaboost彩色图像人脸检测算法[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
9 张铮;胡社教;江萍;;基于EP模式的特征选择算法[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
10 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
3 邬俊;基于交互式语义推理的图像检索算法研究[D];大连海事大学;2010年
4 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
5 汪澎;驾驶人警觉状态检测技术研究[D];江苏大学;2010年
6 李曼荔;求解组合优化问题的神经计算方法[D];电子科技大学;2010年
7 桑永胜;空间数据分析的神经计算方法[D];电子科技大学;2010年
8 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
9 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
10 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 马冉冉;集成学习算法研究[D];山东科技大学;2010年
2 王萍;语音情感识别研究[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
5 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
6 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
7 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
8 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
9 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
10 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 宋喜莲;王鄂;;决策支持系统综述[J];黑龙江科技信息;2007年01期
2 田正军;张鸿彦;;基于自动分类的邮件过滤系统[J];河南科学;2007年02期
3 方勇,戚飞虎;一种新的多类模式识别方法[J];红外与毫米波学报;2004年06期
4 刘华;;改进的简单贝叶斯文本分类[J];暨南大学学报(自然科学版);2007年01期
5 潘翔,姚明海,陈国华;多分类器的一种动态联合方法[J];计算机工程与应用;2002年12期
6 范明;刘孟旭;赵红领;;一种基于基本显露模式的分类算法[J];计算机科学;2004年11期
7 李志国;钟将;冯永;叶春晓;;基于知识本体的文本分类技术及其应用研究[J];计算机科学;2007年08期
8 罗可,林睦纲,郗东妹;数据挖掘中分类算法综述[J];计算机工程;2005年01期
9 卢炎生;崔得暄;邹磊;;特征序列分析方法在文本分类中的应用[J];计算机工程;2006年20期
10 刘美茹;;基于LSI和SVM的文本分类研究[J];计算机工程;2007年15期
中国硕士学位论文全文数据库 前10条
1 黄深泽;群决策理论和方法中若干问题的研究[D];西南交通大学;2002年
2 舒光斌;基于多Agent的群体决策支持系统研究[D];武汉理工大学;2004年
3 孙宜贵;基于eEP的两阶段方法分类研究[D];郑州大学;2004年
4 耿光刚;决策支持系统中若干模型问题研究[D];山东科技大学;2005年
5 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
6 王宇;基于TFIDF的文本分类算法研究[D];郑州大学;2006年
7 付裕;文本分类方案选择方法及原型系统开发[D];大连理工大学;2006年
8 袁涛;交通污染模拟评价决策支持系统研究与开发[D];华东师范大学;2007年
9 王卫玲;web文本分类中特征向量优化技术研究[D];山东师范大学;2007年
10 孟杰;基于构造性覆盖算法的中文文本分类[D];安徽大学;2007年
【二级引证文献】
中国博士学位论文全文数据库 前1条
1 谷琼;面向非均衡数据集的机器学习及在地学数据处理中的应用[D];中国地质大学;2009年
中国硕士学位论文全文数据库 前4条
1 吴东升;教学信息中的分类知识发现[D];合肥工业大学;2006年
2 孟玉明;数据挖掘在电信客户流失预测中的应用研究[D];中南大学;2007年
3 孙革新;基于数据挖掘的企业客户关系管理系统的设计与实现[D];吉林大学;2009年
4 王娟妮;梯级泵站优化运行智能决策支持方法研究及应用[D];扬州大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 刘星毅;农国才;;几种不同缺失值填充方法的比较[J];南宁师范高等专科学校学报;2007年03期
2 赵斌,戴英侠;基于Unix系统调用的数据挖掘算法[J];计算机工程;2004年03期
3 贾纳豫;试论数据挖掘与机器学习、统计学、数据库的关系[J];玉溪师范高等专科学校学报;2000年04期
4 张丽娟;李舟军;;分类方法的新发展:研究综述[J];计算机科学;2006年10期
5 孙蕾;温有奎;;一种改进的SVM算法在决策分析中的应用[J];情报理论与实践;2006年06期
6 王涛;;遗传算法及其应用[J];新乡学院学报(自然科学版);2008年01期
7 刘晓平;;利用MLC++实现数据挖掘[J];计算机仿真;2006年04期
8 周志华;;通过集成学习进行知识获取[J];重庆邮电大学学报(自然科学版);2008年03期
9 张晓龙;江川;骆名剑;;ROC分析技术在机器学习中的应用[J];计算机工程与应用;2007年04期
10 马世欢;张今;;一种基于遗传算法的优化分类器方法[J];襄樊职业技术学院学报;2008年06期
中国重要会议论文全文数据库 前10条
1 汤俊;;自适应反洗钱辅助信息系统开发框架设计[A];第10届计算机模拟与信息技术会议论文集[C];2005年
2 关雪飞;杨军;马小兵;;决策树在航空发动机状态数据分析中的应用[A];中国现场统计研究会第十三届学术年会论文集[C];2007年
3 胡选子;谢存禧;;一种条件概率与遗传算法相结合的分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
4 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
5 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
6 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
7 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
8 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
9 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
10 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
中国博士学位论文全文数据库 前10条
1 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年
2 李军;不平衡数据学习的研究[D];吉林大学;2011年
3 黄静华;支持向量机算法研究及在气象数据挖掘中的应用[D];中国矿业大学(北京);2011年
4 张英;基于支持向量机的过程工业数据挖掘技术研究[D];浙江大学;2005年
5 王曙燕;医学图像智能分类算法研究[D];西北大学;2006年
6 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
7 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
8 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
9 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
10 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
中国硕士学位论文全文数据库 前10条
1 刘孟旭;基于EP的多分类器表决分类算法[D];郑州大学;2004年
2 向光;基于机器学习和数据挖掘的入侵检测技术研究[D];东北大学;2005年
3 曹倬瑝;基于数据挖掘的设备故障诊断[D];北京化工大学;2005年
4 那力嘉;基于个人信息管理的邮件处理系统[D];天津大学;2004年
5 魏芳;基本显露模式的挖掘算法[D];郑州大学;2005年
6 方匡南;基于数据挖掘的分类和聚类算法研究及R语言实现[D];暨南大学;2007年
7 樊聪;利用web抽取双语翻译对的研究与实现[D];重庆大学;2007年
8 祝好;基于机器学习的P2P流量识别[D];北京邮电大学;2010年
9 刘志强;基于数据挖掘的客户行为分析和预测研究[D];山东科技大学;2010年
10 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026