收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于EP的多分类器表决分类算法

刘孟旭  
【摘要】:数据挖掘又称数据库中知识发现,是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务,在商业、金融、电讯、DNA分析、科学研究等诸多领域具有广泛的应用。统计学、机器学习、神经网络等领域的研究者提出了很多分类方法,大部分算法是内存驻留算法,适用于小型数据集。随着数据集的数据量和维数的增加,建立高效的、适用于大型数据集的分类算法已成为数据挖掘的一项挑战性任务。 基于显露模式(Emerging Pattern,EP)的分类方法是针对大型数据集的分类提出的,EP是G.Dong和J.Li提出的一种新的知识模式,这些模式能够捕获目标类和非目标类上多组属性之间的差异,具有很好的分类性能。第一个基于EP的分类算法是G.Dong等提出的CAEP算法,此后相继提出了JEP-Classifier、BCEP和DeEPs等一系列基于EP的分类算法。相关研究表明,基于EP的分类算法的平均分类准确率优于决策树等传统算法,显示了EP在分类方面的优越性。 另一方面,提升(Boosting)与装袋(Bagging)以及其他基于委员会的方法能够显著改善某些算法的分类准确率。基于委员会的方法试图通过合并多个弱分类器建立一个有效的委员会来构造一个更加有效的分类器。以提升和装袋为代表的组合分类方法成为提高某些算法分类准确率的有效方法。但是,现有的组合分类方法研究主要使用决策树、神经网络以及贝叶斯方法作为基分类器,其他类型的分类算法还有待进一步研究。 本文首次提出了建立基于EP的多分类器表决分类算法的思想。由于采用什么样的算法建立基分类器成为实现上述思想需要解决的首要问题,因此我们又提出了一个新的基于EP的分类算法作为基分类器的学习算法,即:基于基本显露模式的分类算法(Classification by Essential Emerging Patterns,CEEP)。以CEEP算法为基分类器学习算法,我们进一步提出采用自助方式建立多个并列的基分类器,通过投票表决的方式合并多个基分类器的组织策略,最终实现了本文提出的算法思想,得到一个融合了基于EP的分类算法和组合分类方法两者优势的新型的分类算法,即:基于EP的多分类器表决分类算法(Classification by Voting Classifiers based on Essential Emerging Patterns,CVCEEP)。 CEEP算法采用了一种基于模式树(P-树)的更快速有效算法挖掘eEP,改 基于EP的多分类器表决分类算法 进了己有的同时使用支持度和增长率EP的评分标准,提出以增长率为标准的评 分策略,并且解决了参数的自适应选择等问题,实验表明CEEP算法具有很好的 分类性能。因此,CEEP算法既是CVCEEP算法的一个重要组成部分,也是一个 独立而完善的基于EP的分类算法。 为了测试算法的分类性能,我们使用UCI机器学习库中的12个数据集作为 实验数据集。并且将实验结果与NB、CS.O、CAEP、LB以及BCEP比较, CEEP 算法显示了很好的分类性能,而且CVCEEP算法的分类准确率和CEEP相比有 显著提高。实验结果表明,本文算法的分类准确率可以与已知最好的分类算法相 媲美。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘星毅;农国才;;几种不同缺失值填充方法的比较[J];南宁师范高等专科学校学报;2007年03期
2 赵斌,戴英侠;基于Unix系统调用的数据挖掘算法[J];计算机工程;2004年03期
3 贾纳豫;试论数据挖掘与机器学习、统计学、数据库的关系[J];玉溪师范高等专科学校学报;2000年04期
4 张丽娟;李舟军;;分类方法的新发展:研究综述[J];计算机科学;2006年10期
5 孙蕾;温有奎;;一种改进的SVM算法在决策分析中的应用[J];情报理论与实践;2006年06期
6 王涛;;遗传算法及其应用[J];新乡学院学报(自然科学版);2008年01期
7 刘晓平;;利用MLC++实现数据挖掘[J];计算机仿真;2006年04期
8 周志华;;通过集成学习进行知识获取[J];重庆邮电大学学报(自然科学版);2008年03期
9 张晓龙;江川;骆名剑;;ROC分析技术在机器学习中的应用[J];计算机工程与应用;2007年04期
10 马世欢;张今;;一种基于遗传算法的优化分类器方法[J];襄樊职业技术学院学报;2008年06期
11 王中锋;王志海;付彬;;一种局部打分搜索型限制性贝叶斯网络结构学习算法[J];南京大学学报(自然科学版);2009年05期
12 邓甦;付长贺;;四种贝叶斯分类器及其比较[J];沈阳师范大学学报(自然科学版);2008年01期
13 张明卫;王波;张斌;朱志良;;基于相关系数的加权朴素贝叶斯分类算法[J];东北大学学报(自然科学版);2008年07期
14 程险峰;李军;李雄飞;;一种基于欠采样的不平衡数据分类算法[J];计算机工程;2011年13期
15 郭萌;王珏;;数据挖掘与数据库知识发现:综述[J];模式识别与人工智能;1998年03期
16 李玲俐;;数据挖掘中分类算法综述[J];重庆师范大学学报(自然科学版);2011年04期
17 朱明;王俊普;;一种聚类学习的新方法[J];模式识别与人工智能;2000年03期
18 李卫民;;EP算法在电信客户细分中的应用[J];中国商界(下半月);2010年01期
19 余丽;;教学评价模型的应用研究[J];软件导刊;2010年10期
20 徐从富;陈峰;范晶;;人工智能若干前沿技术及其在信息对抗中的应用展望[J];通信对抗;2007年03期
中国重要会议论文全文数据库 前10条
1 汤俊;;自适应反洗钱辅助信息系统开发框架设计[A];第10届计算机模拟与信息技术会议论文集[C];2005年
2 关雪飞;杨军;马小兵;;决策树在航空发动机状态数据分析中的应用[A];中国现场统计研究会第十三届学术年会论文集[C];2007年
3 胡选子;谢存禧;;一种条件概率与遗传算法相结合的分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
4 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
5 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
6 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
7 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
8 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
9 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
10 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
中国博士学位论文全文数据库 前10条
1 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年
2 李军;不平衡数据学习的研究[D];吉林大学;2011年
3 黄静华;支持向量机算法研究及在气象数据挖掘中的应用[D];中国矿业大学(北京);2011年
4 张英;基于支持向量机的过程工业数据挖掘技术研究[D];浙江大学;2005年
5 王曙燕;医学图像智能分类算法研究[D];西北大学;2006年
6 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
7 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
8 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
9 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
10 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
中国硕士学位论文全文数据库 前10条
1 刘孟旭;基于EP的多分类器表决分类算法[D];郑州大学;2004年
2 向光;基于机器学习和数据挖掘的入侵检测技术研究[D];东北大学;2005年
3 曹倬瑝;基于数据挖掘的设备故障诊断[D];北京化工大学;2005年
4 那力嘉;基于个人信息管理的邮件处理系统[D];天津大学;2004年
5 魏芳;基本显露模式的挖掘算法[D];郑州大学;2005年
6 方匡南;基于数据挖掘的分类和聚类算法研究及R语言实现[D];暨南大学;2007年
7 樊聪;利用web抽取双语翻译对的研究与实现[D];重庆大学;2007年
8 祝好;基于机器学习的P2P流量识别[D];北京邮电大学;2010年
9 刘志强;基于数据挖掘的客户行为分析和预测研究[D];山东科技大学;2010年
10 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978