收藏本站
《郑州大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

训练基于EP的分类器算法

温箐笛  
【摘要】:数据挖掘又称数据库中知识发现,是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务,在商业、金融、电讯、DNA分析、科学研究等诸多领域具有广泛的应用。统计学、机器学习、神经网络等领域的研究者提出了很多分类方法,大部分算法是内存驻留算法,适用于小型数据集。随着数据集的数据量和维数的增加,建立高效的、适用于大型数据集的分类法已成为数据挖掘的一个挑战性任务。 基于显露模式(Emerging Pattern,EP)的分类方法是针对大型数据集的分类提出的,EP是G.Dong和J.Li提出的一种新的知识模式,这些模式能够捕获目标类和非目标类上多组属性之间的不同,具有很好的分类性能。第一个基于EP的分类算法是G.Dong等提出的CAEP算法,此后相继提出了JEP-Classifier、BCEP和DeEPs等一系列基于EP的分类算法。相关研究表明,基于EP的分类算法的平均分类准确率优于决策树等传统算法,显示了EP在分类方面的优越性。 本文提出了一种可调整权值的基于EP的分类方法CEPAW。CEPAW使用基本显露模式(eEP)并聚合eEP的区分能力建立分类器。在聚合eEP的区分能力时,eEP的权值通过训练自适应地选取。训练分为两个阶段:第一阶段的主要任务是挖掘eEPs,构造初始分类器。在EP的选取以及评分函数方面,我们都采用了不同于以往的基于EP的分类算法的方法。第二阶段是权值的自适应调整。开始,所有EP的权值相同。反复地使用初始分类器对训练样本进行分类,并通过考察每个EP对训练样本的分类效果调整EP的权值,直到分类器的分类准确率不能再提高。 为了测试算法的分类性能,使用了UCI机器学习库中的12个数据集作为实验数据集,并将实验结果与NB、C5.0、CAEP、LB以及BCEP算法进行比较。结果表明,CEPAW具有更好的分类准确率,自适应地选取EP的权值比以支持度为权值的评分策略更加合理。当数据分布发生轻微变化时,通过再训练,调整EP的权值,CEPAW可以较好地适应新的数据分布。
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP311.13;TP182

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 李卫民;;EP算法在电信客户细分中的应用[J];中国商界(下半月);2010年01期
中国硕士学位论文全文数据库 前2条
1 付会欣;李群机器学习中的辛群分类器研究[D];苏州大学;2008年
2 周鹏杰;精神分裂症脑功能连接数据的分类方法研究[D];湖南大学;2012年
【共引文献】
中国期刊全文数据库 前10条
1 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
2 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
3 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
4 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
5 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
6 王斌;;基于聚类的决策树在玉米种质筛选中的应用[J];安徽农业科学;2011年33期
7 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
8 覃爱明,胡昌振,谭惠民;网络攻击检测中的机器学习方法综述[J];安全与环境学报;2001年01期
9 高志明,关岩,于洪梅,吴秀红,李井会;人工神经网络在化学中的应用进展[J];鞍山钢铁学院学报;2000年03期
10 左吉峰;乔均俭;;ID3算法的合理性证明及实验分析[J];保定学院学报;2008年04期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 贾允毅;胥布工;王世华;刘步春;;端对端网络时钟漂移补偿算法研究及其实现[A];第二十六届中国控制会议论文集[C];2007年
3 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
4 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
5 张铮;胡社教;江萍;;基于EP模式的特征选择算法[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
6 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
7 刘海霞;钟晓妮;周燕荣;田考聪;;决策树在居民就诊卫生服务利用影响因素研究中的应用[A];重庆市预防医学会2010年论文集[C];2011年
8 汪云亮;吕久明;刘孝刚;;基于信息熵的辐射源属性分类方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
9 叶中行;陆青;余敏杰;;计算智能在银行信贷信用分类中的应用[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
10 ;A Neural Network Algorithm for the (m,d)-Coloring Problem of a Graph[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
中国博士学位论文全文数据库 前10条
1 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
2 李曼荔;求解组合优化问题的神经计算方法[D];电子科技大学;2010年
3 桑永胜;空间数据分析的神经计算方法[D];电子科技大学;2010年
4 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
5 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
6 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
7 陈进;高光谱图像分类方法研究[D];国防科学技术大学;2010年
8 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
9 李军;不平衡数据学习的研究[D];吉林大学;2011年
10 魏小涛;在线自适应网络异常检测系统模型与相关算法研究[D];北京交通大学;2009年
中国硕士学位论文全文数据库 前10条
1 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
2 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
3 张书春;数据挖掘技术在SMS系统中的应用研究[D];郑州大学;2010年
4 Rojanakat Payomrat;基于神经网络的双目视差估计[D];哈尔滨工程大学;2010年
5 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
6 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
7 刘振广;一种改进的k_means聚类算法研究[D];哈尔滨工程大学;2010年
8 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
9 秦园;基于SPOT5的土地信息提取技术研究[D];大连理工大学;2010年
10 辛涛;基于混合神经网络的视频序列压缩与加密算法研究[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 高亮,李幼铭,陈旭荣,杨孔庆;地震射线辛几何算法初探[J];地球物理学报;2000年03期
2 赵宏波 ,孟雅玲;数据挖掘在电信客户关系管理中的应用[J];电信技术;2001年12期
3 蒋乐乐,吴先良;基于辛算法的二维电磁场散射问题的研究[J];电子学报;2004年12期
4 赵丽红,孙晓琳,王宇飞,徐心和;基于肤色的人脸检测[J];工程图学学报;2005年03期
5 白薇,钟德寿;李群胚作用的矩映射[J];哈尔滨师范大学自然科学学报;2004年01期
6 周晓剑;马义中;朱嘉钢;;SMO算法的简化及其在非正定核条件下的应用[J];计算机研究与发展;2010年11期
7 李莉;;利用辛几何构造的具有仲裁的认证码[J];吉林建筑工程学院学报;2006年04期
8 孙雁;谢军;;基于Hamilton体系的辛半解析法在各向异性电磁波导中的应用[J];计算力学学报;2005年06期
9 沈新宇;许宏丽;官腾飞;;基于直推式支持向量机的图像分类算法[J];计算机应用;2007年06期
10 韩雪松,王树新,于思远;基于辛算法的纳米加工过程的分子动力学仿真研究[J];机械工程学报;2005年04期
中国博士学位论文全文数据库 前9条
1 陈东方;辛几何理论和小波变换方法在波动方程高频近似中的应用[D];安徽大学;2003年
2 王靖;流形学习的理论与方法研究[D];浙江大学;2006年
3 谢永华;人脸特征抽取与分类器设计若干问题的研究[D];南京理工大学;2006年
4 黄启宏;流形学习方法理论研究及图像中应用[D];电子科技大学;2007年
5 颜莉蓉;脑功能磁共振数据时空分析方法研究[D];国防科学技术大学;2006年
6 王鹏;数据流上的分类算法的研究[D];复旦大学;2007年
7 于海滨;基于头部特征提取的人体检测与跟踪及其应用[D];浙江大学;2007年
8 黄志祥;辛算法在时域电磁散射计算中的应用[D];安徽大学;2007年
9 孙明明;流形学习理论与算法研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前2条
1 刘美洁;脑磁共振成像数据的多类模式分析[D];国防科学技术大学;2011年
2 李繁;脑功能网络的成组独立成分分析[D];国防科学技术大学;2009年
【二级引证文献】
中国硕士学位论文全文数据库 前5条
1 周丽丽;学习表达式的映射机制研究[D];苏州大学;2011年
2 何文慧;李群深层结构学习算法研究[D];苏州大学;2011年
3 夏志君;基于客户细分的供电企业营销策略研究[D];华北电力大学;2012年
4 高聪;李群均值学习算法及应用研究[D];苏州大学;2012年
5 陆丽娟;强跳跃显露模式挖掘算法及其应用[D];湖南大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 李文斌;陈嶷瑛;张娟;张新东;;使用Fisher线性判别方法的提取分类器[J];计算机工程与应用;2010年14期
2 张丽娟;李舟军;;分类方法的新发展:研究综述[J];计算机科学;2006年10期
3 许孝元;韩国强;闵华清;;多步原子规则的大规模关联分类[J];控制理论与应用;2007年03期
4 邓甦;付长贺;;四种贝叶斯分类器及其比较[J];沈阳师范大学学报(自然科学版);2008年01期
5 刘艳霞,职为梅,杨亮;稀有类分类问题研究[J];微型机与应用;2005年06期
6 李卫民;;EP算法在电信客户细分中的应用[J];中国商界(下半月);2010年01期
7 张晓龙;江川;骆名剑;;ROC分析技术在机器学习中的应用[J];计算机工程与应用;2007年04期
8 刘星毅;农国才;;几种不同缺失值填充方法的比较[J];南宁师范高等专科学校学报;2007年03期
9 胡文静;;文本分类技术进展[J];知识经济;2011年10期
10 张勇;;一种新的多类别多标签关联分类方法的研究[J];福建电脑;2007年08期
中国重要会议论文全文数据库 前10条
1 叶强;李一军;;基于支持度-显著度的关联规则分类方法研究[A];管理科学与系统科学研究新进展——第8届全国青年管理科学与系统科学学术会议论文集[C];2005年
2 汤俊;;自适应反洗钱辅助信息系统开发框架设计[A];第10届计算机模拟与信息技术会议论文集[C];2005年
3 关雪飞;杨军;马小兵;;决策树在航空发动机状态数据分析中的应用[A];中国现场统计研究会第十三届学术年会论文集[C];2007年
4 胡选子;谢存禧;;一种条件概率与遗传算法相结合的分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
5 马永立;寿国础;胡怡红;钱宗珏;区海平;;新型网络流量识别分析系统及其性能评估[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
6 周德全;;离散贝叶斯分类算法及分类误差估计[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
7 张国荣;;基于SVM分类算法的电力变压器故障诊断[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
8 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
9 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
10 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
中国博士学位论文全文数据库 前10条
1 李军;不平衡数据学习的研究[D];吉林大学;2011年
2 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
3 黄静华;支持向量机算法研究及在气象数据挖掘中的应用[D];中国矿业大学(北京);2011年
4 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
5 谷琼;面向非均衡数据集的机器学习及在地学数据处理中的应用[D];中国地质大学;2009年
6 王鹏;数据流上的分类算法的研究[D];复旦大学;2007年
7 郑广勇;哺乳动物转录因子及其靶基因的挖掘分析[D];复旦大学;2009年
8 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年
9 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
10 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 刘孟旭;基于EP的多分类器表决分类算法[D];郑州大学;2004年
2 温箐笛;训练基于EP的分类器算法[D];郑州大学;2006年
3 刘志强;基于数据挖掘的客户行为分析和预测研究[D];山东科技大学;2010年
4 向光;基于机器学习和数据挖掘的入侵检测技术研究[D];东北大学;2005年
5 赵斌;多值SVM分类投票法的改进[D];武汉科技大学;2007年
6 唐艺军;基于蚁群算法的数据挖掘应用研究[D];辽宁工程技术大学;2007年
7 曹倬瑝;基于数据挖掘的设备故障诊断[D];北京化工大学;2005年
8 那力嘉;基于个人信息管理的邮件处理系统[D];天津大学;2004年
9 刘艳霞;基于eEP的稀有类分类问题研究[D];郑州大学;2005年
10 樊聪;利用web抽取双语翻译对的研究与实现[D];重庆大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026