收藏本站
《国防科学技术大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

不平稳数据流的分类技术研究

欧阳震诤  
【摘要】: 随着信息技术的快速发展,在诸如无线传感器网络、网络流量监测、信用卡欺诈检测等越来越多的应用领域产生了高速动态、数据规模宏大且连续不断的数据流。数据流挖掘已成为数据挖掘的前沿领域之一,而其中如何高效正确地处理不平稳数据流问题,是当前研究中富有挑战的课题。这里,不平稳数据流是至少存在下列特征之一的数据流:1)存在概念漂移;2)存在大量噪声数据;3)各类样本数量分布不平衡。本文也称存在概念漂移的数据流为进化数据流,各类样本数量分布不平衡的数据流为不平衡数据流。 本文聚焦于不平稳数据流挖掘中的分类技术研究,围绕概念漂移处理的增量式学习方法(单分类器方法)和集成分类器方法,以及噪声数据与不平衡数据处理的集成分类器方法等问题展开研究。本文主要工作包括: 1.分析研究了当前进化数据流的分类技术,总结了探测概念漂移的各种方法,详细分析了相关的处理系统与算法,探讨了当前数据流分类技术的发展趋势及所面临的挑战。 2.研究了传统增量式学习算法在进化数据流挖掘中的应用。在决策树算法CVFDT的基础上,提出了基于跳表技术的单分类器算法SL_CVFDT。该算法利用跳表所具有的插入与搜索快速的特点,使它既能满足概念漂移处理所需要的在样本插入、搜索和删除时的快速性,又在最佳划分结点的选取上具有很好的效率。实验表明该算法对进化数据流的处理具有很好的扩展性与稳定性。 3.针对现实不平稳数据流同时存在概念漂移与噪声数据的问题,基于可学习假设的平均概率AP集成分类器,提出了集成分类器WEAP-I与WEAP-II。WEAP-I结合基于权重的集成分类器与AP集成分类器,通过缓冲部分历史数据来解决噪声问题。实验验证了WEAP-I的良好抗噪性能。WEAP-II在AP集成分类器的基础上,通过分块技术,结合基于权重的集成分类器,有效解决了块内隐含渐进概念漂移、块间含连续突变概念漂移的噪声数据流分类问题。理论分析与实验验证表明:相比AP集成分类器,WEAP-II集成分类器更能适应同时存在概念漂移与噪声数据的数据流分类挖掘,其分类性能优于AP集成分类器,抗噪性能更强,并且具有与AP相近甚至更低的时间复杂度。 4.针对稳态假设下不平衡进化数据流分类问题,在基于权重的AWE集成分类器基础上,综合利用过抽样与欠抽样技术,提出了IMDWE集成分类器模型。IMDWE集成分类器在集成学习过程中,根据分类性能的不同目标,采取了不同的权重确定策略。理论分析与实验验证表明:相比基于权重的AWE集成分类器,该集成分类器具有更低的时间复杂度——实验结果显示IMDWE生成分类模型的平均执行时间减少37.3%;更能适应存在不平衡进化数据流分类,其整体分类性能(G-mean指标)优于AWE集成分类器模型——实验结果显示相比AWE集成分类器平均提高为7.22%;能明显提升少数类的分类精度——实验结果显示相比AWE集成分类器平均提高为15.63%。 5.针对噪声数据流分类问题,在可学习假设下,综合利用基于平均概率的AP集成分类器与抽样技术,提出了一种处理不平衡噪声数据流的集成分类器模型IMDAP。理论分析与实验验证表明:该集成分类器有效解决了概念漂移与噪声共存的不平衡数据流分类问题,并具有与AP集成分类器相近的时间复杂度,同时抗噪性能更强;其整体分类性能(G-mean指标)优于AP集成分类器——实验结果显示相比AP集成分类器平均提高为2.3%;能明显提升少数类的分类精度——实验结果显示相比AP集成分类器平均提高为7.1%。
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP311.13

【引证文献】
中国期刊全文数据库 前1条
1 张成虎;吴莹莹;;基于Binary-SADT的可疑金融交易识别方法[J];上海金融;2012年05期
中国博士学位论文全文数据库 前1条
1 张剑;宽带接入网流量识别关键技术研究[D];北京邮电大学;2011年
【参考文献】
中国期刊全文数据库 前7条
1 钱江波;王永利;陈征;陈华辉;金光;;数据流窗口连接查询处理器研究[J];电子学报;2009年02期
2 王涛;李舟军;颜跃进;陈火旺;;数据流挖掘分类技术综述[J];计算机研究与发展;2007年11期
3 郭艳红,邓贵仕;基于事例的推理(CBR)研究综述[J];计算机工程与应用;2004年21期
4 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期
5 张冬冬;李建中;王伟平;郭龙江;;数据流历史数据的存储与聚集查询处理算法[J];软件学报;2005年12期
6 戴东波;赵杠;孙圣力;;基于概率数据流的有效聚类算法[J];软件学报;2009年05期
7 周杰;毛宇光;;数据流查询语言的研究与实现[J];计算机技术与发展;2008年01期
中国博士学位论文全文数据库 前2条
1 颜跃进;最大频繁项集挖掘算法的研究[D];国防科学技术大学;2005年
2 王述云;数据流频繁项挖掘与聚类分析的研究[D];复旦大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
2 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
3 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
4 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期
5 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
6 张振海;王晓明;党建武;张雁鹏;;城市轨道交通应急决策支持系统的研究[J];安全;2012年03期
7 彭莉芬;陈俊生;胡学钢;;基于粗糙集决策树算法的研究[J];安庆师范学院学报(自然科学版);2012年01期
8 赵玉鹏;;论机器学习[J];安阳工学院学报;2011年04期
9 利业鞑;孙伟;;基于数据挖掘的入侵检测精确度提升方法[J];北方工业大学学报;2006年01期
10 夏小威;廖振良;;仿生智能算法在突发环境污染事件应急响应中的应用[J];环境科学与管理;2010年12期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
3 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
4 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
5 刘子豪;庄毅;;一种电子邮件敏感信息检测算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
6 陈志坤;杨树强;李爱平;郑黎明;;数据流与数据库之间混合连接查询算法的研究[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
7 张敏;陆向艳;周敏;潘林琳;农冬冬;王彬彬;陈晓江;;数据挖掘在智能题库系统中的应用[A];广西计算机学会2004年学术年会论文集[C];2004年
8 屈利;苑津莎;张卫华;李丽;;结合粗糙集的事例推理在负荷预测中的应用[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
9 江杨;;流数据存储系统体系结构研究[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
10 韩矞;贾焰;甘亮;;一种基于网络安全数据流的混合CUBE模型[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
3 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
4 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
5 吴海;移动实时数据库中的数据广播策略研究[D];华中科技大学;2010年
6 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
7 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
8 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
9 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年
10 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 马冉冉;集成学习算法研究[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
5 韩晓峰;高斯混合模型及在探测网络社区结构中的应用[D];山东科技大学;2010年
6 杨勇;基于SOA的浙江永康某小家电企业应用系统集成平台开发与应用[D];浙江理工大学;2010年
7 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
8 王利明;一种基于PMIPv6的智能辅助高效切换方案[D];郑州大学;2010年
9 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
10 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前6条
1 马永立;钱宗珏;寿国础;胡怡红;;机器学习用于网络流量识别[J];北京邮电大学学报;2009年01期
2 杨谈;崔毅东;金跃辉;程时端;;基于混沌理论的网络流量性能评估[J];电子与信息学报;2009年12期
3 陈照阳;黄上腾;;流数据分类中的概念漂移问题研究[J];计算机应用与软件;2009年02期
4 张文铸;刘佳;袁坚;张林;山秀明;;基于PCA的对等网络流量时空特性监测[J];清华大学学报(自然科学版);2010年04期
5 周苗;杨家海;刘洪波;吴建平;;Internet网络拓扑建模[J];软件学报;2009年01期
6 徐鹏;林森;;基于C4.5决策树的流量分类方法[J];软件学报;2009年10期
【二级引证文献】
中国期刊全文数据库 前1条
1 吴朝平;高增安;;我国POS收单市场洗钱风险与反洗钱对策研究[J];武汉金融;2012年09期
【二级参考文献】
中国期刊全文数据库 前10条
1 李明;Multi-Agent的范例推理[J];重庆师范学院学报(自然科学版);2001年03期
2 刘学军;胡平;徐宏炳;董逸生;钱江波;王永利;;基于硬件加速的高速数据流连续实时聚集查询[J];电子学报;2007年02期
3 邵学广,陈宗海,林祥钦;一种新型的信号拟合方法─—免疫算法[J];分析化学;2000年02期
4 赵卫东,李旗号,盛昭瀚;基于案例推理的决策问题求解研究[J];管理科学学报;2000年04期
5 郭龙江,李建中,王伟平,张冬冬;数据流上的连续预测聚集查询[J];计算机研究与发展;2004年10期
6 宋国杰,唐世渭,杨冬青,王腾蛟;数据流中异常模式的提取与趋势监测[J];计算机研究与发展;2004年10期
7 杨宜东,孙志挥,张净;基于核密度估计的分布数据流离群点检测[J];计算机研究与发展;2005年09期
8 钱江波,徐宏炳,王永利,刘学军,董逸生;多数据流滑动窗口并发连接方法[J];计算机研究与发展;2005年10期
9 周晓云;孙志挥;张柏礼;杨宜东;;高维数据流子空间聚类发现及维护算法[J];计算机研究与发展;2006年05期
10 钱江波;徐宏炳;董逸生;王永利;刘学军;杨雪梅;;基于最小生成树的数据流窗口连接优化算法[J];计算机研究与发展;2007年06期
【相似文献】
中国期刊全文数据库 前10条
1 孙岳;毛国君;刘旭;;数据流中概念漂移检测的集成分类器设计[J];计算机应用研究;2008年01期
2 王辉;刘艳威;左万利;;使用分类器自动发现特定领域的深度网入口(英文)[J];软件学报;2008年02期
3 李斌;数据流处理自动化和重新设计[J];管理科学文摘;1997年05期
4 徐昉,邱道尹,沈宪章;粮仓害虫的特征提取与分类的研究[J];郑州工业大学学报;2000年04期
5 徐科,徐金梧,班晓娟;冷轧带钢表面质量自动监测系统的模式识别方法研究[J];钢铁;2002年06期
6 王勇;李战怀;张阳;;未知真实类标记条件下数据流中的变化发现方法[J];西北工业大学学报;2006年02期
7 张若琳;万力;张发旺;石迎春;;土地利用遥感分类方法研究进展[J];南水北调与水利科技;2006年02期
8 毕晓冬;;基于流分类技术的MPLS协议数据转发研究[J];山东师范大学学报(自然科学版);2006年02期
9 高志森;张铮;李俊;;入侵检测中贝叶斯分类器改进的研究[J];计算机技术与发展;2006年11期
10 王晓东;丁冬花;;实时车辆检测和跟踪系统设计[J];微计算机信息;2006年32期
中国重要会议论文全文数据库 前10条
1 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 魏永超;陈立军;;数据流上复杂事件处理系统Eagle的设计与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
4 朱思俞;石锋;;不定人连续汉语音的四声识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
5 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
6 徐蔚然;于武贵;郭军;;基于统计方法的混排文字切分与分类[A];第八届全国汉字识别学术会议论文集[C];2002年
7 雷蕾;吴乃君;刘鹏;刘兰娟;;灵敏度分析:分类器中的缺失数据[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
8 陈颖颖;张雁军;贾鑫;;通信信号调制识别方法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
9 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
10 肖惠玲;曾翎;黄海莹;张琳;王昱清;杨勤;陈华富;;支持向量机探测脑功能活动[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
中国重要报纸全文数据库 前10条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
2 记者 钱秀丽;今年全力以赴做好五项重点工作[N];中国海洋报;2010年
3 记者 朱夕子;商业规划师何雨生日本设计师小川浩史加盟集成[N];中国纺织报;2009年
4 安向琦 赵鲜娜;从“孤岛”走向集成[N];中国航空报;2010年
5 本报记者 宋斌斌;研发设计信息化:新时期工业企业创新的源泉[N];中国工业报;2009年
6 证券时报记者 黄婷;宝钢股份自主集成冷轧产线在梅钢投产[N];证券时报;2009年
7 见习记者 石俊;成飞集成缘何成为“第一妖股”[N];中华工商时报;2010年
8 吴绵;以顾客为中心森歌巡检集成灶[N];中国质量报;2009年
9 本报记者 同黎娜;集成控股收购日本设计公司始末[N];中国服饰报;2009年
10 ;在MCU中集成模拟和安全技术[N];中国电子报;2009年
中国博士学位论文全文数据库 前10条
1 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
2 李军;基于用户行为挖掘的数据流管理技术研究[D];北京邮电大学;2012年
3 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
4 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
5 郭立超;数据流挖掘若干技术研究及其在电信行业的应用[D];浙江大学;2011年
6 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
7 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
8 杨显飞;数据流集成分类器算法研究[D];哈尔滨工程大学;2011年
9 张剑;宽带接入网流量识别关键技术研究[D];北京邮电大学;2011年
10 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
2 李燕;面向含噪数据流的概念漂移集成分类研究[D];合肥工业大学;2011年
3 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
4 罗秀;数据流在线分类算法的研究与实现[D];东北大学;2009年
5 钱琳;数据流系综分类算法研究[D];广西大学;2012年
6 朱群;基于窗口机制的概念漂移数据流分类算法研究[D];合肥工业大学;2011年
7 何登成;数据流上复杂序查询的研究与实现[D];浙江大学;2010年
8 孙金山;智能移动设备中数据流挖掘算法研究[D];燕山大学;2012年
9 李有生;一种改进的数据流处理算法的研究与实现[D];吉林大学;2010年
10 何江燕;基于数据流的聚类分析算法研究[D];兰州交通大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026