收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

不平稳数据流的分类技术研究

欧阳震诤  
【摘要】: 随着信息技术的快速发展,在诸如无线传感器网络、网络流量监测、信用卡欺诈检测等越来越多的应用领域产生了高速动态、数据规模宏大且连续不断的数据流。数据流挖掘已成为数据挖掘的前沿领域之一,而其中如何高效正确地处理不平稳数据流问题,是当前研究中富有挑战的课题。这里,不平稳数据流是至少存在下列特征之一的数据流:1)存在概念漂移;2)存在大量噪声数据;3)各类样本数量分布不平衡。本文也称存在概念漂移的数据流为进化数据流,各类样本数量分布不平衡的数据流为不平衡数据流。 本文聚焦于不平稳数据流挖掘中的分类技术研究,围绕概念漂移处理的增量式学习方法(单分类器方法)和集成分类器方法,以及噪声数据与不平衡数据处理的集成分类器方法等问题展开研究。本文主要工作包括: 1.分析研究了当前进化数据流的分类技术,总结了探测概念漂移的各种方法,详细分析了相关的处理系统与算法,探讨了当前数据流分类技术的发展趋势及所面临的挑战。 2.研究了传统增量式学习算法在进化数据流挖掘中的应用。在决策树算法CVFDT的基础上,提出了基于跳表技术的单分类器算法SL_CVFDT。该算法利用跳表所具有的插入与搜索快速的特点,使它既能满足概念漂移处理所需要的在样本插入、搜索和删除时的快速性,又在最佳划分结点的选取上具有很好的效率。实验表明该算法对进化数据流的处理具有很好的扩展性与稳定性。 3.针对现实不平稳数据流同时存在概念漂移与噪声数据的问题,基于可学习假设的平均概率AP集成分类器,提出了集成分类器WEAP-I与WEAP-II。WEAP-I结合基于权重的集成分类器与AP集成分类器,通过缓冲部分历史数据来解决噪声问题。实验验证了WEAP-I的良好抗噪性能。WEAP-II在AP集成分类器的基础上,通过分块技术,结合基于权重的集成分类器,有效解决了块内隐含渐进概念漂移、块间含连续突变概念漂移的噪声数据流分类问题。理论分析与实验验证表明:相比AP集成分类器,WEAP-II集成分类器更能适应同时存在概念漂移与噪声数据的数据流分类挖掘,其分类性能优于AP集成分类器,抗噪性能更强,并且具有与AP相近甚至更低的时间复杂度。 4.针对稳态假设下不平衡进化数据流分类问题,在基于权重的AWE集成分类器基础上,综合利用过抽样与欠抽样技术,提出了IMDWE集成分类器模型。IMDWE集成分类器在集成学习过程中,根据分类性能的不同目标,采取了不同的权重确定策略。理论分析与实验验证表明:相比基于权重的AWE集成分类器,该集成分类器具有更低的时间复杂度——实验结果显示IMDWE生成分类模型的平均执行时间减少37.3%;更能适应存在不平衡进化数据流分类,其整体分类性能(G-mean指标)优于AWE集成分类器模型——实验结果显示相比AWE集成分类器平均提高为7.22%;能明显提升少数类的分类精度——实验结果显示相比AWE集成分类器平均提高为15.63%。 5.针对噪声数据流分类问题,在可学习假设下,综合利用基于平均概率的AP集成分类器与抽样技术,提出了一种处理不平衡噪声数据流的集成分类器模型IMDAP。理论分析与实验验证表明:该集成分类器有效解决了概念漂移与噪声共存的不平衡数据流分类问题,并具有与AP集成分类器相近的时间复杂度,同时抗噪性能更强;其整体分类性能(G-mean指标)优于AP集成分类器——实验结果显示相比AP集成分类器平均提高为2.3%;能明显提升少数类的分类精度——实验结果显示相比AP集成分类器平均提高为7.1%。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 孙岳;毛国君;刘旭;;数据流中概念漂移检测的集成分类器设计[J];计算机应用研究;2008年01期
2 王辉;刘艳威;左万利;;使用分类器自动发现特定领域的深度网入口(英文)[J];软件学报;2008年02期
3 李斌;数据流处理自动化和重新设计[J];管理科学文摘;1997年05期
4 徐昉,邱道尹,沈宪章;粮仓害虫的特征提取与分类的研究[J];郑州工业大学学报;2000年04期
5 徐科,徐金梧,班晓娟;冷轧带钢表面质量自动监测系统的模式识别方法研究[J];钢铁;2002年06期
6 王勇;李战怀;张阳;;未知真实类标记条件下数据流中的变化发现方法[J];西北工业大学学报;2006年02期
7 张若琳;万力;张发旺;石迎春;;土地利用遥感分类方法研究进展[J];南水北调与水利科技;2006年02期
8 毕晓冬;;基于流分类技术的MPLS协议数据转发研究[J];山东师范大学学报(自然科学版);2006年02期
9 高志森;张铮;李俊;;入侵检测中贝叶斯分类器改进的研究[J];计算机技术与发展;2006年11期
10 王晓东;丁冬花;;实时车辆检测和跟踪系统设计[J];微计算机信息;2006年32期
11 董立岩;刘光远;苑森淼;李永丽;孙铭会;;混合式朴素贝叶斯分类模型[J];吉林大学学报(信息科学版);2007年01期
12 刘慧婷;倪志伟;李建洋;刘政怡;;基于交叉覆盖算法的时间序列模式匹配[J];计算机应用;2007年02期
13 方俊;赵英良;李明钧;;静态手写签名验证技术综述[J];绍兴文理学院学报(自然科学版);2007年01期
14 张勇;;一种新的多类别多标签关联分类方法的研究[J];福建电脑;2007年08期
15 周屹;;基于Naive Bayes的文本分类器的设计与实现[J];黑龙江工程学院学报;2007年02期
16 徐小慧;张安;端木京顺;郝秦霞;;基于粒子群分类器的遥感图像目标识别[J];红外与激光工程;2007年04期
17 时银水;姬红兵;;基于粗糙集的常规雷达目标分类器研究[J];现代雷达;2007年09期
18 钟萍;岑涌;席斌;;最小二乘支持向量机在医疗数据分析中的应用[J];计算机与数字工程;2007年09期
19 周阿娟;郭相科;谢瑶;;基于小波包分解的声目标识别[J];空军工程大学学报(自然科学版);2007年06期
20 陈建林;樊兴华;王国胤;;基于两步策略的英文文本分类[J];广西师范大学学报(自然科学版);2007年04期
中国重要会议论文全文数据库 前10条
1 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 魏永超;陈立军;;数据流上复杂事件处理系统Eagle的设计与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
4 朱思俞;石锋;;不定人连续汉语音的四声识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
5 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
6 徐蔚然;于武贵;郭军;;基于统计方法的混排文字切分与分类[A];第八届全国汉字识别学术会议论文集[C];2002年
7 雷蕾;吴乃君;刘鹏;刘兰娟;;灵敏度分析:分类器中的缺失数据[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
8 陈颖颖;张雁军;贾鑫;;通信信号调制识别方法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
9 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
10 肖惠玲;曾翎;黄海莹;张琳;王昱清;杨勤;陈华富;;支持向量机探测脑功能活动[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
中国博士学位论文全文数据库 前10条
1 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
2 李军;基于用户行为挖掘的数据流管理技术研究[D];北京邮电大学;2012年
3 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
4 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
5 郭立超;数据流挖掘若干技术研究及其在电信行业的应用[D];浙江大学;2011年
6 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
7 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
8 杨显飞;数据流集成分类器算法研究[D];哈尔滨工程大学;2011年
9 张剑;宽带接入网流量识别关键技术研究[D];北京邮电大学;2011年
10 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
2 李燕;面向含噪数据流的概念漂移集成分类研究[D];合肥工业大学;2011年
3 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
4 罗秀;数据流在线分类算法的研究与实现[D];东北大学;2009年
5 钱琳;数据流系综分类算法研究[D];广西大学;2012年
6 朱群;基于窗口机制的概念漂移数据流分类算法研究[D];合肥工业大学;2011年
7 何登成;数据流上复杂序查询的研究与实现[D];浙江大学;2010年
8 孙金山;智能移动设备中数据流挖掘算法研究[D];燕山大学;2012年
9 李有生;一种改进的数据流处理算法的研究与实现[D];吉林大学;2010年
10 何江燕;基于数据流的聚类分析算法研究[D];兰州交通大学;2010年
中国重要报纸全文数据库 前10条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
2 记者 钱秀丽;今年全力以赴做好五项重点工作[N];中国海洋报;2010年
3 记者 朱夕子;商业规划师何雨生日本设计师小川浩史加盟集成[N];中国纺织报;2009年
4 安向琦 赵鲜娜;从“孤岛”走向集成[N];中国航空报;2010年
5 本报记者 宋斌斌;研发设计信息化:新时期工业企业创新的源泉[N];中国工业报;2009年
6 证券时报记者 黄婷;宝钢股份自主集成冷轧产线在梅钢投产[N];证券时报;2009年
7 见习记者 石俊;成飞集成缘何成为“第一妖股”[N];中华工商时报;2010年
8 吴绵;以顾客为中心森歌巡检集成灶[N];中国质量报;2009年
9 本报记者 同黎娜;集成控股收购日本设计公司始末[N];中国服饰报;2009年
10 ;在MCU中集成模拟和安全技术[N];中国电子报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978