收藏本站
《郑州大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

数据流上概念漂移的检测和分类

周驰  
【摘要】: 在当今信息时代,通信、计算机和网络技术的快速发展让我们能捕获和存储大量的数据,导致数据出现了爆炸性增长。在这些数据中寻找模式、趋势和异常之处,并且以简单的数量模型归纳,是信息时代巨大的挑战之一。数据挖掘正是为应对这一的挑战所诞生的一门新学科。近几年来出现了一类新的数据应用模型,包括:信用卡欺诈监测、网络安全监控、传感器数据和电力供应网等。此类应用模型的特点是海量的数据以高速有序的形式到达,学者将此类数据形式称之为数据流,即大量且连续的和潜在无限的数据的有序序列。 分类技术是数据挖掘中一个非常重要的研究领域,而数据流模型自身的特点给传统的分类技术带来了新的挑战,即如何从快速到来的、海量的且数据分布可能发生变化的数据流中训练模型,来有效地预测未来的数据趋势。近年来出现了大量的数据流分类算法:VFDT、CVFDT、加权集成分类器和在线Bagging和Boosting。 分本的研究重点为分类带有概念漂移的数据流技术。首先通过对概念漂移的分析,提出一种概念漂移检测方法。该方法使用统计学理论估计某一确定模型在最新概念上的真实错误率的置信区间,在一定概率保证下检测数据流中是否发生了概念漂移。其次使用该概念漂移检测方法和核均值匹配(KMM)算法形成一种新的集成分类器框架,提出了一种数据流分类的新算法WSEC,并以理论和实验证明了该算法的有效性。最后提出了一种自适应概念漂移的基于Hoeffding树在线bagging分类算法(AHBag)。该算法对概念漂移检测方法进行修改使之适合在线挖掘,并由检测结果决定更新Hoeffding树或重建新Hoeffding树。实验结果表明,该算法在处理带有概念漂移的数据流上表现出很高的分类精度。
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 张君昌;张译;;基于改进AdaBoost算法的人脸检测[J];计算机仿真;2011年07期
2 田晶华;李翠平;陈红;;基于类标签聚类的动态问题分类集成学习算法[J];计算机科学与探索;2011年09期
3 张雪松;;基于级联AdaBoost的Snort异常检测预处理插件研究[J];科学技术与工程;2011年17期
4 王刚;黄星元;施明智;胡挺;张旭炜;李焰;;光纤围栏扰动事件模式识别研究[J];光通信技术;2011年07期
5 林川;潘盛辉;谭光兴;李梦和;;基于聚类与链码技术的交通标志检测[J];计算机测量与控制;2011年06期
6 谭衢霖;徐东彪;;基于面向对象分类的密云县城区地面不透水程度分析[J];北京交通大学学报;2011年04期
7 蔡华利;刘鲁;王理;;突发事件Web新闻多层次自动分类方法[J];北京工业大学学报;2011年06期
8 霍红文;封举富;;基于多类在线Boosting的图像识别算法[J];计算机辅助设计与图形学学报;2011年07期
9 王燕;公维军;;双阈值级联分类器的加速人脸检测算法[J];计算机应用;2011年07期
10 邱超凡;李浩;;基于DAGSVM的雷达辐射源信号分选与识别[J];雷达科学与技术;2011年03期
中国重要会议论文全文数据库 前10条
1 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
2 朱思俞;石锋;;不定人连续汉语音的四声识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
3 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
4 徐蔚然;于武贵;郭军;;基于统计方法的混排文字切分与分类[A];第八届全国汉字识别学术会议论文集[C];2002年
5 雷蕾;吴乃君;刘鹏;刘兰娟;;灵敏度分析:分类器中的缺失数据[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
6 陈颖颖;张雁军;贾鑫;;通信信号调制识别方法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
7 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
8 肖惠玲;曾翎;黄海莹;张琳;王昱清;杨勤;陈华富;;支持向量机探测脑功能活动[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
9 沈钱波;何加铭;;连笔手写识别搜索算法研究[A];浙江省电子学会2008年学术年会论文集[C];2008年
10 叶强;李一军;;基于支持度-显著度的关联规则分类方法研究[A];管理科学与系统科学研究新进展——第8届全国青年管理科学与系统科学学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
2 记者 姜晓凌 见习记者 王毅俊;原来,科技也能如此美丽[N];上海科技报;2007年
3 中国科学院东北地理与农业生态研究所 李建平;保护地球之肾 遥感体检湿地健康[N];中国水利报;2008年
4 CPW 张戈;Aperto PacketMAX系列可同时服务2000个用户[N];电脑商报;2005年
5 计算机世界实验室 吴挺;Intel的专业“核动力”[N];计算机世界;2007年
6 中科院院士 戴汝为;开辟人机结合的新天地[N];计算机世界;2004年
7 本版编辑 中国科学院计算技术研究所数字媒体研究中心 山世光 陈熙霖 高文 徐昕 刘洪宇;你的脸,你的身份证明[N];中国计算机报;2006年
8 刘光强;LSI新一代多业务企业网关[N];中国计算机报;2007年
9 清华大学玉泉医院神外 刘伟国;意识如何进行客观评价[N];健康报;2008年
10 北京 冬梅;P4时代真的来了吗[N];中国电脑教育报;2001年
中国博士学位论文全文数据库 前10条
1 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
2 杨显飞;数据流集成分类器算法研究[D];哈尔滨工程大学;2011年
3 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
4 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
5 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
6 郭立超;数据流挖掘若干技术研究及其在电信行业的应用[D];浙江大学;2011年
7 张剑;宽带接入网流量识别关键技术研究[D];北京邮电大学;2011年
8 王喆;面向模式表示与模式源的分类器设计方法研究[D];南京航空航天大学;2008年
9 谢元澄;分类器集成研究[D];南京理工大学;2009年
10 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
2 李燕;面向含噪数据流的概念漂移集成分类研究[D];合肥工业大学;2011年
3 罗秀;数据流在线分类算法的研究与实现[D];东北大学;2009年
4 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
5 甄田甜;基于UFFT的数据流集成分类器研究[D];合肥工业大学;2010年
6 孙金山;智能移动设备中数据流挖掘算法研究[D];燕山大学;2012年
7 武婷婷;分类器性能评价研究[D];北京交通大学;2010年
8 何登成;数据流上复杂序查询的研究与实现[D];浙江大学;2010年
9 王亚松;关于组合分类器修剪方法的研究[D];郑州大学;2011年
10 李有生;一种改进的数据流处理算法的研究与实现[D];吉林大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026