收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

数据流挖掘分类方法关键技术研究

王涛  
【摘要】: 随着信息技术尤其是网络技术的快速发展,人们收集、存储和传输数据的能力不断提高,导致数据出现了爆炸性增长。与此形成鲜明对比的是,对人们决策有价值的知识却非常匮乏。但是如何从海量数据中获取有价值的知识以指导人们得决策,是当前数据分析领域所面临的主要的热点和难点问题。知识发现与数据挖掘正是在这一背景下诞生的一门新学科。 数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术,近年来正成为数据挖掘领域的研究热点。由于数据流的快速到达和数据规模巨大等原因,传统数据挖掘技术难以满足其要求,也面临着一些新的挑战。 分类技术是数据挖掘中一个非常重要的研究领域,也是数据挖掘领域商业应用最成功的技术之一。数据流模型自身的特点给数据流环境下的分类技术带来了新的挑战,本文的研究工作聚焦于数据流分类技术。从提高分类速度、提高分类精度和处理概念漂移三个方面着手,提出了一系列的高效算法。 针对数据流挖掘中连续属性的处理问题,我们在VFDT的基础上提出了基于排序二叉树的分类算法VFDTb,通过改进VFDTc的信息增益函数计算方式,该算法有效地减少了连续属性最佳划分节点选取的时间开销,从而在保持决策树大小和分类精度不变的基础上提高了分类速度。实验结果显示:相比VFDT,VFDTb的分类速度平均提高25%。 线索化二叉排序树是一种高效的动态插入排序结构,基于该结构,在VFDT和VFDTc的基础上,我们提出了一种分类新的分类算法VFDTt,理论分析表明该算法具有更低的时间复杂度:(1)相比VFDT,VFDTt的样本插入时间复杂度由O(n~2)降低到O(nlogn)。当新样本到达时,VFDTc需要更新O(logn)个属性树结点,而VFDTt只需要更新相应的一个结点即可;(2)改进了VFDTc中连续属性最佳划分节点选取的计算方法,使其时间复杂度由O(nlogn)降低到O(n);(3)根据Fayyad等的结论,相比VFDTc,VFDTt只需从更少的备选划分节点中选取最佳结点,备选划分节点数由O(n)降低到O(logn)。 模糊决策树是决策树理论和模糊理论的有效结合,它既具有决策树分类精度高、计算量小和生成模型容易理解的优点,也具有模糊理论在处理不确定信息方面的优点。本文通过对模糊决策树研究领域的分析,指出了模糊决策树的优点和可能存在的问题,并分别从属性选择标准、模糊决策树构造及停止标准三个方面对相关研究工作分别进行了深入的研究与探讨。在此基础上,提出了数据流挖掘环境下的增量模糊决策树算法IFVFDT,通过和VFDTt(或VFDTb)的有效结合,该算法利用平滑离散化方法处理连续属性中的噪声数据问题,在保持分类速度的同时提高了分类精度。实验结果显示:IFVFDT比VFDT平均执行时间减少16.66%,IFVFDT比VFDTt平均执行时间减少8.87%;在10%噪声数据情况下,VFDT的分类错误率逼近于12.5%,而IFVFDT的分类错误率逼近于8%。 由于概念漂移的存在往往导致分类模型精度的下降,概念漂移问题也成为数据流挖掘中需要解决的最重要问题之一。Hulten等的CVFDT利用备选子树的方法,有效地处理了概念漂移问题。在CVFDT的基础上,我们提出了基于扩展哈希表的概念漂移处理算法HashCVFDT。该算法实现了概念漂移处理所需要的样本高效删除。通过哈希表和链表的有效结合,不仅保持了哈希表所具有的插入和查找快速的优点,而且使扩展哈希表的高效有序输出。该算法在样本插入与删除、划分节点的选取方面都具有很好的效率。实验结果表明,该算法对概念漂移问题的处理具有很好的扩展性和稳定性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨旭波,蔡文立,石教英;通用的交互式可视化环境[J];软件学报;1996年09期
2 林永宁;计算机在电视片生产管理中的应用[J];影视技术;1996年03期
3 詹承华;杨志义;杨柳;;异质多处理器芯片中的数据流核心设计[J];电子技术应用;2006年03期
4 王金栋;周良;张磊;丁秋林;;面向分布式数据流系统的可扩展负载平衡算法[J];应用科学学报;2006年03期
5 刁树民;王永利;张晓勇;;一种数据流中奇异数据的自适应恢复方法[J];计算机工程;2007年15期
6 刘学军;胡平;徐宏炳;董逸生;;基于滑动窗口的在线数据流增量聚集查询[J];计算机工程;2007年21期
7 李国徽;陈辉;杨兵;向军;陈刚;;基于概率模型的数据流预测查询算法[J];计算机科学;2008年04期
8 王磊;黄志球;朱小栋;沈国华;程亮;;数据流中基于事务链表组的频繁闭项集挖掘[J];计算机工程与设计;2008年08期
9 邝祝芳;阳国贵;辛动军;;SWFPM:一种有效的数据流频繁项挖掘算法[J];计算机应用研究;2009年02期
10 张宁;;离群点检测算法研究[J];桂林电子科技大学学报;2009年01期
11 曼苏尔;于晋龙;马书惠;;一种基于数据流跟踪的无线传感网能量模型及网络优化[J];传感技术学报;2009年04期
12 张忠平;梁永欣;;基于反k近邻的流数据离群点挖掘算法[J];计算机工程;2009年12期
13 ;关于多载波调制技术[J];电子质量;2010年02期
14 陈刚;顾进广;李思川;;基于统计的无阻塞连接算法[J];计算机科学;2010年12期
15 王海波;王宪鹏;王芳;陈志国;;一种基于网格和最小生成树的数据流聚类算法[J];计算机系统应用;2011年02期
16 史长捷;;Teledyne RMPS遥测地面站简介及述评[J];遥测遥控;1990年03期
17 杨则正;大数据流的处理[J];管理科学文摘;1994年10期
18 谭文恕;对变电站自动化系统通信网络的要求及通信网络标准化的动态[J];电网技术;1998年12期
19 马宪军,徐永忠;Internet服务质量相关技术的发展[J];电信技术;1998年12期
20 徐天伟,夏幼明,李凯佳;数据流图描述语言的研究与设计[J];云南师范大学学报(自然科学版);2003年03期
中国重要会议论文全文数据库 前10条
1 蔡致远;魏藜;钱卫宁;周傲英;;DEODS:快速准确的数据流密度估计[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 丁健;李建中;李金宝;高宏;;数据流上的并行决策树构成算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 李康宁;樊小泊;陈红;;一种数据流滑动窗口范围连接上基于局部特征的查询索引[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
4 谭建龙;郭丽;刘萍;沈星星;;建立数据流管理系统GodRiver[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
5 后小亮;刘奇志;高先锋;檀宝权;;大量多态数据流的综合压缩算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 李爱平;杨庆民;甘亮;;基于Dwarf的数据流立方体的研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
7 林子雨;林琛;冯少荣;张东站;;MESHJOIN~*:实时数据仓库环境下的数据流更新算法[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
8 李国徽;黄蕾;;数据流环境下的基于加权网格的聚类算法研究[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
9 赵哲;孙婷;陈立军;崔斌;;一种数据流上的快速分段算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
10 王潇;卢阳;陈立军;;网内查询处理中的一种基于数据流共享的过滤查询算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国博士学位论文全文数据库 前10条
1 陈刚;数据流的无阻塞连接算法研究[D];华中科技大学;2010年
2 王涛;数据流挖掘分类方法关键技术研究[D];国防科学技术大学;2007年
3 蒋纲;数据包在无线网络中调度策略的研究[D];华中科技大学;2004年
4 曹锋;数据流聚类分析算法[D];复旦大学;2006年
5 陈辉;数据流频繁模式挖掘及数据预测算法研究[D];华中科技大学;2008年
6 孙玉芬;基于网格方法的聚类算法研究[D];华中科技大学;2006年
7 刘青宝;模糊、动态多维数据建模理论与方法研究[D];国防科学技术大学;2006年
8 王鹏;数据流上的分类算法的研究[D];复旦大学;2007年
9 黄芹华;隐私保持数据挖掘与知识发现研究[D];上海大学;2007年
10 邓娜;基于最优Hankel范数近似的线性相位IIR滤波器设计及其应用研究[D];东华大学;2008年
中国硕士学位论文全文数据库 前10条
1 杜安明;模具企业管理模式及管理信息系统设计[D];重庆大学;2004年
2 张庆;一种基于UML状态图的类级测试技术的研究与实现[D];电子科技大学;2005年
3 赵国斌;铁路试点数据中心设计及实现[D];北京交通大学;2007年
4 宫剑飞;客户区域化归属问题的研究[D];哈尔滨工程大学;2009年
5 贺春亮;基于数据流滑动窗口的降载技术研究[D];燕山大学;2009年
6 张华剑;虚拟筛选海量并行任务管理系统中数据流的管理[D];兰州大学;2010年
7 牟柳晨;基于ASP技术的远程机械设计系统的实施方法研究[D];四川大学;2004年
8 郭秀荣;RBF神经网络在电喷发动机故障诊断中的应用研究[D];东北林业大学;2005年
9 张继超;数据流的变化检测算法及其在实时汇率数据流异常检测中的应用[D];郑州大学;2005年
10 刘波;基于安全分区和IEC61970的调度数据共享平台中若干问题研究[D];浙江大学;2006年
中国重要报纸全文数据库 前10条
1 本报记者 朱杰;优化数据流构建移动未来网络[N];中国计算机报;2010年
2 谭啸;打通企业数据流[N];计算机世界;2005年
3 深圳市物业发展(集团)股份有限公司 程贵平;以理顺数据流为出发点[N];网络世界;2002年
4 本报记者 卢子月;WIPS捕捉空中数据流[N];通信产业报;2010年
5 李;金山毒霸力推数据流杀毒技术[N];计算机世界;2007年
6 杨春光 张钝;数据流托起信息化训练方舟[N];解放军报;2003年
7 IBM大中华区董事长及首席执行总裁 钱大群;用领导者价值观改善思维[N];中国经营报;2011年
8 特约撰稿人 奇琳;B3G的多天线技术[N];通信产业报;2006年
9 记者 杨晓丹通讯员 朱莹;天津石化建起全过程闭环数据流[N];中国石化报;2008年
10 杨正明;网络化管理数据流畅通是关键[N];中国计算机报;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978