收藏本站
《哈尔滨工程大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

数据流集成分类器算法研究

杨显飞  
【摘要】:随着信息技术的不断发展与应用,人们每天可以收集到大量高速、动态和连续到达的信息,如传感器网络数据、电话记录、金融数据和商业交易数据等。传统静态数据集作为信息的载体已无法有效表达该类信息,因此,数据流作为一种新的数据类型被提出并广泛应用于上述领域。数据流作为一种连续到达的、潜在无限输入的数据有序序列,与传统静态数据集相比,具有以下几个特征:(1)数据高速到达;(2)数据规模宏大;(3)数据流是有序数据;(4)数据流具有动态变化性;(5)数据流往往伴随高维特性。上述特征使数据流无法被传统数据挖掘分类算法有效处理,因此对数据流挖掘算法的研究成为数据挖掘领域的热点之一。 本文聚焦于数据流集成分类问题,围绕个体分类器生成与结论融合两个方面,对噪音数据流、高速数据流以及类标签不完整数据流的集成分类问题展开研究,主要研究工作如下: 首先,针对利用噪音数据流训练集成分类器,集成分类器的分类准确率受噪音数据影响严重的问题,提出一种交叉验证容噪数据流集成分类器算法。交叉验证容噪分类算法是一种典型的噪音消除算法,可以在建立分类模型之前有效去除数据集中的噪音数据,使分类模型的分类准确率明显提高。由于目前并没有学者对其有效性进行理论证明,因此本文通过有噪音数据集的样本复杂度理论,对其有效性进行了严格的理论推导,并根据推导结果提出了一种新的交叉验证容噪分类算法,应用在数据流环境里,进一步提高了集成分类模型对噪音数据流的分类能力。 其次,针对高速数据流数据到达速度远远超过处理器的处理能力,处理器无法利用全部数据训练个体分类器的问题,提出一种基于偏倚抽样的高速数据流集成分类器算法。抽样技术可以有效缩减待处理的数据规模,减少集成分类器的训练和更新时间,由于不同的抽样策略产生的训练数据集,建立集成分类器,其分类准确率具有明显区别。因此本文通过集成分类器期望错误的偏差方差分解,计算各个待抽样数据的期望错误贡献度,并通过集成分类器分类性能的几何分析,说明抽取期望错误贡献度大的数据作为训练数据更新集成分类器模型,可以有效提高集成分类器的分类准确率,并依此提出了基于偏倚抽样的高速数据流集成分类器算法。 再次,针对数据流中数据类标签难以全部获得的问题,提出一种基于聚类假设的半监督数据流集成分类器算法。传统半监督分类算法虽然能够解决类标签不完整数据集的分类问题,但如何将其引入数据流环境,利用数据流特性提高半监督分类算法的分类准确率仍是一个有待解决的问题。本文通过基于聚类假设的半监督分类算法分类误差分析,表明在训练个体分类器时增加有标签数据集的规模可以有效减少分类算法的分类误差,并利用此结论,提出了基于聚类假设的半监督数据流集成分类器算法。 最后,针对选择性集成分类算法训练一旦结束,被选择的个体分类器组合就以确定,无法针对具体数据进行动态调整的问题,提出一种两阶段数据流选择性集成分类器算法。本文首先通过分析说明,选择性集成分类算法获得的个体分类器集合,虽然在整体数据集上具有最优的分类性能,但对某具体数据分类时,并不一定是最优的个体分类器组合。因此,利用支持向量数据描述算法,动态自适应选择数据分类时的个体分类器集合,可以有效避免上述情况的发生,提高选择性集成分类器的分类性能。
【学位授予单位】:哈尔滨工程大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前10条
1 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
2 刘春;郑征;蔡开元;张师超;;数据流频繁闭集的在线挖掘[J];北京航空航天大学学报;2008年08期
3 吕志军;王照飞;谢福鼎;桑雪;;基于FCM聚类的时间序列模糊关联规则挖掘[J];大连理工大学学报;2010年05期
4 刘旭;毛国君;孙岳;刘椿年;;数据流中频繁闭项集的近似挖掘算法[J];电子学报;2007年05期
5 欧阳震诤;罗建书;胡东敏;吴泉源;;一种不平衡数据流集成分类模型[J];电子学报;2010年01期
6 江峰;杜军威;眭跃飞;曹存根;;基于边界和距离的离群点检测[J];电子学报;2010年03期
7 于翔;印桂生;;数据流的不规则网格增量聚类算法[J];哈尔滨工程大学学报;2008年08期
8 王鹏,吴晓晨,王晨,汪卫,施伯乐;CAPE——数据流上的基于频繁模式的分类算法[J];计算机研究与发展;2004年10期
9 李凯,黄厚宽;一种基于聚类技术的选择性神经网络集成方法[J];计算机研究与发展;2005年04期
10 付忠良;;关于AdaBoost有效性的分析[J];计算机研究与发展;2008年10期
【共引文献】
中国期刊全文数据库 前10条
1 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
2 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
3 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
4 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
5 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
6 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
7 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
8 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期
9 陆克芬;方崇;张春乐;;基于人工鱼群算法的投影寻踪评价方法研究[J];安徽农业科学;2009年23期
10 刘延明;陆克芬;方崇;;基于投影寻踪和粒子群优化算法的南宁市内河水质综合评价研究[J];安徽农业科学;2009年26期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 程泽凯;泰锋;;贝叶斯网络分类器结构学习:基于启发式的G2算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 杨波;秦锋;程泽凯;;一种新的分类学习系统评估度量[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 赵越岭;王英丽;;基于粗糙集感应电动机故障诊断决策规则分析[A];第二十七届中国控制会议论文集[C];2008年
5 ;Gas Thickness On-line Monitoring Instrument Design Based on BP Neural Network[A];第二十七届中国控制会议论文集[C];2008年
6 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
7 曾成;赵锡均;徐红;;基于量子遗传算法的聚类方法[A];第二十九届中国控制会议论文集[C];2010年
8 ;Predictive Control Based on Multi-network for a Deep Seabed Mining Robot Vehicle[A];中国自动化学会控制理论专业委员会A卷[C];2011年
9 ;Fault Diagnosis Based on Bayesian Networks for the Data Incomplete Industrial System[A];中国自动化学会控制理论专业委员会A卷[C];2011年
10 毛存礼;余正涛;线岩团;郭剑毅;雷雄丽;;基于短信的旅游景点酒店问答系统研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
3 刘家国;基于突发事件风险的供应链利益分配与行为决策研究[D];哈尔滨工程大学;2010年
4 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
5 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
6 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
7 李强;数据挖掘中关联分析算法研究[D];哈尔滨工程大学;2010年
8 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
9 邬俊;基于交互式语义推理的图像检索算法研究[D];大连海事大学;2010年
10 陈广洲;多源信息耦合的成矿预测新模型研究[D];合肥工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 马冉冉;集成学习算法研究[D];山东科技大学;2010年
2 刘志强;基于数据挖掘的客户行为分析和预测研究[D];山东科技大学;2010年
3 王萍;语音情感识别研究[D];山东科技大学;2010年
4 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
5 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
6 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
7 刘文昊;基于模糊聚类和纹版辅助的织物疵点检测算法研究[D];浙江理工大学;2010年
8 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
9 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
10 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 李彤岩;肖海林;李兴明;;通信网告警加权关联规则挖掘算法的研究[J];电子科技大学学报;2008年06期
2 李洁;高新波;焦李成;;基于特征加权的模糊聚类新算法[J];电子学报;2006年01期
3 李文斌;刘椿年;陈嶷瑛;;基于混合高斯模型的电子邮件多过滤器融合方法[J];电子学报;2006年02期
4 黄毅群;卢正鼎;胡和平;李瑞轩;;分布式异常检测中隐私保持问题研究[J];电子学报;2006年05期
5 陶新民;陈万海;郭黎利;;一种新的基于模糊聚类和免疫原理的入侵监测模型[J];电子学报;2006年07期
6 邓大勇;黄厚宽;李向军;;不一致决策系统中约简之间的比较[J];电子学报;2007年02期
7 吴建鑫,周志华,沈学华,陈兆乾;一种选择性神经网络集成构造方法[J];计算机研究与发展;2000年09期
8 李存华,孙志挥;GridOF:面向大规模数据集的高效离群点检测算法[J];计算机研究与发展;2003年11期
9 杨风召,朱扬勇,施伯乐;IncLOF:动态环境下局部异常的增量挖掘算法[J];计算机研究与发展;2004年03期
10 李凯,黄厚宽;一种基于聚类技术的选择性神经网络集成方法[J];计算机研究与发展;2005年04期
【相似文献】
中国期刊全文数据库 前10条
1 徐科,徐金梧,班晓娟;冷轧带钢表面质量自动监测系统的模式识别方法研究[J];钢铁;2002年06期
2 王勇;李战怀;张阳;;未知真实类标记条件下数据流中的变化发现方法[J];西北工业大学学报;2006年02期
3 张若琳;万力;张发旺;石迎春;;土地利用遥感分类方法研究进展[J];南水北调与水利科技;2006年02期
4 毕晓冬;;基于流分类技术的MPLS协议数据转发研究[J];山东师范大学学报(自然科学版);2006年02期
5 高志森;张铮;李俊;;入侵检测中贝叶斯分类器改进的研究[J];计算机技术与发展;2006年11期
6 王晓东;丁冬花;;实时车辆检测和跟踪系统设计[J];微计算机信息;2006年32期
7 董立岩;刘光远;苑森淼;李永丽;孙铭会;;混合式朴素贝叶斯分类模型[J];吉林大学学报(信息科学版);2007年01期
8 刘慧婷;倪志伟;李建洋;刘政怡;;基于交叉覆盖算法的时间序列模式匹配[J];计算机应用;2007年02期
9 方俊;赵英良;李明钧;;静态手写签名验证技术综述[J];绍兴文理学院学报(自然科学版);2007年01期
10 张勇;;一种新的多类别多标签关联分类方法的研究[J];福建电脑;2007年08期
中国重要会议论文全文数据库 前10条
1 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
2 朱思俞;石锋;;不定人连续汉语音的四声识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
3 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
4 徐蔚然;于武贵;郭军;;基于统计方法的混排文字切分与分类[A];第八届全国汉字识别学术会议论文集[C];2002年
5 雷蕾;吴乃君;刘鹏;刘兰娟;;灵敏度分析:分类器中的缺失数据[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
6 陈颖颖;张雁军;贾鑫;;通信信号调制识别方法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
7 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
8 肖惠玲;曾翎;黄海莹;张琳;王昱清;杨勤;陈华富;;支持向量机探测脑功能活动[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
9 沈钱波;何加铭;;连笔手写识别搜索算法研究[A];浙江省电子学会2008年学术年会论文集[C];2008年
10 叶强;李一军;;基于支持度-显著度的关联规则分类方法研究[A];管理科学与系统科学研究新进展——第8届全国青年管理科学与系统科学学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
2 CPW 张戈;Aperto PacketMAX系列可同时服务2000个用户[N];电脑商报;2005年
3 记者 姜晓凌 见习记者 王毅俊;原来,科技也能如此美丽[N];上海科技报;2007年
4 中国科学院东北地理与农业生态研究所 李建平;保护地球之肾 遥感体检湿地健康[N];中国水利报;2008年
5 中科院院士 戴汝为;开辟人机结合的新天地[N];计算机世界;2004年
6 本版编辑 中国科学院计算技术研究所数字媒体研究中心 山世光 陈熙霖 高文 徐昕 刘洪宇;你的脸,你的身份证明[N];中国计算机报;2006年
7 刘光强;LSI新一代多业务企业网关[N];中国计算机报;2007年
8 清华大学玉泉医院神外 刘伟国;意识如何进行客观评价[N];健康报;2008年
9 武德锋 李国辉 林洪文 姚作梁;图像世界任我行[N];计算机世界;2002年
10 清华大学 朱健翔;人脸表情估计与表情合成[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 杨显飞;数据流集成分类器算法研究[D];哈尔滨工程大学;2011年
2 王喆;面向模式表示与模式源的分类器设计方法研究[D];南京航空航天大学;2008年
3 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
4 谢元澄;分类器集成研究[D];南京理工大学;2009年
5 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
6 冯爱民;结构驱动的单类分类器设计及拓展研究[D];南京航空航天大学;2011年
7 宁博;面向行人检测的动态视觉词提取与集成分类方法研究[D];中国科学技术大学;2012年
8 汪中;面向变化场景的行人分类检测方法研究[D];中国科学技术大学;2011年
9 薛晖;分类器设计中的正则化技术研究[D];南京航空航天大学;2008年
10 王彦;基于PDE的模式识别方法[D];吉林大学;2006年
中国硕士学位论文全文数据库 前10条
1 甄田甜;基于UFFT的数据流集成分类器研究[D];合肥工业大学;2010年
2 武婷婷;分类器性能评价研究[D];北京交通大学;2010年
3 王亚松;关于组合分类器修剪方法的研究[D];郑州大学;2011年
4 潘世瑞;基于分类器集成技术的数据流分类研究[D];西北农林科技大学;2011年
5 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
6 于柏森;发动机机械故障诊断系统分类器设计[D];长春工业大学;2010年
7 王秀霞;分类器的选择性集成及其差异性研究[D];兰州理工大学;2011年
8 李婷俐;基于多特征级联分类器的道路车辆检测方法研究[D];湖南大学;2012年
9 曹军;基于分类器集成学习的多变量质量诊断研究[D];南京理工大学;2012年
10 邱立;支持向量机和神经网络在手写数字识别算法中的应用研究[D];华南理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026