收藏本站
《西北农林科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于分类器集成技术的数据流分类研究

潘世瑞  
【摘要】:随着通信和计算机信息技术的发展,许多应用领域,如金融市场、网络监控、传感器网络产生了大量连续到达的数据流。针对数据流的挖掘引起了学者们的广泛关注。但目前大多数数据流挖掘算法都假设数据是以精确的信息出现的,而在实际生活中,由于测量误差、传输延迟、数据缺失等原因,所收集到的数据往往带有大量的不确定性信息。同时,大多数数据流分类算法假定数据流上的数据是完全标记的,而在实际应用中,完全标记数据流需要消耗大量的人力资源。因此,研究处理含有不确定信息的数据流算法以及只需要部分训练样本的数据流算法具有重大意义。 本文针对训练数据中类别属性带有不确定性的数据流进行研究,同时对只含正例样本和大量未标记样本的数据流(PU数据流)分类进行探讨,主要研究成果与创新点如下: (1)针对不确定决策树分类器NS-PDT仅能处理离散属性问题,采取遍历连续属性中所有可能分裂点查找最大非确定信息增益的方法对NS-PDT进行扩展,使之能够处理连续属性。 (2)针对不确定数据流,提出使用静态分类器集成(Static Classifier Ensemble)算法进行分类。静态分类器集成算法以扩展后的NS-PDT为基分类器,采取加权投票的方式对数据流上的未标记样本进行预测,有着较好的分类能力。 (3)在静态分类器集成算法的基础上,提出一种动态分类器集成算法(Dynamic Classifier Ensemble)。动态分类器集成算法根据不同的测试样本决定分类器集合中基分类器的权重,从而提高静态分类器集成的分类能力。 (4)针对PU数据流中训练样本仅含有正例样本的问题,提出一种新的动态分类器集成算法DCEPU,DCEPU算法构造了适合于PU学习的验证集,同时设计了新的权重更新方式。能有效处理PU场景下的概念漂移问题。 在人工数据集SEA以及Hyperplane,真实数据集RCV1-v2上对不确定数据流的静态分类器集成算法和动态分类器集成算法进行了验证和比较,实验结果表明,两种算法均能有效处理不确定数据流上的概念漂移,其中动态分类器集成算法比静态分类器集成算法能提高2%左右的PCC_dist准确率。 在RCV1-v2数据集上设计了多个场景模拟概念漂移,检验DCEPU的分类性能,结果表明在PU数据流场合,DCEPU算法比Stacking最大能提高3.4%的F1准确率。
【学位授予单位】:西北农林科技大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP311.13

手机知网App
【共引文献】
中国期刊全文数据库 前10条
1 张品;蒲菊华;刘永利;熊璋;;适用于连续数值标签的兴趣漂移增量学习方法[J];北京航空航天大学学报;2009年09期
2 马瑞民;邹会文;王浩畅;;一种简单的流式数据动态分类算法[J];大庆石油学院学报;2009年02期
3 杨杰;陈恩红;;面向个性化服务的用户兴趣偏移检测及处理方法[J];电子技术;2009年11期
4 孙洁;李辉;韩建光;;基于滚动时间窗口支持向量机的财务困境预测动态建模[J];管理工程学报;2010年04期
5 琚春华;陈之奇;;一种挖掘概念漂移数据流的模糊积分集成分类方法[J];山东大学学报(工学版);2011年04期
6 刘征;周清雷;;贝叶斯数据流分类算法研究[J];计算机工程与设计;2010年03期
7 侯传宇;;隐含概念漂移的数据流分类算法研究[J];宿州学院学报;2008年02期
8 陈丙杰;王晓晔;常飞;;噪声数据流的分类方法[J];天津理工大学学报;2011年03期
9 尹志武;黄上腾;薛贵荣;;Logistic Regression for Evolving Data Streams Classification[J];Journal of Shanghai Jiaotong University;2007年02期
10 郭涛;李贵洋;;信用卡欺诈行为多层动态检测模型[J];微计算机信息;2009年12期
中国重要会议论文全文数据库 前3条
1 陈崇超;施鸿喜;范明;;集成基于EP的分类器用于分类数据流[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 陈猛;郭华平;范明;;一种基于贝叶斯的多窗口数据流分类模型[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国硕士学位论文全文数据库 前10条
1 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
2 何莹杰;个性化图书信息服务技术研究[D];哈尔滨工程大学;2010年
3 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
4 夏超伦;基于社会计算的电子商务协同过滤推荐算法研究[D];浙江大学;2011年
5 殷贤君;基于增量存储的商业数据流分类挖掘算法研究与应用[D];浙江工商大学;2011年
6 许翀寰;面向用户兴趣漂移的Web数据流挖掘算法研究[D];浙江工商大学;2011年
7 朱群;基于窗口机制的概念漂移数据流分类算法研究[D];合肥工业大学;2011年
8 李燕;面向含噪数据流的概念漂移集成分类研究[D];合肥工业大学;2011年
9 柏桂荣;基于RSS信息源的用户兴趣模型研究[D];南京航空航天大学;2010年
10 倪卫杰;基于用户兴趣模型的个性化论文推荐系统研究[D];天津大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 徐科,徐金梧,班晓娟;冷轧带钢表面质量自动监测系统的模式识别方法研究[J];钢铁;2002年06期
2 王勇;李战怀;张阳;;未知真实类标记条件下数据流中的变化发现方法[J];西北工业大学学报;2006年02期
3 张若琳;万力;张发旺;石迎春;;土地利用遥感分类方法研究进展[J];南水北调与水利科技;2006年02期
4 毕晓冬;;基于流分类技术的MPLS协议数据转发研究[J];山东师范大学学报(自然科学版);2006年02期
5 高志森;张铮;李俊;;入侵检测中贝叶斯分类器改进的研究[J];计算机技术与发展;2006年11期
6 王晓东;丁冬花;;实时车辆检测和跟踪系统设计[J];微计算机信息;2006年32期
7 董立岩;刘光远;苑森淼;李永丽;孙铭会;;混合式朴素贝叶斯分类模型[J];吉林大学学报(信息科学版);2007年01期
8 刘慧婷;倪志伟;李建洋;刘政怡;;基于交叉覆盖算法的时间序列模式匹配[J];计算机应用;2007年02期
9 方俊;赵英良;李明钧;;静态手写签名验证技术综述[J];绍兴文理学院学报(自然科学版);2007年01期
10 张勇;;一种新的多类别多标签关联分类方法的研究[J];福建电脑;2007年08期
中国重要会议论文全文数据库 前10条
1 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
2 朱思俞;石锋;;不定人连续汉语音的四声识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
3 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
4 徐蔚然;于武贵;郭军;;基于统计方法的混排文字切分与分类[A];第八届全国汉字识别学术会议论文集[C];2002年
5 雷蕾;吴乃君;刘鹏;刘兰娟;;灵敏度分析:分类器中的缺失数据[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
6 陈颖颖;张雁军;贾鑫;;通信信号调制识别方法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
7 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
8 肖惠玲;曾翎;黄海莹;张琳;王昱清;杨勤;陈华富;;支持向量机探测脑功能活动[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
9 沈钱波;何加铭;;连笔手写识别搜索算法研究[A];浙江省电子学会2008年学术年会论文集[C];2008年
10 薛忠;李艳;谢维信;;一种改进的模糊联想分类器[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
中国重要报纸全文数据库 前10条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
2 CPW 张戈;Aperto PacketMAX系列可同时服务2000个用户[N];电脑商报;2005年
3 记者 姜晓凌 见习记者 王毅俊;原来,科技也能如此美丽[N];上海科技报;2007年
4 中国科学院东北地理与农业生态研究所 李建平;保护地球之肾 遥感体检湿地健康[N];中国水利报;2008年
5 本版编辑 中国科学院计算技术研究所数字媒体研究中心 山世光 陈熙霖 高文 徐昕 刘洪宇;你的脸,你的身份证明[N];中国计算机报;2006年
6 中科院院士 戴汝为;开辟人机结合的新天地[N];计算机世界;2004年
7 武德锋 李国辉 林洪文 姚作梁;图像世界任我行[N];计算机世界;2002年
8 刘光强;LSI新一代多业务企业网关[N];中国计算机报;2007年
9 清华大学玉泉医院神外 刘伟国;意识如何进行客观评价[N];健康报;2008年
10 清华大学 朱健翔;人脸表情估计与表情合成[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 王喆;面向模式表示与模式源的分类器设计方法研究[D];南京航空航天大学;2008年
2 谢元澄;分类器集成研究[D];南京理工大学;2009年
3 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
4 杨显飞;数据流集成分类器算法研究[D];哈尔滨工程大学;2011年
5 冯爱民;结构驱动的单类分类器设计及拓展研究[D];南京航空航天大学;2011年
6 宁博;面向行人检测的动态视觉词提取与集成分类方法研究[D];中国科学技术大学;2012年
7 杨春宇;数据流上的聚类与分类算法[D];清华大学;2009年
8 汪中;面向变化场景的行人分类检测方法研究[D];中国科学技术大学;2011年
9 薛晖;分类器设计中的正则化技术研究[D];南京航空航天大学;2008年
10 王彦;基于PDE的模式识别方法[D];吉林大学;2006年
中国硕士学位论文全文数据库 前10条
1 潘世瑞;基于分类器集成技术的数据流分类研究[D];西北农林科技大学;2011年
2 武婷婷;分类器性能评价研究[D];北京交通大学;2010年
3 王亚松;关于组合分类器修剪方法的研究[D];郑州大学;2011年
4 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
5 于柏森;发动机机械故障诊断系统分类器设计[D];长春工业大学;2010年
6 王秀霞;分类器的选择性集成及其差异性研究[D];兰州理工大学;2011年
7 邱立;支持向量机和神经网络在手写数字识别算法中的应用研究[D];华南理工大学;2010年
8 蔡晰;半监督联合训练分类方法研究及其应用[D];福建师范大学;2010年
9 史亚;雷达辐射源个体识别中的分类器设计与子空间学习[D];西安电子科技大学;2011年
10 苏攀;不平衡分类器博弈模型及其在中国象棋中的应用[D];河北大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026