收藏本站
《清华大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

数据流上的聚类与分类算法

杨春宇  
【摘要】: 在现代社会中,越来越多的数据以数据流的形式出现。数据流与传统静态数据的区别在于其规模的无限增长以及其中蕴含概念的不断演化,这些特点使得许多根据静态数据模型设计的数据挖掘算法不再适用,因此针对数据流的数据挖掘算法研究成为一个重要的研究方向。本文对演化数据流的聚类与分类问题进行了研究,完成了如下工作: 1.提出了一种处理混合属性数据流的聚类算法。该算法利用泊松过程对数据流的产生进行建模,并将数据流中样本的连续属性与离散属性统一考虑,定义了混合属性条件下样本之间的距离。在上述定义的基础上实现了一种包含在线与离线两个阶段的数据流聚类算法。 2.提出了基于产生式模型的支持向量机输出概率化算法。该算法利用正态分布模型对支持向量机原始输出值的类条件概率密度进行建模,实现了批量式分类问题中测试集上的分类器输出调整,以解决训练集与测试集中类先验概率存在差异的问题。实验表明,该算法比已有经典算法更适合于分类器输出调整。 3.针对存在类先验演化现象的数据流,提出了分类器输出调整算法。该算法利用时间序列分析中的指数平滑算法以及AR模型进行数据流上类先验概率的预测,并利用预测结果进行分类器的输出调整。实验表明,该算法可以很好的处理类先验演化这种特殊的概念漂移问题。此外,针对周期性的类先验演化提出了改进的类先验概率预测算法,并成功地用于智能视频交通监控中的车辆分类。 4.提出了一种处理一般概念漂移问题的线性分类器增量更新算法。针对逻辑斯蒂回归模型,在自训练的框架下用二阶泰勒展开来近似数据流的对数条件似然函数,实现了近似对数条件似然函数的增量更新,并以此为基础进行分类器参数求解。与采用梯度下降的自训练方法相比,本文提出的算法在处理复杂的概念漂移问题时更为鲁棒。
【学位授予单位】:清华大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP311.13

手机知网App
【参考文献】
中国期刊全文数据库 前6条
1 王涛;李舟军;颜跃进;陈火旺;;数据流挖掘分类技术综述[J];计算机研究与发展;2007年11期
2 胡学钢;潘春香;;基于实例加权方法的概念漂移问题研究[J];计算机工程与应用;2008年21期
3 尹志武;黄上腾;;一种自适应局部概念漂移的数据流分类算法[J];计算机科学;2008年02期
4 孙岳;毛国君;刘旭;;数据流中概念漂移检测的集成分类器设计[J];计算机应用研究;2008年01期
5 张翔;肖小玲;徐光祐;;基于最大熵估计的支持向量机概率建模[J];控制与决策;2006年07期
6 孙岳;毛国君;刘旭;刘椿年;;基于多分类器的数据流中的概念漂移挖掘[J];自动化学报;2008年01期
中国博士学位论文全文数据库 前1条
1 尹志武;数据流挖掘若干问题的研究[D];上海交通大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
2 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
3 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
4 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期
5 郇正军;赵国富;;基于土地利用的空间数据挖掘系统的设计与实现[J];安徽农业科学;2011年07期
6 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
7 蒋宗礼;徐学可;;一种基于集成学习与类指示器的文本分类方法[J];北京工业大学学报;2010年04期
8 张品;蒲菊华;刘永利;熊璋;;适用于连续数值标签的兴趣漂移增量学习方法[J];北京航空航天大学学报;2009年09期
9 卢宏建;高永涛;吴顺川;潘贵豪;;石人沟铁矿露天转地下开采生产规模优化[J];北京科技大学学报;2008年09期
10 李飞;高小榕;高上凯;;基于随机森林算法的高维脑电特征优选[J];北京生物医学工程;2007年04期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Incremental Clustering for Categorical Data Using Clustering Ensemble[A];第二十九届中国控制会议论文集[C];2010年
3 邢清华;刘付显;王磊;董涛;;基于概率支持向量机的空中目标识别研究[A];中国自动化学会控制理论专业委员会D卷[C];2011年
4 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
5 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
6 杨晓霞;朱庆;李海峰;;知识导航的遥感信息处理服务分类选择方法[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
7 黄琼;石雄;;基于CVFDT入侵检测技术的研究[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 陈华杰;韦巍;;一种基于元泛化的Bagged Boosting算法[A];2005中国控制与决策学术年会论文集(上)[C];2005年
9 ;Adaptive multi-LSSVR based soft sensing for cobalt oxalate synthesis process[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
10 ;Multiple ANNs Combined Scheme for Fault Diagnosis of Power Transformers[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 张泽宝;空间数据库的索引技术研究[D];哈尔滨工程大学;2009年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
5 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年
6 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
7 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
8 李晋江;海量数据点三维重构中一类关键问题研究[D];山东大学;2010年
9 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
10 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 马冉冉;集成学习算法研究[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
4 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
5 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
6 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
7 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
8 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
9 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
10 王勇;一种面向隐私保护的分布式数据流挖掘算法[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前5条
1 张文生,王珏,戴国忠;支持向量机中引入后验概率的理论和方法研究[J];计算机研究与发展;2002年04期
2 杨宜东,孙志挥,张净;基于核密度估计的分布数据流离群点检测[J];计算机研究与发展;2005年09期
3 钱江波;徐宏炳;董逸生;王永利;刘学军;杨雪梅;;基于最小生成树的数据流窗口连接优化算法[J];计算机研究与发展;2007年06期
4 孙玉芬;卢炎生;;流数据挖掘综述[J];计算机科学;2007年01期
5 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期
中国博士学位论文全文数据库 前1条
1 张翔;支持向量机及其在医学图像分割中的应用[D];华中科技大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 梁春泉;张阳;刘全中;;基于堆叠集成的数据流分类[J];计算机应用研究;2009年05期
2 徐昉,邱道尹,沈宪章;粮仓害虫的特征提取与分类的研究[J];郑州工业大学学报;2000年04期
3 徐科,徐金梧,班晓娟;冷轧带钢表面质量自动监测系统的模式识别方法研究[J];钢铁;2002年06期
4 王勇;李战怀;张阳;;未知真实类标记条件下数据流中的变化发现方法[J];西北工业大学学报;2006年02期
5 张若琳;万力;张发旺;石迎春;;土地利用遥感分类方法研究进展[J];南水北调与水利科技;2006年02期
6 毕晓冬;;基于流分类技术的MPLS协议数据转发研究[J];山东师范大学学报(自然科学版);2006年02期
7 高志森;张铮;李俊;;入侵检测中贝叶斯分类器改进的研究[J];计算机技术与发展;2006年11期
8 王晓东;丁冬花;;实时车辆检测和跟踪系统设计[J];微计算机信息;2006年32期
9 董立岩;刘光远;苑森淼;李永丽;孙铭会;;混合式朴素贝叶斯分类模型[J];吉林大学学报(信息科学版);2007年01期
10 刘慧婷;倪志伟;李建洋;刘政怡;;基于交叉覆盖算法的时间序列模式匹配[J];计算机应用;2007年02期
中国重要会议论文全文数据库 前10条
1 罗秀;王大玲;冯时;于戈;;一种面向周期性概念漂移的数据流分类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
3 朱思俞;石锋;;不定人连续汉语音的四声识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
4 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
5 徐蔚然;于武贵;郭军;;基于统计方法的混排文字切分与分类[A];第八届全国汉字识别学术会议论文集[C];2002年
6 雷蕾;吴乃君;刘鹏;刘兰娟;;灵敏度分析:分类器中的缺失数据[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
7 陈颖颖;张雁军;贾鑫;;通信信号调制识别方法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
8 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
9 肖惠玲;曾翎;黄海莹;张琳;王昱清;杨勤;陈华富;;支持向量机探测脑功能活动[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
10 沈钱波;何加铭;;连笔手写识别搜索算法研究[A];浙江省电子学会2008年学术年会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
2 记者 姜晓凌 见习记者 王毅俊;原来,科技也能如此美丽[N];上海科技报;2007年
3 中国科学院东北地理与农业生态研究所 李建平;保护地球之肾 遥感体检湿地健康[N];中国水利报;2008年
4 CPW 张戈;Aperto PacketMAX系列可同时服务2000个用户[N];电脑商报;2005年
5 ;EZchip NP-1c:“优化”的魅力[N];计算机世界;2003年
6 中科院院士 戴汝为;开辟人机结合的新天地[N];计算机世界;2004年
7 本版编辑 中国科学院计算技术研究所数字媒体研究中心 山世光 陈熙霖 高文 徐昕 刘洪宇;你的脸,你的身份证明[N];中国计算机报;2006年
8 武德锋 李国辉 林洪文 姚作梁;图像世界任我行[N];计算机世界;2002年
9 刘光强;LSI新一代多业务企业网关[N];中国计算机报;2007年
10 清华大学玉泉医院神外 刘伟国;意识如何进行客观评价[N];健康报;2008年
中国博士学位论文全文数据库 前10条
1 杨春宇;数据流上的聚类与分类算法[D];清华大学;2009年
2 王喆;面向模式表示与模式源的分类器设计方法研究[D];南京航空航天大学;2008年
3 谢元澄;分类器集成研究[D];南京理工大学;2009年
4 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
5 杨显飞;数据流集成分类器算法研究[D];哈尔滨工程大学;2011年
6 汪中;面向变化场景的行人分类检测方法研究[D];中国科学技术大学;2011年
7 冯爱民;结构驱动的单类分类器设计及拓展研究[D];南京航空航天大学;2011年
8 宁博;面向行人检测的动态视觉词提取与集成分类方法研究[D];中国科学技术大学;2012年
9 王飞;入侵检测分类器设计及其融合技术研究[D];南京理工大学;2011年
10 薛晖;分类器设计中的正则化技术研究[D];南京航空航天大学;2008年
中国硕士学位论文全文数据库 前10条
1 叶爱玲;基于多重选择机制的概念漂移数据流挖掘算法研究[D];安徽大学;2010年
2 潘世瑞;基于分类器集成技术的数据流分类研究[D];西北农林科技大学;2011年
3 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
4 谭建建;基于数据流挖掘的入侵检测系统的研究与应用[D];南京航空航天大学;2010年
5 李晨;PU数据流挖掘研究[D];西北农林科技大学;2011年
6 玄世昌;P2P数据流识别与监控技术研究[D];哈尔滨工程大学;2010年
7 朱欣;基于数据流挖掘技术的流量识别[D];苏州大学;2011年
8 刘长恒;基于SVM的P2P数据流检测技术的研究[D];哈尔滨工程大学;2011年
9 李文龙;基于知识整合的数据流分类算法研究[D];辽宁工程技术大学;2010年
10 管忆军;数据流挖掘方法及其应用研究[D];广西民族大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026