收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

PU数据流挖掘研究

李晨  
【摘要】:近些年,随着网络的普及和发展,形成了一种新式的数据形式——数据流(或称作流式数据),例如网页点击量统计,信用卡操作数据,网络实时监控数据等。同时在医学以及生物学研究中,也出现了大量的流式数据。在这些大量的流式数据的挖掘中,存在两个主要的问题: (1)有些用户可能只关注数据的某一个类别。例如当用户在浏览网页时,可能只对其中一个类别的新闻特别感兴趣,例如体育。那么这个用户可能只会去搜索关于体育的新闻,而不会去关注其他类别的新闻。同样的场景也可以在信用卡欺诈数据和生物信息实时监测中找到。在这些场景中,使用者往往只关心一个类别的数据,而对其他类别的数据并不关心。 (2)众所周知,样本的标注是十分消耗人力和物力的,况且数据流的样本量往往十分巨大,将样本完全标注基本上是不可能的。而作为半监督学习的一种特殊情况,PU学习只需要一定量的正例样本(即所关注的那个类别的样本,也称为目标类别)和大量的未标注样本,这样就大大节省了人力和物力。当然,其代价可能是牺牲一定的分类效果。 本文主要讨论如何改造数据流上的决策树分类器,使其既能增量式地学习数据流样本,又能处理只含正例样本和未标注样本的数据流(PU数据流)。概括起来,本文的主要工作有两点: (1)构造能够处理不含概念漂移的PU数据流分类器PUVFDT。算法结合了经典的数据流分类算法VFDT(Very Fast Decision Tree),并参考静态数据集上的PU决策树分类器POSC4.5的信息增益的计算方式,同时采用POSC4.5的处理策略,模拟原始全标注数据中正例样本所占的比例PosLevel ,集成9棵决策树,最后使用某种策略选择一棵最好的作为输出。通过人工数据集和真实数据集上的大量实验,可以看到PUVFDT具有良好的分类性能,在未标注样本达到80%的情况下,其分类正确率和F1均和使用全标注样本的VFDT的性能十分接近,而只标注其中20%的样本无疑可以节省大量的人力和物力,使得PUVFDT更适合真实应用。 (2)在对PUVFDT进行语义稳定性和分类性能的分析的基础上,提出使用类似“过抽样”的策略来集成PUVFDT,进而提高它的分类性能。通过计算PUVFDT的语义稳定性参数stability,根据当前使用的语义稳定性评价方法,可以得出在当前的训练数据集上,PUVFDT是比较稳定的。然后基于Oza的思想(Oza and Russell 2001),提出一种策略,让所有的基分类器首先学习一遍该数据流样本,然后通过泊松分布确定该样本将被重复学习的次数,让基分类器反复学习。在人工数据集和真实数据集上的实验说明这个策略是有效的,无论是F1还是分类正确率都得到了明显的提高。另外,使用t检验对这些结果进行统计学分析,结果证明这些提高在统计学上是有意义的。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 沈广军;;三催化DCS系统优化[J];中小企业管理与科技(上旬刊);2008年09期
2 刘伟;;浅谈福建电信全球眼业务平台建设[J];科技资讯;2006年34期
3 刘伟;;浅谈福建电信全球眼业务平台建设[J];科技咨询导报;2007年02期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 张长利;左万利;彭涛;赫枫龄;彭钊;邵慧勇;;基于无监督聚类的PU文本分类方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 郭志英;崔晓磊;梁月琴;于水;;土壤中钚含量及~(240)Pu/~(239)Pu的ICP-MS检测方法研究[A];2011中国环境科学学会学术年会论文集(第二卷)[C];2011年
3 贾海红;司高华;刘伟;于静;;几种黏土对Pu的吸附性研究[A];中国核科学技术进展报告——中国核学会2009年学术年会论文集(第一卷·第5册)[C];2009年
4 万国江;吴丰昌;J Zheng;万恩源;廖海清;Y Masatoshi;王长生;;~(239+240)Pu——湖泊近代沉积计年的重要时标[A];中国矿物岩石地球化学学会第13届学术年会论文集[C];2011年
5 余永生;段国平;徐建平;左志忠;李海军;;警服用新材料PU热熔胶涂层法衬布[A];“力恒杯”第11届功能性纺织品、纳米技术应用及低碳纺织研讨会论文集[C];2011年
6 沈惠玲;肖长发;;热致相分离法制备PU复合膜[A];中国膜科学与技术报告会论文集[C];2003年
7 李哲;庹先国;杨剑波;陈晓谋;罗辉;冷阳春;穆克亮;;~(239)Pu在板岩与黏土中的吸附特征试验研究[A];第三届废物地下处置学术研讨会论文集[C];2010年
8 戴志晟;郭铭;;基于CNSL技术的PU埋地管道外防腐涂料[A];第十五届全国涂料与涂装技术信息交流会暨商用车、工程机械、轨道交通涂装技术研讨会论文集[C];2012年
9 于静;马应明;郑军芳;司高华;;Pu在高盐地下水中的存在形态及其迁移性能分析[A];中国核科学技术进展报告——中国核学会2009年学术年会论文集(第一卷·第5册)[C];2009年
10 李峥嵘;涂伟萍;赖应光;傅科杰;刘燕浓;;超细锦纶PU合成革增深匀染剂Intratex LPUA的应用研究[A];“闰土”杯第四届中国纺织印染助剂行业学术年会论文集[C];2010年
中国博士学位论文全文数据库 前4条
1 刘志勇;长江口及苏北潮滩沉积物中放射性核素钚(Pu)的分布特征与环境意义[D];南京大学;2011年
2 胡建坤;笼型倍半硅氧烷的制备、表征及其在水性聚氨酯中的应用研究[D];武汉大学;2013年
3 魏洪源;原子分子在δ-Pu上的吸附、离解与扩散过程研究[D];中国工程物理研究院;2010年
4 张璇;磷腈化合物的合成及其阻燃性能研究[D];东华大学;2014年
中国硕士学位论文全文数据库 前10条
1 徐多文;含长烷基支链聚氨酯(PU)弹性体的制备、结构与性能研究[D];华南理工大学;2012年
2 朱朦琪;碳纳米管混杂功能化及其PU复合材料制备[D];汕头大学;2010年
3 李晨;PU数据流挖掘研究[D];西北农林科技大学;2011年
4 沈芳芳;PU涂层面料与粘合衬的配伍研究[D];东华大学;2013年
5 赖元明;Ce模拟含Pu放射性废物铁磷酸盐玻璃固化体结构和化学稳定性研究[D];西南科技大学;2012年
6 张峰;一种大分子表面改性剂的设计、合成及在PU纳米复合材料中的应用[D];安徽大学;2010年
7 张星;不确定数据的PU学习决策树研究[D];西北农林科技大学;2012年
8 何佳珍;不确定数据的PU学习贝叶斯分类器研究[D];西北农林科技大学;2012年
9 张颖彧;电纺EVOH磺酸锂/PU复合型聚合物电解质的研究[D];哈尔滨理工大学;2014年
10 程晓艳;聚氨酯膜材料的改性研究[D];天津科技大学;2008年
中国重要报纸全文数据库 前5条
1 马澄清;上海弗列加新增PU空滤芯生产线 Shanghai Fleetguard Increase PU Air Filter Production Line[N];机电商报;2009年
2 小城;江苏PU树脂溶液等项目2011年完成[N];中国包装报;2010年
3 王朝;国内最大PU硬泡组合聚醚项目竣工投产[N];中国建材报;2010年
4 记者 刘永红;石狮服装PU产业迎来发展的大好时光[N];石狮日报;2011年
5 吴林;给房子穿上PU保暖衣[N];中国房地产报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978