收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

高效数据流和海量文本处理算法研究

王修君  
【摘要】:随着网络通信技术的迅速发展,以数据流形式呈现的数据大量涌现在各个信息处理领域。例如无限传感器网络中传回基站的传感数据流,人们浏览网页时产生的网络点击流,证券买卖产生的实时交易信息等等。数据流具有数据量大,持续快速产生,数据分布随时间变化等特点。而传统静态数据集合中的分析处理技术往往只适用于处理那些可存储在磁盘上的有限静态数据。这些传统技术往往都需要多次扫描所处理的全部数据,从而使得将它们直接用于处理数据流时,会带来严重的低效率和高代价。面对这些持续快速到达的海量数据流,如何利用有限的资源来有效的分析处理它们成为时下最为关心的问题。典型的数据流分析处理问题包括数据流聚类、数据流变化检测和副本检测等。 随着互联网的发展,网络信息的监测和管理中急需高效的处理海量文本数据(如大量的网络网页)。而传统的文本分析处理技术仅适用于处理小规模的文本数据,而难以处理海量的文本数据。典型的文本处理问题包括文本分类、文本聚类和文本信息抽取等等。 本文对数据流和海量文本处理技术中若干关键问题进行了深入研究,主要包括以下内容: 1.一种适用于高维数据流变化检测算法: 本文首先将数据流上的变化检测问题转化为寻找变化显著单元格的问题。基于频繁模式挖掘FP算法,设计了一种记录数据流中网格的经验分布变化值的数据结构--VT树(variation tree),并通过搜索VT树中的路径来发现高维数据流中所有经验分布变化值大于占的网格。 2.一种基于代表点的高维数据流聚类算法 传统的基于网格的聚类算法难以适用于处理处理演化的高维数据流。本文对高维数据流中数据点的每一个维度属性进行单独量化,然后用量化得到的每个维度上的代表点来替代传统基于网格的聚类算法中的固定划分区间。本文算法中代表点是随着不断流过的高维数据流而演化变化的,从而能更好的捕捉到演化高维数据流中聚类。 3.一种滑动窗口上数据流副本检测的有效算法 本文提出了一种新的数据结构:Flag Bloom Filter (FBF)。这种新的数据结构改进了目前最有效的Decaying Bloom Filter (DBF)。基于FBF,本文提出了一种高效的算法来解决滑动窗口上数据流副本检测问题。给定滑动窗口大小W,计数器个数M,FBF比DBF多使用M比特空间,但FBF的误是率是DBF的2k/(k+1),其中k=[In(2)M/W]≥2为使用的哈希函数个数。给定同样的内存空间G和滑动窗口大小W(FBF使用的计数器个数是DBF的1og W/(logW+1))FBF的误是率上界为(0.25)k(1-1/logW)(1+k(1-1/logW))。当W≥32时,这个上界比DBF的误是率要小。 4.一种滑动窗口上概率数据流副本检测有效算法 针对确定性数据流的副本检测方法无法保存概率数据流中元素的存在概率。基于Count ing Bloom Filter,本文提出了一种新的数据结构Floating Counter Bloom Filter(FCBF)。基于FCBF结构,本文提出了一种滑动窗口上概率数据流的副本检测算法。给定滑动窗口大小W和浮点计数器个数N,针对滑动窗口上的一个元素t,本文的方法以概率1-(1/2)In(2)*N/W输出该元素的精确存在概率。 5.针对海量文本的KNN改进分类算法: 面对海量文本数据时,传统的KNN分类算法无论在分类精度还是分类时间方面都明显效果很差。针对这个问题,基于最小化学习误差增量的思想,本文将学习型矢量量化(LVQ)和生长型神经气(GNG)结合起来提出了一种新的增量学习型矢量量化方法,并将其应用到海量文本分类中。本文提出的算法对所有的训练样本有选择性的进行一次训练就可以生成有效的代表样本集,从而适合处理海量文本数据,且可以有效的提高分类精度和减少分类时间。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 孔英会;安静;车辚辚;刘云峰;;基于增量DFT概要的数据流聚类算法[J];华北电力大学学报(自然科学版);2007年05期
2 汤新鸿;;存储最优的连续MAX查询方法[J];计算机工程与设计;2008年07期
3 李俊奎;王元珍;;可重写循环滑动窗口:面向高效的在线数据流处理[J];计算机科学;2007年12期
4 闫莺,金澈清,曹锋,汪恒杰,周傲英;多数据流上共享窗口连接查询的降载策略[J];计算机研究与发展;2004年10期
5 王伟平;李建中;张冬冬;郭龙江;;基于滑动窗口的数据流连续J-A查询的处理方法[J];软件学报;2006年04期
6 赵峰;李庆华;;基于可信推断的流数据序列模式分析算法[J];小型微型计算机系统;2006年07期
7 曲吉林;寇纪淞;李敏强;;基于滑动窗口的数据流反向查询方法[J];计算机工程与应用;2006年30期
8 刘必雄;;基于滑动窗口查询的直方图改进[J];计算机时代;2006年09期
9 林锦贤;林钦仙;;数据流上的轮廓查询算法[J];福州大学学报(自然科学版);2007年04期
10 武珊珊;谷峪;吕雁飞;于戈;;一种数据流上截止期敏感的滑动窗口处理策略[J];计算机科学;2007年07期
11 刘文;罗守山;陈萍;;基于滑动窗口和交换加密函数解决SMP的新方案[J];计算机工程;2007年22期
12 荣文亮;杨燕;;基于数据流频繁闭合模式的挖掘[J];计算机应用;2008年06期
13 夏英;刘婉蓉;;基于滑动窗口的关联规则增量式更新算法[J];计算机应用;2008年12期
14 宋宝燕;张衡;于洋;奚丽娜;王大玲;;基于滑动窗口的支持泛在应用的流聚类挖掘算法[J];小型微型计算机系统;2008年12期
15 张震;汪斌强;陈庶樵;周粳迪;;基于滑动窗口的资源可控流量测量算法[J];计算机工程;2010年03期
16 姚文集;高明霞;毛国君;李广奎;;基于滑动窗口的XML数据流聚类算法[J];计算机工程;2010年13期
17 李眩;;基于网络流量的实时入侵检测[J];信息安全与通信保密;2010年07期
18 胡彧;王顺平;;事务型滑动窗口下的数据流频繁模式挖掘[J];计算机工程与应用;2010年22期
19 云端漫步;;购物小助手,轻松帮你货比货[J];电脑爱好者;2010年22期
20 琚春华;许翀寰;;基于有序复合策略的数据流最大频繁项集挖掘[J];情报学报;2010年05期
中国重要会议论文全文数据库 前10条
1 周锐;肖川;王国仁;韩东红;霍欢;;数据流滑动窗口连接上的卸载技术的研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
2 闫朝升;李建中;李金宝;;数据流上滑动窗口技术的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 张龙波;李战怀;余敏;王勇;蒋芸;;面向数据流滑动窗口的随机抽样算法研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
4 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
5 汪罕;赵加奎;陈立军;;流和滑动窗口模型下的直径计算(英文)[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 苏东;宋宝燕;杨兴华;欧征宇;于亚新;于戈;;基于滑动窗口语义的聚集计算方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 杨宜东;孙志挥;周晓云;;滑动窗口中的变化检测[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
8 沙瀛;谭建龙;;一种采用拟合曲线计算滑动窗口下数据流的最大值/最小值的方法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
9 杨兴华;于亚新;于戈;欧征宇;武珊珊;;一种数据流滑动窗口上的索引连接策略[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
10 魏永超;陈立军;;数据流上复杂事件处理系统Eagle的设计与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
中国博士学位论文全文数据库 前10条
1 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
2 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
3 邹先霞;事务数据流处理的若干关键技术问题研究[D];中南大学;2012年
4 张天成;实时数据流相关性分析与挖掘技术研究[D];东北大学;2008年
5 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
6 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
7 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
8 郭立超;数据流挖掘若干技术研究及其在电信行业的应用[D];浙江大学;2011年
9 张剑;宽带接入网流量识别关键技术研究[D];北京邮电大学;2011年
10 李军;基于用户行为挖掘的数据流管理技术研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 王浩;基于滑动窗口和子空间划分的数据流聚类算法研究[D];燕山大学;2010年
2 龚云;基于滑动窗口的密度聚类算法研究[D];安徽大学;2011年
3 吴亚娟;数据流连续查询的自适应降裁策略研究[D];大庆石油学院;2010年
4 王立波;基于滑动窗口的数据流频繁模式挖掘算法研究[D];燕山大学;2010年
5 严澄;基于滑动窗口的数据流关联规则挖掘研究[D];浙江大学;2010年
6 杨溢之;基于数据流的关联规则挖掘方法的研究[D];西安科技大学;2011年
7 姚晨;高纬数据流的异常检测[D];电子科技大学;2011年
8 张驹;基于数据流的聚类算法研究与实现[D];中南大学;2009年
9 何登成;数据流上复杂序查询的研究与实现[D];浙江大学;2010年
10 由欣;基于有向图构造的数据流预测算法的研究[D];哈尔滨工程大学;2011年
中国重要报纸全文数据库 前10条
1 李晓东;TCP整型,QoS的阳光大道?[N];计算机世界;2004年
2 计算机世界实验室 吴挺;Intel的专业“核动力”[N];计算机世界;2007年
3 中国传媒大学计算机学院 朱立谷;重复数据删除技术解析[N];中国计算机报;2007年
4 北京 冬梅;P4时代真的来了吗[N];中国电脑教育报;2001年
5 ;立体防护“中枢神经系统”[N];网络世界;2003年
6 ;NetScreen-IDP 500 高端入侵检测与防护设备[N];计算机世界;2003年
7 甘久斌;如何有效管理宽带用户[N];通信产业报;2002年
8 ;港湾网络多业务万兆城域网解决方案[N];人民邮电;2003年
9 李勇;降低投资70%[N];中国计算机报;2003年
10 记者 郭姜宁;企业级电子商务资金流网络管理系统问世[N];科技日报;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978