收藏本站
收藏 | 论文排版

基于数据流的聚合函数精确计算研究及其应用

郑耀东  
【摘要】:随着网络的不断普及,流数据处理逐渐受到关注,流数据中的聚合计算也越来越重要。在传统数据库管理系统中,聚合函数定义为对一组值进行计算,并返回单个值的函数。在本文的研究中,我们仍然使用该定义。解决数据流中的聚合函数计算问题,对处理数据流,解决网络中的监控、统计、检测等问题具有现实意义。 本文主要贡献如下: (1) 对输入数据的类型为数值型的聚合函数,提出了一种存储最少数据的MAX函数和MIN函数的精确计算方法。这种方法是一种基于数据流滑动窗口聚合函数的精确增量式计算方法,它对于长度为N的输入序列,算法的时间复杂度为O(N);最坏情况下,空间复杂度为O(N),最好情况下,复杂度为O(M),其中,M为预先分配内存的大小。并通过数学理论分析和证明了该方法的正确性,还通过实验检验了该方法的有效性和实用性。最后还实现了COUNT、SUM、AVG、STDEV、STDEP、VAR、VARP等聚合函数的计算方法——增量式计算方法。 (2) 对输入数据的类型为字符型的聚合函数,实现了一种基于通用后缀树(GST)表示的字符串频率统计方法。该方法不需要任何训练,直接对接收的文本进行统计,并根据字符串的频率进行分类;对于长度为N的文本,算法的时间复杂度和空间复杂度均为O(N)。并应用对输入数据的类型为字符型的聚合函数的精确计算方法实现了一种基于后缀树的骨干网络垃圾邮件检测方法。该检测方法采用通用后缀树(GST)表示邮件文本;当新的邮件到达时,通过不定长统计方法计算该邮件和其他类别邮件的相似度,并确定邮件所属类别,然后利用聚合函数统计邮件重复出现的次数,最后判定该邮件是否为垃圾邮件。理论分析和实验表明该检测方法具有以下特点: ● 该方法充分利用了骨干网络的信息量大等特点,适合于骨干网络或大型服务器的垃圾邮件检测: ● 该方法独立于任何语种,适用于多语种邮件同时存在的情况。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 苏勇;郑昭华;范玉玲;;数据流中的频繁项集挖掘[J];信息技术;2011年06期
2 陈荣晖;王伦文;;基于数据流趋势分析的通信信号检测方法[J];计算机工程与应用;2011年20期
3 毛伊敏;杨路明;李宏;陈志刚;刘立新;;一种有效的数据流最大频繁模式挖掘算法[J];高技术通讯;2010年03期
4 吴学雁;黄道平;;基于形态特征的数据流聚类方法研究[J];计算机工程;2011年13期
5 陈丙杰;王晓晔;常飞;;噪声数据流的分类方法[J];天津理工大学学报;2011年03期
6 程文聪;邹鹏;贾焰;;一种基于流立方体的网络安全态势感知模型[J];计算机工程与科学;2011年08期
7 戴奇波;倪志伟;王超;姜苗;;基于动态数据流挖掘的案例推理及其应用[J];计算机工程与应用;2011年19期
8 琚春华;陈之奇;;一种挖掘概念漂移数据流的模糊积分集成分类方法[J];山东大学学报(工学版);2011年04期
9 苏勇;范玉玲;;可变滑动窗口在数据流频繁模式挖掘上的应用[J];计算机系统应用;2011年06期
10 杨小周;;浅谈双燃料轿车氧传感器故障实例[J];新课程学习(中);2011年07期
11 文一凭;陈志刚;刘建勋;李欢欢;;成批处理工作流中数据流的管理与控制[J];计算机集成制造系统;2011年08期
12 张文煜;周满元;;数据流中一种基于滑动窗口的前K个频繁项集挖掘算法[J];计算机应用研究;2011年07期
13 郭玲玲;夏波;王鑫东;宋焕生;蔡丽;;基于打印机数据流解析的沥青拌合站监控系统[J];工业控制计算机;2011年08期
14 周勇;李念水;程春田;;时间序列数据流预测模型应用研究[J];计算机工程与应用;2011年26期
15 黄钧钧;谢伙生;;数据流中基于滑动窗口的闭序列模式挖掘算法[J];计算机工程与设计;2011年06期
16 陈朝晖;;一种基于DPI和DFI技术的应用识别系统[J];中国高新技术企业;2011年16期
17 周骏;陈鸣;张佳明;;两类频繁项算法在网络流上的适用性评估[J];计算机工程;2011年16期
18 杨波;郭晓蒙;徐娜;;综合监控系统数据流及数据同步设计[J];市政技术;2010年S2期
19 关天明;;交换机FFP技术探究[J];中国教育网络;2011年09期
20 陈志刚;李庆华;邓晓衡;黄国盛;;无线自组网TCP定时器的分析与改进[J];高技术通讯;2010年06期
中国重要会议论文全文数据库 前10条
1 蔡致远;魏藜;钱卫宁;周傲英;;DEODS:快速准确的数据流密度估计[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 丁健;李建中;李金宝;高宏;;数据流上的并行决策树构成算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 李康宁;樊小泊;陈红;;一种数据流滑动窗口范围连接上基于局部特征的查询索引[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
4 谭建龙;郭丽;刘萍;沈星星;;建立数据流管理系统GodRiver[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
5 后小亮;刘奇志;高先锋;檀宝权;;大量多态数据流的综合压缩算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 李爱平;杨庆民;甘亮;;基于Dwarf的数据流立方体的研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
7 林子雨;林琛;冯少荣;张东站;;MESHJOIN~*:实时数据仓库环境下的数据流更新算法[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
8 李国徽;黄蕾;;数据流环境下的基于加权网格的聚类算法研究[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
9 赵哲;孙婷;陈立军;崔斌;;一种数据流上的快速分段算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
10 王潇;卢阳;陈立军;;网内查询处理中的一种基于数据流共享的过滤查询算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国博士学位论文全文数据库 前10条
1 陈刚;数据流的无阻塞连接算法研究[D];华中科技大学;2010年
2 蒋纲;数据包在无线网络中调度策略的研究[D];华中科技大学;2004年
3 曹锋;数据流聚类分析算法[D];复旦大学;2006年
4 陈辉;数据流频繁模式挖掘及数据预测算法研究[D];华中科技大学;2008年
5 孙玉芬;基于网格方法的聚类算法研究[D];华中科技大学;2006年
6 刘青宝;模糊、动态多维数据建模理论与方法研究[D];国防科学技术大学;2006年
7 王鹏;数据流上的分类算法的研究[D];复旦大学;2007年
8 黄芹华;隐私保持数据挖掘与知识发现研究[D];上海大学;2007年
9 邓娜;基于最优Hankel范数近似的线性相位IIR滤波器设计及其应用研究[D];东华大学;2008年
10 郭建奎;数据流相似性查询及模式挖掘研究[D];复旦大学;2008年
中国硕士学位论文全文数据库 前10条
1 郑耀东;基于数据流的聚合函数精确计算研究及其应用[D];首都师范大学;2006年
2 杜安明;模具企业管理模式及管理信息系统设计[D];重庆大学;2004年
3 张庆;一种基于UML状态图的类级测试技术的研究与实现[D];电子科技大学;2005年
4 赵国斌;铁路试点数据中心设计及实现[D];北京交通大学;2007年
5 宫剑飞;客户区域化归属问题的研究[D];哈尔滨工程大学;2009年
6 贺春亮;基于数据流滑动窗口的降载技术研究[D];燕山大学;2009年
7 张华剑;虚拟筛选海量并行任务管理系统中数据流的管理[D];兰州大学;2010年
8 牟柳晨;基于ASP技术的远程机械设计系统的实施方法研究[D];四川大学;2004年
9 郭秀荣;RBF神经网络在电喷发动机故障诊断中的应用研究[D];东北林业大学;2005年
10 张继超;数据流的变化检测算法及其在实时汇率数据流异常检测中的应用[D];郑州大学;2005年
中国重要报纸全文数据库 前10条
1 本报记者 朱杰;优化数据流构建移动未来网络[N];中国计算机报;2010年
2 谭啸;打通企业数据流[N];计算机世界;2005年
3 深圳市物业发展(集团)股份有限公司 程贵平;以理顺数据流为出发点[N];网络世界;2002年
4 本报记者 卢子月;WIPS捕捉空中数据流[N];通信产业报;2010年
5 李;金山毒霸力推数据流杀毒技术[N];计算机世界;2007年
6 杨春光 张钝;数据流托起信息化训练方舟[N];解放军报;2003年
7 IBM大中华区董事长及首席执行总裁 钱大群;用领导者价值观改善思维[N];中国经营报;2011年
8 记者 杨晓丹通讯员 朱莹;天津石化建起全过程闭环数据流[N];中国石化报;2008年
9 杨正明;网络化管理数据流畅通是关键[N];中国计算机报;2001年
10 特约撰稿人 奇琳;B3G的多天线技术[N];通信产业报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978