收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

数据流聚类分析与异常检测算法

张晨  
【摘要】: 数据流作为一种新型的数据模型,在许多应用诸如网络流量管理、金融数据处理、工业监控、交通治理、网站信息的发布和订阅、以及电子商务中都扮演着重要的角色。在数据流挖掘技术日益得到广泛关注的今天,存在于数据中的不确定性问题和多数流处理问题给研究人员带来了新的挑战:一方面,由于不确定数据流既要求保留数据流的无限,快速等特性,还需要利用有限的系统资源减少不确定性因素对挖掘过程造成的影响;另一方面,多数据流处理技术则要求不仅关注于一条数据流的流量变化,同时还需要根据大量数据流之间的相关性与分布特征进行分析处理,因此我们需要重新研究新的面向多数据流及不确定数据流的挖掘算法。 学术界虽然已经对数据流上的聚类分析与异常检测问题进行了广泛的研究,但仍存在许多问题尚待解决。本文主要研究不确定数据流聚类分析算法和多数据流异常趋势检测问题,旨在为现有的数据流系统提供更为多样的聚类分析与异常检测功能。同时,还对每个所提出的技术及其相关工作进行大量、深入的实验分析,实验结果都充分证明了所提出技术的有效性和高效性。本文的主要贡献体现在如下四个方面: ●本文提出了一种新的不确定数据流聚类算法(EMicro),用于在传统的数据流聚类的基础上解决数据不确定性给聚类过程造成的影响。首先它根据概率数据的特点定义了新的聚类标准,使之能兼顾距离与概率双重因素;然后根据新的聚类要求,提出了一种基于概率引力的元组分配策略;最后,为了有效的减少异常点对聚类结果的影响,我们提出了一套缓冲式异常点处理机制。 ●本文提出了一种基于信息论的概率数据流聚类算法(EnMicro),用于在信息熵的标准下重新实现聚类过程。首先它基于信息熵的概念定义了元组的不确定性,并通过其来反映数据质量的好坏;然后通过新定义的元组不确定性标准,提出了能够兼顾时间与数据不确定性的混合衰减模型;最后,在新的不确定性标准和混合衰减模型的基础上,提出了一种新的概率数据流聚类算法。 ●本文提出了一套在多数据流情况下的异常趋势检测方法。首先,针对现有趋势定义的不足之处,引入了一种适合数据流环境下的趋势定义,它的优点在于其较低的时空复杂度;为了在趋势计算过程中选择合适的时间尺度,又提出了一种基于奇异值分解的选择算法,同时给出了一种用于在线调整参数的概要数据结构;最后,当关注重点由单数据流转向多数据流时,我们将基于多数据流的斜度统计值来监控异常情况。 ●本文实现了一套名为DiCAS的网络数据流异常检测系统,它结合上海电信骨干网上的数据流量监测需求,实现了对多数据流量的在线监测。DiCAS系统采用降维分析算法对SNMP数据流进行分析,通过监测网络链路上不同流量数据的相关性变化来发现异常流量。模拟实验和在真实环境中的应用表明,DiCAS系统能够满足骨干网流量监测应用的需要,并且极大地提高了监测系统的实效性。 综上所述,本文设计了若干种异常检测和聚类分析算法,并且将数据流模型与不确定数据类型相结合,是对现有数据流挖掘技术的有益补充和改进。理论分析和实验结果均表明本文算法能够高效地解决相应问题,与现有数据流处理方法相比,本文算法在存储空间开销、挖掘处理速度以及结果准确性上都具有优势。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 汪阳;黄天戍;杜广宇;;一种基于聚类和主成分分析的异常检测方法[J];计算机工程与应用;2006年21期
2 刘燕;梁云娟;;基于聚类分析的非监督式异常检测研究[J];河南科技学院学报(自然科学版);2006年02期
3 邝祝芳;谭骏珊;;KMApriori:一种有效的数据库异常检测方法[J];计算机工程与科学;2008年06期
4 陈宁军;倪桂强;罗隽;潘志松;;基于正常行为聚类的卫星通信网异常检测方法[J];解放军理工大学学报(自然科学版);2008年05期
5 白琳;;基于免疫遗传聚类的异常检测系统[J];西安邮电学院学报;2008年01期
6 朱岸青;张昌城;;基于数据挖掘的网络入侵检测技术研究[J];计算机工程与设计;2008年02期
7 陈宁军;罗隽;肖佳;;一种地球站异常检测系统的设计与实现[J];计算机工程与应用;2009年17期
8 李建国;胡学钢;;高效的混合聚类算法及其在异常检测中的应用[J];计算机应用;2010年07期
9 王玉芹;;基于数据流模型的网络异常检测方法研究[J];潍坊学院学报;2006年04期
10 严晓光,褚学征;聚类在网络入侵的异常检测中的应用[J];计算机系统应用;2005年10期
11 蔡伟鸿,刘震;基于密度聚类算法的入侵检测研究[J];计算机工程与应用;2005年21期
12 白琳;;基于克隆选择聚类的入侵检测[J];微电子学与计算机;2007年03期
13 苏成;;基于数据挖掘的入侵检测技术综述[J];信息网络安全;2008年03期
14 曲萍;周长英;;基于孤立点挖掘的异常检测方法的研究[J];沿海企业与科技;2009年11期
15 杨新泉,谢佳,齐俊;基于聚类分析的入侵检测模型[J];福建电脑;2005年07期
16 黄宁;李玉龙;陕永飞;周强;;数据挖掘在网络入侵检测系统中的应用[J];计算机安全;2010年10期
17 杜强;孙敏;;基于改进聚类分析算法的入侵检测系统研究[J];计算机工程与应用;2011年11期
18 廖光忠;陈志凤;;入侵检测研究综述[J];网络安全技术与应用;2007年02期
19 郑冠贞;徐辉增;;最小差异度聚类在异常入侵检测中的应用[J];电脑知识与技术;2008年27期
20 朱海霞;;数据挖掘在入侵检测中的应用[J];科技资讯;2009年35期
中国重要会议论文全文数据库 前10条
1 忻雅;王伟科;阮松林;王世恒;马华升;;基于RAPD和EST-SSR标记的秀珍菇菌株聚类分析[A];中国菌物学会第四届会员代表大会暨全国第七届菌物学学术讨论会论文集[C];2008年
2 鲁振华;宋银花;牛良;刘淑娥;王志强;;PermutMatrix软件及其在观赏桃形态性状聚类分析中的应用[A];中国园艺学会桃分会第二届学术年会论文集[C];2009年
3 马汉武;郭沛尧;;基于供应链的供应商分类模型及其管理策略研究[A];现代工业工程与管理研讨会会议论文集[C];2006年
4 张凤兰;郝丽珍;王萍;杨忠仁;王六英;张进文;;蒙古高原特有属——沙芥属蔬菜植物果实和种子形态指标聚类分析[A];中国园艺学会第七届青年学术讨论会论文集[C];2006年
5 李国良;李忠富;;基于聚类的企业绩效熵值评价方法研究[A];第十一届中国管理科学学术年会论文集[C];2009年
6 高林;刘喜梅;;多模型中权值确定的新方法及其应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
7 杨欣斌;黄道;;一种新的聚类算法[A];2003年中国智能自动化会议论文集(下册)[C];2003年
8 曾志锋;张玉霞;韦群;;鳄蜥的生境选择[A];中国动物学会两栖爬行动物学分会2005年学术研讨会暨会员代表大会论文集[C];2005年
9 房海灵;李维林;于盱;梁呈元;;薄荷属植物的数量分类[A];中国植物学会植物结构与生殖生物学专业委员会、江苏省植物学会2007年学术年会学术报告及研究论文集[C];2007年
10 金友玉;;湖北省区域经济差异综合评价及分类分析[A];2007中国科协年会专题论坛暨第四届湖北科技论坛优秀论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 张晨;数据流聚类分析与异常检测算法[D];复旦大学;2009年
2 赵宁;理中丸和四君子汤与脾虚证方证相关性的实验研究[D];中国中医科学院;2006年
3 曹锋;数据流聚类分析算法[D];复旦大学;2006年
4 吕崇山;代谢综合征中医辨证分型及其与临床检测指标的相关性研究[D];福建中医学院;2008年
5 陈华辉;基于遗忘特性的数据流概要结构及其应用研究[D];复旦大学;2008年
6 袁军宝;我国农业现代化进程中的农户兼业经营问题研究[D];兰州大学;2009年
7 邵伟钰;地方政府债务风险预警体系研究[D];苏州大学;2008年
8 吴飞珍;基因芯片数据的聚类功能评价算法和判别分析算法研究[D];上海大学;2009年
9 周黔;高性能数据流模式发现算法及其应用研究[D];浙江大学;2008年
10 钟将;基于人工免疫的入侵分析技术研究[D];重庆大学;2005年
中国硕士学位论文全文数据库 前10条
1 李丹;异常数据挖掘算法研究及其在税务上的应用[D];山东大学;2005年
2 唐培霞;基于数据流的聚类分析研究及应用[D];山东师范大学;2008年
3 王宏科;基于密度和网格的数据流聚类研究与实现[D];大连理工大学;2009年
4 陈春燕;数据流聚类方法的研究[D];江南大学;2008年
5 杨海振;数据流聚类算法及其应用的研究[D];五邑大学;2009年
6 郭慧玲;网络入侵检测中检测引擎的智能算法研究[D];燕山大学;2006年
7 蔡春丽;数据流挖掘中聚类算法的研究与实现[D];哈尔滨工程大学;2007年
8 吴卉男;基于数据挖掘技术的入侵检测研究[D];贵州大学;2007年
9 王秀巧;基于数据挖掘的网络入侵检测系统研究[D];山东师范大学;2008年
10 王倩;基于聚类和神经网络的入侵检测系统的研究[D];燕山大学;2009年
中国重要报纸全文数据库 前10条
1 本报记者 边歆;异常检测是阻止蠕虫攻击的最好方法?[N];网络世界;2006年
2 Garry Sexton;入侵防护兼顾检测与防范[N];中国计算机报;2003年
3 ;聚类分析在自身免疫病基因表达谱研究中的初步应用[N];中国医药报;2003年
4 北京浩瑞恒业科技发展有限公司;系统分析与设计技术(三)[N];电脑商报;2003年
5 吴作顺;IDS的普遍缺陷[N];中国计算机报;2002年
6 ;网络管理的活力元素[N];网络世界;2005年
7 ;IDS续存论对峙灭亡论[N];网络世界;2003年
8 费宗莲;安全防御的“动”感魅力[N];中国计算机报;2005年
9 中联绿盟、李群;IDS的关键:解决好误报和漏报[N];中国计算机报;2002年
10 ;怎么解决IDS的问题[N];中国计算机报;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978