收藏本站
《山东师范大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

聚类算法及其在日志数据处理中的应用研究

张珠玉  
【摘要】:随着科学技术飞速进步,我国计算机网络事业得到极大发展和普及。网络对我们工作、生活和学习的影响无处不在,给我们带来了无比的方便与快捷。然而,计算机网络在给我们带来便利的同时,也引起了各种计算机网络安全问题。在应对这些安全问题时,基于日志数据处理的各种方法与技术成为大家研究的共识。其中,以日志数据为研究对象的数据挖掘方法——聚类算法在日志规模压缩方面是一个很有发挥空间的应用方法。 由于传统聚类算法不能直接应用于日志数据领域,本文首先对聚类算法进行了深入的研究。探讨了聚类算法的定义、产生历程以及聚类算法的数据类型,对传统聚类算法的几个分支:划分聚类、层次聚类、基于密度的聚类、基于网格的聚类和基于模型的聚类分别做了概括性描述。总结和分析了聚类算法当前存在的问题和有待改进的方面。针对以上问题,并结合网络日志与系统日志的特点,本文所做的主要工作包括: 1.设计并提出了一种基于网格的网络日志二次聚类算法 对多协议网络日志数据划分网格,网格内外分别作两次聚类,生成聚类后的簇记录。该算法不需预设类簇个数k,可自主决定类簇个数。该算法处理实际的动态数据,实现增量式聚类,可以删除已聚类数据,处理新来网络日志。实验证明,该算法对日志规模压缩效果显著,而且不破坏网络日志的完整性和可靠性,并且不影响用户的正常网络访问。 2.设计并提出了一种基于事件映射的系统日志聚类算法 对操作系统日志、安全日志和应用程序日志,设计统一的聚类算法对其做共同处理,产生统一的用户操作行为概化描述。通过考察日志记录与事件之间的映射关系,设计并提出基于事件映射关系的系统日志聚类算法。参考事件关联的思想,通过实验总结,建立起日志记录与事件之间的映射关系。该算法充分利用操作系统日志、安全日志和应用程序日志的先验知识,简化了聚类算法的复杂度,易于实现,速度快,时间复杂度低,聚类生成的事件信息描述准确、完整,易于理解和识别,成为后期安全研究的高质量数据源。
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP311.13;TP393.092

【相似文献】
中国期刊全文数据库 前10条
1 彭宇;罗清华;彭喜元;;UIDK-means:多维不确定性测量数据聚类算法[J];仪器仪表学报;2011年06期
2 张笑;;一种新的基于Web日志的数据聚类算法研究[J];电脑知识与技术;2011年21期
3 史迎春;刘继超;;基于分类聚类技术的影视数据挖掘研究[J];软件导刊;2011年06期
4 张桂芬;;数据挖掘技术在图书馆中的应用研究[J];煤炭技术;2011年07期
5 黄韬;刘胜辉;谭艳娜;;基于k-means聚类算法的研究[J];计算机技术与发展;2011年07期
6 李艳灵;魏涛;;基于轮廓波变换的模糊聚类图像分割[J];信阳师范学院学报(自然科学版);2011年03期
7 石慧;翁福利;;一种基于关联矩阵的直觉模糊聚类算法[J];重庆文理学院学报(自然科学版);2011年04期
8 曹巧玲;郭华平;范明;;旋转网格:一种新的聚类融合方法[J];计算机科学;2011年07期
9 曹宇;尹刚;李翔;程荣斌;王怀民;;聚类搜索引擎研究进展浅析[J];电脑知识与技术;2011年22期
10 赵向梅;王艳君;刘林;;聚类算法及聚类融合算法研究[J];电子设计工程;2011年15期
中国重要会议论文全文数据库 前10条
1 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
3 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
4 张望;王辉;;个性化服务中的并行K-Means聚类算法[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
5 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
6 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
7 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
9 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国重要报纸全文数据库 前10条
1 洪蕾;让日志管理“智能化”[N];中国计算机报;2005年
2 记者 吴晓伟;日志管理设备厂商进入中国[N];计算机世界;2005年
3 沈建苗;日志管理迎接法规遵从时代[N];计算机世界;2007年
4 曾;RSA发布enVision解决方案[N];电脑商报;2007年
5 ;SIM让安全管理自动化[N];网络世界;2005年
6 沈生;要安全也要盘算[N];中国计算机报;2004年
7 王力朱立智;网络审计监管急需统一框架[N];计算机世界;2007年
8 ;网管创新起新潮[N];网络世界;2006年
9 沈建;谨防安全策略的五大基本错误[N];计算机世界;2008年
10 ;视频数据中挖“宝”[N];计算机世界;2002年
中国博士学位论文全文数据库 前10条
1 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
2 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
3 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
4 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年
5 张鸿雁;基于DNA计算的聚类算法研究[D];山东师范大学;2011年
6 孙鹏岗;聚类算法研究及其在网络模块性分析中的应用[D];西安电子科技大学;2011年
7 曹付元;面向分类数据的聚类算法研究[D];山西大学;2010年
8 梅娟;复杂生物网络聚类分析方法[D];江南大学;2010年
9 潘鸿飞;形状特征描述及聚类算法研究[D];安徽大学;2011年
10 李强;动点聚类算法及其量子化研究[D];浙江大学;2009年
中国硕士学位论文全文数据库 前10条
1 张珠玉;聚类算法及其在日志数据处理中的应用研究[D];山东师范大学;2011年
2 卜德云;自适应谱聚类算法的研究与应用[D];南京航空航天大学;2010年
3 石洪竺;量子进化聚类算法研究[D];西安电子科技大学;2010年
4 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年
5 叶冲轶;高维海量数据联合聚类算法的研究与应用[D];浙江工商大学;2010年
6 姚毓凯;一种有效的自适应网格密度聚类算法研究[D];兰州大学;2011年
7 王帆;基于优化目标可调控的免疫聚类算法的研究[D];太原理工大学;2010年
8 李长进;基于蚁群算法的混合聚类算法研究[D];中国石油大学;2010年
9 武彩丽;基于规范切和分水岭的聚类算法研究[D];西安电子科技大学;2010年
10 张立;基于新闻评论数据的K-means聚类算法的研究[D];太原理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026