收藏本站
《东华大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于聚类的异常挖掘算法研究

苏晓珂  
【摘要】:在网络、金融、气象、医学、保险和电信等众多应用领域,稀有的、特殊的异常数据往往代表一种偏差或者新模式的开始,对这些异常数据的识别比对正常数据的分析更有价值,可从新的视角开启新的理论,从而带来新的应用。从数据分析的角度而言,识别这些异常数据就需要相应的异常挖掘算法。随着应用日益广泛以及数据不断积累,异常挖掘需处理的数据量越来越大,应用环境也越来越复杂。已存在方法主要针对中、小规模数值属性数据集,面对大规模混合属性数据集和动态数据流时,算法的可扩展性、时效性及准确性都难以满足实际应用的需求。 在模式识别领域,异常挖掘可看作是一种特殊的分类问题。作为无监督模式识别的一个重要分支,聚类具有不需要任何先验知识的特性,比较适合面向大规模数据集的异常挖掘。因此,基于聚类的异常挖掘得到了广泛研究,提出了许多有效的异常挖掘算法,但仍有许多问题尚待研究和解决。本文主要针对已有异常挖掘算法存在的不足,从不同角度研究了基于聚类的异常挖掘算法。 目前,已有基于聚类的异常挖掘算法大多直接将聚类形成的小簇作为异常,由于采用的类球形聚类算法限制,有些小簇可能是任意形状正常簇的边界,从而导致较高的FR (False Positive Rate)。为了提高挖掘结果的准确性,研究任意形状聚类对异常挖掘来说具有非常重要的意义。本文首先介绍了两种任意形状聚类算法OBASC和EASSC。算法OBASC针对小规模数据集,根据提出的可兼顾分类属性取值频率差异与频率高低的差异性度量方式,仅需输入一个近邻阈值参数就可发现任意形状的簇;增强的谱聚类算法EASSC使用改进的高斯核函数作为簇间相似性度量,可处理大规模高维变密度数据集。实验结果表明算法OBASC和EASSC聚类精度高,适用于混合属性数据集中任意形状聚类。这两种算法为设计高效的异常挖掘奠定了基础,但参数确定困难,必须经过多次试探。为减少用于预处理的聚类算法对用户的依赖,本文提出了基于聚类融合的异常挖掘算法CEBOM,将任意形状聚类算法中的一种——OBASC作为基础聚类算法,对较大范围内不同阈值下得到的候选异常进行融合,识别真正的异常。实验结果表明,CEBOM算法可降低直接将小簇作为异常的高FR,并且能提供给用户更为“友好”的操作。 基于任意形状聚类的异常挖掘虽然可有效检测到异常数据,但时间复杂度较高。在内存有限的情况下,处理大规模数据集需要频繁的内外存数据交换,从而导致难以容忍的时空复杂度。针对此种问题,本文提出了两种面向大规模混合属性数据集的异常挖掘算法ICBOM和SNNOM。算法ICBOM在对原始数据集增量聚类的基础上,过滤掉大量正常数据,根据提出的异常簇定义识别数据集中的边界异常和内部异常,同时探讨了算法中的参数取值;算法SNNOM计算增量聚类结果簇间的共享最近邻相似度,不但能够发现任意形状的簇,还可挖掘到变密度数据集中的全局异常。理论分析与实验结果表明,这两种算法关于数据集的大小和属性个数呈近似线性时间复杂度,较之同类算法具有更高的DR (Detection Rate)以及较低的FR。 算法CEBOM、ICBOM和SNNOM挖掘到的都是全局异常,但由于现实世界复杂多变,所获得的数据集往往不完整,特别是在动态数据流环境下,数据具有时间特性,且不断流逝,由此基于“在线聚类、离线异常挖掘”的思想,提出了两种不同模型下的混合属性数据流异常挖掘算法DMDSOM和SWMSOM。算法DMDSOM基于衰减模型,在线维护具有时间维的簇特征。异常挖掘阶段仅计算特定簇的整体偏离程度,是一种节省时间的策略;同时提出了一种可有效区分异常簇与数据进化初始阶段的方法,半径阈值动态改变。算法SWMSOM基于滑动窗口模型,使用宏簇与带时间戳的微簇增量聚类数据流,始终维护W个时间单位的宏簇。当接收到检测请求时,计算特定宏簇的多粒度偏差因子并按降序排列。理论分析与实验结果表明,这两种算法在线建立模型时具有近似线性时间复杂度,内存开销较小,可有效挖掘到混合属性数据流中的局部异常,是对现有异常挖掘算法的有益补充和改进。 作为异常挖掘的一类实际应用领域,入侵检测中的正常行为和入侵行为彼此分离,同样可采用聚类技术来解决。本文提出了一种基于半监督人工免疫聚类的入侵检测算法,定义了混合属性抗原与抗体间的差异度,结合半监督学习仅使用少量标记数据的指导作用对训练集进行人工免疫聚类,建立分类模型,依据模型分类测试集,检测入侵行为。动态增长的网络数据因具有高速、无穷到达的特点,可看作数据流,因此又提出一种可用于混合属性数据流的入侵检测算法,在界标模型下增量聚类数据流,对结果簇进行加权模糊聚类,依据隶属度矩阵的最大隶属原则,将正常行为与入侵行为区分开来。实验结果进一步表明,这两种算法均可处理混合属性网络数据,具有较好的应用前景。 本文从不同角度提出了基于聚类的异常挖掘新方法,理论分析与实验结果表明,提出的算法能够较为有效地解决相应的问题,不仅为异常挖掘提供了一些新的视角和手段,同时也丰富了模式识别的研究内容。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 蒋良孝,蔡之华;异常挖掘方法研究[J];计算机工程与应用;2003年19期
2 蒋盛益,徐雨明,陈溪辉;异常挖掘研究综述[J];衡阳师范学院学报;2004年03期
3 杨虎,钟震,程代杰;基于不完全数据的异常挖掘算法研究[J];计算机研究与发展;2004年09期
4 黄光球,彭绪友,靳峰;基于密度的异常挖掘方法研究与应用[J];微电子学与计算机;2005年03期
5 李浪;李仁发;;基于数据流异常挖掘的入侵检测系统设计[J];科学技术与工程;2008年13期
6 李浪;;一种数据流异常并行挖掘算法[J];科学技术与工程;2008年23期
7 黄光球 ,彭绪友 ,吕定全;基于密度的异常挖掘智能网络入侵检测系统设计与实现[J];微计算机信息;2005年23期
8 张玉芳,王秀琼,孙思,熊忠阳;一种异常挖掘技术在入侵检测中的应用[J];计算机工程与应用;2005年22期
9 杨虎;王会琦;程代杰;;基于预测的序列异常数据挖掘[J];计算机科学;2004年04期
10 李正媛;陈晶;王丽娜;杨淞;;一种基于误差和关键点的地震前兆观测数据异常挖掘算法[J];计算机应用研究;2011年08期
11 周世兵;徐振源;唐旭清;;新的K-均值算法最佳聚类数确定方法[J];计算机工程与应用;2010年16期
12 周世兵;徐振源;唐旭清;;基于近邻传播算法的最佳聚类数确定方法比较研究[J];计算机科学;2011年02期
13 周世兵;徐振源;唐旭清;;一种基于近邻传播算法的最佳聚类数确定方法[J];控制与决策;2011年08期
14 周海斌;;基于人工蚁群的Web会话聚类[J];重庆邮电学院学报(自然科学版);2006年05期
15 王士同;陈晓峰;曹苏群;钟富礼;;基于力的类同传播聚类方法[J];江南大学学报(自然科学版);2009年04期
16 巩玉玺;罗容;;基于deep web数据库的个性化推荐系统[J];煤炭技术;2009年08期
17 欧卫华;;基于重叠度增量的模糊聚类有效性函数[J];计算技术与自动化;2009年04期
18 张忠平;王浩;薛伟;夏炎;;动态滑动窗口的数据流聚类方法[J];计算机工程与应用;2011年07期
19 于金霞;蔡自兴;段琢华;;一种用于激光雷达特征提取的改进遗传聚类算法[J];模式识别与人工智能;2008年04期
20 高倩;戴月明;;用于文本聚类的模糊谱聚类算法[J];计算机工程与应用;2010年13期
中国重要会议论文全文数据库 前10条
1 陈显周;俞守华;区晶莹;;异常挖掘在猪只行为数据分析上的应用[A];2011年中国农业系统工程学术年会论文集;海峡两岸农业学术研讨会论文集;长沙市第五届自然科学学术年会农学研讨会论文集[C];2011年
2 高翠芳;吴小俊;;基于二阶差分的聚类数自动确定方法[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
3 张琦;乔卫勇;;RACF介绍[A];第二次计算机安全技术交流会论文集[C];1987年
4 梁一平;邓左祥;周小平;;一种多关系数据挖掘中元组ID传播的设计与实现[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
5 杨青;刘晔;张东旭;刘畅;;快速查找最优初始聚类数K的改进K-means算法[A];中国自动化学会控制理论专业委员会A卷[C];2011年
6 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
8 田小丽;郑康锋;钮心忻;;一种基于改进K-Medoids算法的网络攻击检测技术[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
9 蔡军;袁华鹏;陈金海;施伯乐;;一种基于相似性分析的聚类新算法:PDS算法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
10 朱牧;孟凡荣;周勇;;一种确定聚类数目的自组织特征映射网络[A];2009年全国开放式分布与并行计算机学术会议论文集(上册)[C];2009年
中国重要报纸全文数据库 前10条
1 山水;艾斯本与NIST集合数据集[N];中国石化报;2007年
2 李宇;上市预披露将成市场常规[N];中国证券报;2008年
3 郭立;荣昌猪实现数字化[N];中国畜牧兽医报;2005年
4 记者 刘浪 通讯员 廖雅琴;中国首套数字化“可视人”数据集在渝通过成果鉴定[N];重庆日报;2003年
5 上海 陈纯;初识T-SQL,恋情的开始[N];电脑报;2004年
6 秦笃烈;解读 中国造女性数字人[N];健康报;2006年
7 李宇;港交所明年试验上市预披露计划[N];中国证券报;2007年
8 本报记者 周仲全 实习生 蔡为伟;数字虚拟人:为承受人类苦痛而来[N];辽宁日报;2005年
9 周青 编译;CDP:与快照相得益彰[N];计算机世界;2006年
10 本报记者  郝宗强;为社会和谐作贡献[N];人民日报;2006年
中国博士学位论文全文数据库 前10条
1 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
2 曹付元;面向分类数据的聚类算法研究[D];山西大学;2010年
3 汪云云;结合先验知识的分类器设计研究[D];南京航空航天大学;2012年
4 段江娇;基于模型的时间序列数据挖掘[D];复旦大学;2008年
5 雷亚国;混合智能技术及其在故障诊断中的应用研究[D];西安交通大学;2007年
6 薛晖;分类器设计中的正则化技术研究[D];南京航空航天大学;2008年
7 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
8 杨波;图驱动的无监督降维和判别子空间学习研究及其应用[D];南京航空航天大学;2010年
9 吴毅;数字人全身分割数据集的建立及人体胸腔与盆腔的数字化研究[D];第三军医大学;2012年
10 纳赛尔 阿里 穆罕默德 巴拉卡特;复杂化学数据的知识发现新型化学计量学算法研究[D];湖南大学;2005年
中国硕士学位论文全文数据库 前10条
1 韦达;基于异常挖掘的网络入侵检测[D];北京化工大学;2011年
2 彭绪友;基于异常挖掘的网络入侵检测系统研究[D];西安建筑科技大学;2005年
3 陆声链;孤立点挖掘及其内涵知识发现的研究与应用[D];广西师范大学;2005年
4 马兰云;流数据异常挖掘算法研究[D];北京交通大学;2007年
5 陶振海;数据挖掘算法在行政审计中的应用[D];上海交通大学;2007年
6 高婷婷;计算机审计技术及其在航班计划编排中的应用研究[D];南京航空航天大学;2008年
7 杨莲;数据挖掘的统计模型和算法的研究[D];重庆大学;2005年
8 姚世通;基于隐马尔可夫模型的时间序列聚类的研究[D];上海交通大学;2011年
9 董芳英;基于聚类结果的基因集差异表达分析[D];浙江大学;2010年
10 李丁丁;一种基于结点聚类的网络定位算法[D];湖南大学;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978