基于数据挖掘的分布式异常检测
【摘要】:
数据挖掘是知识发现的一种重要工具,它的目的是发现隐含在大量数据中有价值的模式信息。异常检测在数据挖掘的四大任务中占据着非常重要的地位,与预测模型、聚类分析和关联分析相比,它显得更有价值,更能体现数据挖掘的初衷。例如,一万个正常的记录很可能只覆盖一条规则,而十个异常很可能就意味着十条不同的规则。异常检测在多个领域中具有广泛的应用,如信用卡欺诈检测、药物研究、医疗分析、消费者行为分析、气象预报、网络入侵检测等。在信息产业高速发展的今天,随着业务规模的不断扩大和服务内容的不断更新,迫切需要企业采用分布式解决方案,用于管理复杂的异构环境,实现不同硬件设备、软件系统、网络环境及数据库系统之间的协同工作,这也给研究者和工程人员提出了新的挑战。在分布式环境下,异常检测需要考虑的主要问题是:如何利用最少传输提供最大的信息共享,同时要保证异常检测的准确性和各方数据的隐私性。为解决此问题,本文从数据挖掘的角度,针对分布式异常检测技术进行了创新性和探索性研究。主要研究内容为:
1.从异常检测的定义出发,针对现有基于数据挖掘的各种异常检测方法进行了详细描述,并分析其各自优缺点和目前国内外相关技术的研究现状。
2.通过对比集中式异常检测和分布式异常检测的不同,并结合集成学习方法,提出一套分布式异常检测框架。应用此框架,分别针对有监督学习和无监督学习的异常检测方法进行了研究,实验结果表明提出的分布式检测框架能够获得和集中式检测相当甚至更好的检测效果,同时能够保证各方数据的隐私性。
3.研究分布式环境下数据流上的异常检测,同时提出一种响应式的概念漂移检测模型,能够准确的进行概念漂移数据流上的异常检测。
4.研究分布式环境下高维数据的无监督异常检测,针对高维科学数据提出一种自适应谱聚类方法,并在分子动力学数值模拟科学数据上进行了实验,得到了很好的检测效果。
5.研究分布式异常检测中的隐私保护问题,并针对支持向量机分类器提出了一种隐私保护支持向量机。通过实验证明,提出的方法能够保证数据的隐私性,同时能够达到和原支持向量机相当的检测效果。研究基于个性化隐私保护的数据挖掘问题,并提出一种基于数据扰动的个性化隐私保护方法用于分布式异常检测。
|
|
|
|
1 |
香丽芸;浅谈数据挖掘及其应用[J];昌吉师专学报;2001年02期 |
2 |
郑雪燕,张杰明,岳洋;数据挖掘语言[J];计算机时代;2001年11期 |
3 |
刘明晶;数据挖掘[J];华南金融电脑;2001年04期 |
4 |
张伟;刘勇国;彭军;廖晓峰;吴中福;;数据挖掘发展研究[J];计算机科学;2001年07期 |
5 |
钟晓;马少平;张钹;俞瑞钊;;数据挖掘综述[J];模式识别与人工智能;2001年01期 |
6 |
朱建平,张润楚;数据挖掘的发展及其特点[J];统计与决策;2002年07期 |
7 |
傅岚;在数据海洋中打捞信息数据挖掘[J];科技广场;2002年11期 |
8 |
李峻;数据挖掘,企业洞察先机的“慧眼”[J];中国计算机用户;2002年48期 |
9 |
罗可,蔡碧野,卜胜贤,谢中科;数据挖掘及其发展研究[J];计算机工程与应用;2002年14期 |
10 |
;2002数据挖掘研讨班[J];计算机工程;2002年06期 |
11 |
韩双霞;李萍;;数据挖掘:构筑企业竞争优势[J];金卡工程;2002年08期 |
12 |
林阳;数据挖掘在教育信息化中的潜在价值[J];现代教育技术;2002年01期 |
13 |
蒋良孝,蔡之华;一种新兴的数据挖掘方法:神经规则法[J];计算机工程与应用;2003年15期 |
14 |
朱世武
,崔嵬
,张尧庭
,谢邦昌;数据挖掘运用的理论与技术[J];统计研究;2003年08期 |
15 |
王晓涓,祁慧敏;数据挖掘漫谈[J];天中学刊;2003年02期 |
16 |
陈伟志,魏振军,王春迎;多元统计分析在数据挖掘中的作用[J];信息工程大学学报;2003年04期 |
17 |
赵涛;;数据挖掘在金融行业的运用[J];金融电子化;2004年03期 |
18 |
韩江;数据挖掘——极具发展潜力的新领域[J];苏州市职业大学学报;2004年01期 |
19 |
李菁菁,邵培基,黄亦潇;数据挖掘在中国的现状和发展研究[J];管理工程学报;2004年03期 |
20 |
;中国科学院数据挖掘与知识管理学术研讨会在京举行[J];管理评论;2004年07期 |
|