收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

高维数据的聚类分析方法研究及其应用

陈路莹  
【摘要】: 随着互联网的不断深入发展,网络上堆积的数据日益庞大和复杂。数据挖掘是一种将数据转换为有用信息的有效方法。聚类分析是数据挖掘的基本方法之一,其在许多领域都有着广泛的应用。然而,在如网络入侵检测和垃圾邮件甄别的实际应用中,数据普遍存在“高维性”。受“维度效应”的影响,在低维数据空间表现良好的聚类方法运用到高维空间上时,往往无法获得高质量的聚类结果。因而高维数据的聚类分析已经成为近年来研究的一个重点课题。 在对高维数据进行聚类分析的研究中,维度约简方法和聚类的鲁棒性是该领域中的两个关键问题。维度约简旨在将高维数据变换到低维空间,但在这一过程中,如何在保证一定聚类精度的前提下高效地对特征进行约简成为一个研究热点。另一方面,由于高维数据分布的内在稀疏性,常用的距离度量(如欧氏距离)和密度度量的有效性大大降低。在数据点之间普遍存在“低相似性”的情况下,如何有效地选择聚类初始中心点并排除孤立点的影响,增强高维聚类的鲁棒性是一个值得关注的问题。 针对以上两个关键问题,本文重点研究了基于特征选择的维度约简方法以及高维聚类的初始化(即鲁棒性)方法,主要工作包括以下两个方面:(1)提出一种基于多层过滤的特征选择方法并应用于网络入侵检测。该方法利用粗糙集的特性和遗传算法在解决NP问题上的优势,引入信息论角度定义的特征重要性,并将此度量作为启发式信息,对遗传算法的初始群体进行优化。将特征数目和特征的分类能力结合到目标评价函数中,在提高算法收敛速度的同时取得了更优化的结果。(2)在高维聚类的鲁棒性研究方面,提出新的基于公共近邻密度的中心点初始化算法,并将其应用到入侵检测和垃圾邮件甄别中。该算法利用点的局部密度来评估可能的高密度区域,以此来定位簇的初始中心点;反之,位于低密度区的点被视为孤立点,从而排除了噪声点对聚类性能的影响。该方法更有利于发现不同形状以及不同密度的簇类。实验结果表明,算法提高了聚类结果的稳定性和可靠性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 贺玲;蔡益朝;杨征;;高维数据聚类方法综述[J];计算机应用研究;2010年01期
2 黄斯达;陈启买;;一种基于相似性度量的高维数据聚类算法的研究[J];计算机应用与软件;2009年09期
3 黄斯达;陈启买;;基于相似性度量的高维聚类算法的研究[J];微计算机信息;2009年27期
4 徐向阳;;K-均值聚类算法在关系数据库中的应用[J];桂林电子科技大学学报;2008年04期
5 李欣宇;傅彦;;一种适合于科学数据的聚类算法[J];成都信息工程学院学报;2006年03期
6 李榕;赵雷;杨季文;;入侵检测系统的模式建立与匹配方法[J];计算机工程与设计;2009年17期
7 栾丽华,吉根林;树型空间索引及其在聚类中的应用研究[J];计算机工程与应用;2005年19期
8 沈萍;;高维数据挖掘技术研究[J];电脑知识与技术;2009年06期
9 周晓云;孙志挥;张柏礼;杨宜东;;高维数据流聚类及其演化分析研究[J];计算机研究与发展;2006年11期
10 廖细生;;基于数据挖掘的网络入侵检测技术研究[J];计算机安全;2009年08期
11 岳佳;王士同;;高斯混合模型聚类中EM算法及初始化的研究[J];微计算机信息;2006年33期
12 马立斌;;基于聚类分析的电信客户细分探讨[J];电信技术;2010年05期
13 田银磊;王亚利;;一种改进的聚类和孤立点检测算法[J];科学技术与工程;2010年22期
14 郑君华;项湜伍;蒋建军;池涛;;基于防伪信息的税控收款机系统安全性方案设计[J];上海电机学院学报;2005年05期
15 姜斌;潘景昌;郭强;衣振萍;;PCA和相融性度量在聚类算法中的应用[J];电子科技大学学报;2007年06期
16 高倩倩;须文波;孙俊;;量子行为粒子群算法在基因聚类中的应用[J];计算机工程与应用;2010年21期
17 陈伟;人力防火墙管理系列之一——筑堵“人力”防火墙[J];中国计算机用户;2004年08期
18 张晶;“应急”的声音——更多关注应急体系,更好确保信息安全[J];信息安全与通信保密;2005年05期
19 陆林花;王波;;一种改进的遗传聚类算法[J];计算机工程与应用;2007年21期
20 黄红星;阙树福;黄习培;田立;;模糊蚁群聚类及其在数据挖掘中的应用[J];福建电脑;2007年11期
中国重要会议论文全文数据库 前10条
1 史金成;胡学钢;;基于约束的数据流聚类研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
2 王丹;;加强用户安全意识,提升主机防御能力[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
3 李建生;胡金亮;余学庆;王明航;王永炎;;基于聚类分析的径向基神经网络用于2型糖尿病证候诊断[A];第八次全国中医糖尿病学术大会论文汇编[C];2005年
4 万京;王建东;;一种基于新的差异性度量的ReliefF方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
5 刘琼瑶;;计算机信息安全与防范浅析[A];’2004计算机应用技术交流会议论文集[C];2004年
6 张岚;郭俊杰;;信息安全风险评估的安全措施探讨[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
7 陈晖;刘瑶;;量子保密通信与信息安全[A];第十一届保密通信与信息安全现状研讨会论文集[C];2009年
8 张艳;顾健;李毅;;生物特征识别及其在信息安全中的应用[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
9 刘京玲;陈元;;信息隐藏-数字水印[A];第十八次全国计算机安全学术交流会论文集[C];2003年
10 何晓辉;;信息隐藏技术研究[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 陈黎飞;高维数据的聚类方法研究与应用[D];厦门大学;2008年
2 王焕宝;安全协议分析的形式化理论与方法[D];合肥工业大学;2006年
3 徐志大;信息系统纵深防护关键技术研究[D];中国人民解放军信息工程大学;2003年
4 余位驰;格基规约理论及其在密码设计中的应用[D];西南交通大学;2005年
5 陈文惠;防火墙系统策略配置研究[D];中国科学技术大学;2007年
6 李健;抗几何攻击的数字图像水印技术的研究[D];南京理工大学;2009年
7 哈进兵;基于Web的协同产品开发体系结构及信息安全技术研究[D];南京理工大学;2002年
8 彭军;混沌在网络信息安全中的应用研究[D];重庆大学;2003年
9 蒋建春;面向网络环境的信息安全对抗理论及关键技术研究[D];中国科学院研究生院(软件研究所);2004年
10 许春根;访问控制技术的理论与方法的研究[D];南京理工大学;2003年
中国硕士学位论文全文数据库 前10条
1 陈路莹;高维数据的聚类分析方法研究及其应用[D];厦门大学;2009年
2 闫妍;子空间聚类改进方法研究[D];大连理工大学;2008年
3 周骋;基于高维数据的双聚类算法研究与应用[D];南京理工大学;2009年
4 吴俊杰;基于密度的子空间聚类算法研究[D];厦门大学;2009年
5 陶双;基于密度和网格的聚类分析在数据挖掘中的应用[D];大连海事大学;2005年
6 杨涛;聚类算法在图像索引中的应用与研究[D];北京交通大学;2009年
7 王文平;聚类分析及其在图像分割中的应用[D];山东师范大学;2007年
8 王振东;聚类算法及其在客户行为分析中的应用研究[D];北京邮电大学;2008年
9 张磊;数据挖掘聚类算法研究与系统设计[D];电子科技大学;2006年
10 蔡春丽;数据流挖掘中聚类算法的研究与实现[D];哈尔滨工程大学;2007年
中国重要报纸全文数据库 前10条
1 ;信息安全攻击损失仍在上升[N];计算机世界;2003年
2 荣新IT培训中心 张琦;2009信息安全的五大威胁[N];中国计算机报;2009年
3 记者 吴生锋;扬州信息产业前景好[N];扬州日报;2009年
4 上海社会科学院副研究员 博士 丁波涛;解决三大难题加快物联网应用[N];中国电子报;2009年
5 本报记者 马博;以技术优势抢占信息安全蓝海[N];中国电子报;2009年
6 郑燃 沙洲(本报记者 郑燃);信息安全产品定点采购 成本低效率高[N];政府采购信息报;2010年
7 本报记者 胡英;赛门铁克新技术 降低企业安全风险[N];计算机世界;2010年
8 中国科学院信息安全国家重点实验室教授 翟起滨;云计算引出的闲言碎语[N];中国计算机报;2010年
9 北京神州泰岳信息安全技术有限公司 张建军;综合安全管控平台规范安全管理[N];通信产业报;2010年
10 记者 郭川;加强信息安全国际合作[N];人民邮电;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978