收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

高维数据的聚类方法研究与应用

陈黎飞  
【摘要】: 聚类分析是数据挖掘中重要的研究课题,在信息过滤、资料自动分类、生物信息学等领域得到广泛应用。随着技术进步,聚类分析许多应用领域的数据具有很高的维度,例如,各种类型的文档数据、基因表达数据等其维度(属性)可以达到成百上千维,甚至更高。由于高维数据存在的普遍性,高维数据的聚类分析具有非常重要的意义。 数据在高维空间中的表现相对于低维空间有很大的差异。在高维空间的许多情况下,由于数据分布的内在稀疏性,低维数据聚类常用的L_p距离等相似度度量有效性大大降低;高维空间中簇类往往只存在于某些低维子空间中,而不同的簇类其所处的子空间也可能存在差异。受“维度效应”的影响,许多在低维数据上表现良好的聚类方法运用于高维数据时无法获得很好的效果,需要采用一些特殊的方法进行高维数据的聚类分析。 本文从高维数据子空间聚类的数学统计模型入手,研究其潜在的概率统计模型,继而提出新的聚类算法、开展高维数据的聚类有效性等研究;并在文本分类、网络入侵检测和恶意软件鉴别中进行应用研究,具有一定的理论意义和实际应用价值。 本文的主要工作及贡献如下: 1.提出了一种高维数据子空间聚类的概率统计模型及其学习算法,分析了子空间聚类算法的目标优化函数; 2.建立了现有软子空间聚类算法与统计模型之间的联系,对其中两种代表性算法进行了多方面的改进;提出检测局部离群点的方法,提高了子空间聚类算法的鲁棒性: 3.基于统计模型给出了模糊隶属度的新定义,提出一种高维数据的模糊聚类算法;结合三种改进的子空间聚类有效性指标,用于估计高维数据集的子空间簇类数目; 4.针对传统方法需要对大型、高维数据集进行反复聚类引起的计算效率问题,提出了基于层次划分的最佳聚类数目确定方法; 5.将子空间聚类方法应用于有指导的文本分类,提出了一种具有线性时间复杂度的文本分类新算法:将以上高维数据的聚类方法应用于网络入侵检测系统的关键特征选择和实际项目进行恶意软件辅助鉴别。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 沈萍;;高维数据挖掘技术研究[J];电脑知识与技术;2009年06期
2 余元辉;邓莹;;一种新的高维数据聚类自适应算法的研究[J];沈阳化工大学学报;2010年02期
3 王寅峰;刘昊;狄盛;胡昊宇;;一种支持高维数据查询的并行索引机制[J];华中科技大学学报(自然科学版);2011年S1期
4 周勇;卢晓伟;程春田;;非规则流中高维数据流典型相关性分析并行计算方法[J];软件学报;2012年05期
5 王素芳;;基于组件的高维数据降维方法研究[J];电脑与电信;2012年10期
6 贺玲;蔡益朝;杨征;;高维数据聚类方法综述[J];计算机应用研究;2010年01期
7 赵连伟,罗四维,赵艳敞,刘蕴辉;高维数据流形的低维嵌入及嵌入维数研究[J];软件学报;2005年08期
8 杨雪梅;董逸生;徐宏炳;刘学军;钱江波;王永利;;高维数据流的在线相关性分析[J];计算机研究与发展;2006年10期
9 黄斯达;陈启买;;一种基于相似性度量的高维数据聚类算法的研究[J];计算机应用与软件;2009年09期
10 吴翌琳;林寅;陈昊;;基于色差法的高维数据展示方法初探[J];统计与决策;2011年07期
11 武森;冯小东;吴庆海;;基于稀疏指数排序的高维数据并行聚类算法[J];系统工程理论与实践;2011年S2期
12 王晓阳;张洪渊;沈良忠;池万乐;;基于相似性度量的高维数据聚类算法研究[J];计算机技术与发展;2013年05期
13 游芳;姜建国;张坤;;基于二维属性的高维数据聚类算法研究[J];计算机技术与发展;2009年05期
14 谢志强;张豪;杨静;谭怀生;;高维数据多级模糊模式识别的分类研究[J];计算机应用研究;2009年11期
15 兰红;王建雄;刘发升;;大型关系数据集中高维数据可视化处理的一种方法[J];自动化技术与应用;2006年11期
16 胡孔法;唐小丽;达庆利;陈崚;;一种高效挖掘高维数据的频繁闭合模式算法[J];东南大学学报(自然科学版);2007年04期
17 张涛;洪文学;景军;彭勇;;高维数据的2D图单点表示原理[J];燕山大学学报;2008年05期
18 李泽安;陈建平;章雅娟;赵为华;;高维数据挖掘中特征选择的稳健方法[J];计算机应用;2013年08期
19 梅承力,周源华;高维数据空间索引的研究[J];红外与激光工程;2002年01期
20 周煜人,彭辉,桂卫华;基于映射的高维数据聚类方法[J];计算技术与自动化;2005年02期
中国重要会议论文全文数据库 前6条
1 周煜人;彭辉;桂卫华;;基于映射的高维数据聚类方法[A];04'中国企业自动化和信息化建设论坛暨中南六省区自动化学会学术年会专辑[C];2004年
2 梁俊杰;杨泽新;冯玉才;;大规模高维数据库索引结构[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 陈冠华;马秀莉;杨冬青;唐世渭;帅猛;;面向高维数据的低冗余Top-k异常点发现方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
4 刘运涛;鲍玉斌;吴丹;冷芳玲;孙焕良;于戈;;CBFrag-Cubing:一种基于压缩位图的高维数据立方创建算法(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 刘文慧;;PCA与PLS用于高维数据分类的比较性研究[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 刘喜兰;冯德益;王公恕;朱成喜;冯雯;;脸谱分析在中进期地震跟踪预报中的应用[A];中国地震学会第四次学术大会论文摘要集[C];1992年
中国博士学位论文全文数据库 前10条
1 杨风召;高维数据挖掘中若干关键问题的研究[D];复旦大学;2003年
2 陈黎飞;高维数据的聚类方法研究与应用[D];厦门大学;2008年
3 楼巍;面向大数据的高维数据挖掘技术研究[D];上海大学;2013年
4 黄健美;高维数据索引及其查询处理技术研究[D];东北大学;2009年
5 任亚洲;高维数据上的聚类方法研究[D];华南理工大学;2014年
6 董道国;高维数据索引结构研究[D];复旦大学;2005年
7 谭璐;高维数据的降维理论及应用[D];国防科学技术大学;2005年
8 刘翠响;人脸识别中高维数据特征分析[D];河北工业大学;2008年
9 吕艳萍;微粒群优化算法及其在高维数据聚类的应用研究[D];厦门大学;2009年
10 陈建娇;高维数据的K-harmonic Means聚类方法及其应用研究[D];上海大学;2012年
中国硕士学位论文全文数据库 前10条
1 康永为;大数据环境下高维数据处理若干问题[D];广西师范大学;2013年
2 陈路莹;高维数据的聚类分析方法研究及其应用[D];厦门大学;2009年
3 王立强;基于多元统计图的高维数据降维方法及应用研究[D];燕山大学;2006年
4 戴继勇;基于投影的高维数据异常检测研究[D];重庆大学;2007年
5 屈治礼;高维数据可视化研究及在商业智能中的应用[D];江苏科技大学;2013年
6 谢明霞;高维数据聚类若干关键问题研究[D];解放军信息工程大学;2011年
7 易莉桦;高维数据聚类算法的研究[D];燕山大学;2012年
8 王冬秀;基于衰减窗口与剪枝链表树的高维数据流聚类算法研究[D];华东师范大学;2010年
9 刘天桢;高维数据可视化研究[D];武汉理工大学;2005年
10 熊琅环;基于遗传算法的高维数据聚类研究[D];汕头大学;2010年
中国重要报纸全文数据库 前1条
1 本报记者 李双艺;引领高维数据分析先河[N];吉林日报;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978