收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于进化算法的高维数据聚类研究

杨代君  
【摘要】:对高维数据进行潜在价值的挖掘是目前的一个技术难题,同时也是一个研究热点。高维数据聚类分析是挖掘高维数据的价值的一个重要手段,它在文档分析、新闻自动分类、自动摘要、垃圾邮件识别及过滤、信息过滤以及生物信息学等领域有重要的作用。目前,随着信息科学的发展,在我们获取的数据中,高维数据占的比例越来越大,比如,网络购物产生的交易数据,基因表达数据以及文本数据等。对这些高维数据进行挖掘能获得十分巨大的经济价值以及其它的知识,所以高维数据聚类分析作为一种重要的挖掘手段,具有巨大的研究前景。和低维数据相比,高维数据在整个空间的分布是稀疏的,这使得对其进行聚类分析变得十分困难。但是一般来说,高维数据的聚类簇在是比较紧凑的分布在该聚类簇的子空间上的,所以如果能找到高维数据的每一个聚类簇所在的子空间,那么对高维数据进行聚类分析就能得到一个比较好的结果。但是因为不同的聚类簇的子空间是不一样不同的相关维组成的,所以寻找聚类簇对应的子空间是十分困难的。通过上面的分析,可以得出:高维数据聚类的难点和关键就是如何找出子空间。本文通过分析现有的软子空间聚类算法的优缺点,将差分进化算法用于维度权值的求解,从而提升算法的聚类效果;引入多目标聚类的思想,降低算法对聚类类别输的依赖,使得算法的应用范围更广。本文的主要工作为:1)现有的软子空间聚类算法都是类k-means算法,针对它们比较依赖初始聚类中心,算法不稳定以及维度权值不准确的缺点,提出了基于差分进化的软子空间聚类算法。该聚类算法是在软子空间聚类算法的框架下,引入差分进化优化算法对维度权值进行优化,提升算法的稳定性以及聚类效果。实验表明,该算法在人工数据集、UCI数据集以及癌症基因表达数据上,获取的优于其他软子空间聚类算法的聚类结果。2)针对现有的软子空间聚类算法都是对一个目标函数进行优化以及需要与先给定准确的类别数等缺点,提出了基于多目标进化算法的软子空间聚类算法。利用多目标优化的理论对聚类的两个目标函数进行优化。然后,用NSGA-II来优化这两个目标函数,得到一组最优解,即非支配解,然后采用半监督的方式从非支配选取一个解,作为聚类算法的输出。在人工数据集、UCI数据集和癌症基因表达数据集上的实验表明,该算法的聚类效果和基于差分进化的软子空间聚类算法相当,但是它不需要预先输入类别数。3)通过对文本聚类进行分析,发现文本聚类一般来说具有:高维和在子空间分布密集的特点,而子空间聚类恰好适合求解这一问题。本文根据文本聚类的特点,将基于差分进化的软子空间聚类算法(DESSC)应用于文本聚类,并且在实验中取得了较好的结果。本文得到如下基金资助:教育部新世纪优秀人才支持计划:(NCET-12-0920);陕西省科技新星计划:(No.2014KJXX-45);国家自然科学基金:(Nos.61272279,61001202和61203303);高校基本科研业务费(Nos.K5051302049,K5051302023,K5051302002和K5051302028)和“111”创新引智计划(No.B07048)。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 贺玲;蔡益朝;杨征;;高维数据空间的一种网格划分方法[J];计算机工程与应用;2011年05期
2 李郁林;;高维数据分析中的降维研究[J];计算机光盘软件与应用;2012年17期
3 何进荣;丁立新;胡庆辉;李照奎;;高维数据空间的性质及度量选择[J];计算机科学;2014年03期
4 刘洪波,王秀坤,赵晶;高维数据空间金字塔技术研究[J];计算机工程与应用;2003年16期
5 沈萍;;高维数据挖掘技术研究[J];电脑知识与技术;2009年06期
6 谢枫平;;聚类分析中的高维数据降维方法研究[J];闽西职业技术学院学报;2009年04期
7 余元辉;邓莹;;一种新的高维数据聚类自适应算法的研究[J];沈阳化工大学学报;2010年02期
8 王寅峰;刘昊;狄盛;胡昊宇;;一种支持高维数据查询的并行索引机制[J];华中科技大学学报(自然科学版);2011年S1期
9 周勇;卢晓伟;程春田;;非规则流中高维数据流典型相关性分析并行计算方法[J];软件学报;2012年05期
10 王素芳;;基于组件的高维数据降维方法研究[J];电脑与电信;2012年10期
11 李郁林;;高维数据挖掘中的聚类算法研究[J];电脑与电信;2012年11期
12 贺玲;蔡益朝;杨征;;高维数据聚类方法综述[J];计算机应用研究;2010年01期
13 赵连伟,罗四维,赵艳敞,刘蕴辉;高维数据流形的低维嵌入及嵌入维数研究[J];软件学报;2005年08期
14 杨雪梅;董逸生;徐宏炳;刘学军;钱江波;王永利;;高维数据流的在线相关性分析[J];计算机研究与发展;2006年10期
15 黄斯达;陈启买;;一种基于相似性度量的高维数据聚类算法的研究[J];计算机应用与软件;2009年09期
16 吴翌琳;林寅;陈昊;;基于色差法的高维数据展示方法初探[J];统计与决策;2011年07期
17 武森;冯小东;吴庆海;;基于稀疏指数排序的高维数据并行聚类算法[J];系统工程理论与实践;2011年S2期
18 王晓阳;张洪渊;沈良忠;池万乐;;基于相似性度量的高维数据聚类算法研究[J];计算机技术与发展;2013年05期
19 游芳;姜建国;张坤;;基于二维属性的高维数据聚类算法研究[J];计算机技术与发展;2009年05期
20 谢志强;张豪;杨静;谭怀生;;高维数据多级模糊模式识别的分类研究[J];计算机应用研究;2009年11期
中国重要会议论文全文数据库 前6条
1 周煜人;彭辉;桂卫华;;基于映射的高维数据聚类方法[A];04'中国企业自动化和信息化建设论坛暨中南六省区自动化学会学术年会专辑[C];2004年
2 梁俊杰;杨泽新;冯玉才;;大规模高维数据库索引结构[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 陈冠华;马秀莉;杨冬青;唐世渭;帅猛;;面向高维数据的低冗余Top-k异常点发现方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
4 刘运涛;鲍玉斌;吴丹;冷芳玲;孙焕良;于戈;;CBFrag-Cubing:一种基于压缩位图的高维数据立方创建算法(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 刘文慧;;PCA与PLS用于高维数据分类的比较性研究[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 刘喜兰;冯德益;王公恕;朱成喜;冯雯;;脸谱分析在中进期地震跟踪预报中的应用[A];中国地震学会第四次学术大会论文摘要集[C];1992年
中国博士学位论文全文数据库 前10条
1 刘胜蓝;余弦度量下的高维数据降维及分类方法研究[D];大连理工大学;2015年
2 黄晓辉;高维数据的若干聚类问题及算法研究[D];哈尔滨工业大学;2015年
3 杨风召;高维数据挖掘中若干关键问题的研究[D];复旦大学;2003年
4 陈黎飞;高维数据的聚类方法研究与应用[D];厦门大学;2008年
5 吴庆耀;高维数据的若干分类问题及算法研究[D];哈尔滨工业大学;2013年
6 楼巍;面向大数据的高维数据挖掘技术研究[D];上海大学;2013年
7 黄健美;高维数据索引及其查询处理技术研究[D];东北大学;2009年
8 任亚洲;高维数据上的聚类方法研究[D];华南理工大学;2014年
9 董道国;高维数据索引结构研究[D];复旦大学;2005年
10 于怡;高维数据变量选择的几点研究[D];复旦大学;2013年
中国硕士学位论文全文数据库 前10条
1 沈江炎;基于软子空间的高维数据树形索引研究[D];昆明理工大学;2015年
2 侯小丽;高维数据聚类中的神经网络降维方法研究[D];兰州大学;2015年
3 赵俊琴;基于Lasso的高维数据线性回归模型统计推断方法比较[D];山西医科大学;2015年
4 何荧;高维数据下的特征选择与聚类方法研究[D];西南大学;2015年
5 胡昌杰;基于Autoencoder的高维数据降维方法研究[D];兰州大学;2015年
6 杨代君;基于进化算法的高维数据聚类研究[D];西安电子科技大学;2014年
7 康永为;大数据环境下高维数据处理若干问题[D];广西师范大学;2013年
8 张晓;基于超网络的高维数据聚类方法研究[D];山东师范大学;2015年
9 陈路莹;高维数据的聚类分析方法研究及其应用[D];厦门大学;2009年
10 王立强;基于多元统计图的高维数据降维方法及应用研究[D];燕山大学;2006年
中国重要报纸全文数据库 前1条
1 本报记者 李双艺;引领高维数据分析先河[N];吉林日报;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978