收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

高维数据下的特征选择与聚类方法研究

何荧  
【摘要】:在信息技术日新月异的今天,数据量呈几何式增长,数据的维数越来越高,使得信息更为充分的同时,也给数据挖掘算法带来了诸多挑战,尤其是对分类和聚类问题的影响较为突出。数据的高维性不仅增加了算法的时间复杂度和空间复杂度,还降低了算法的求解精度,给最终的分析决策带来负面影响。维度约简作为数据挖掘领域的一个研究热点,能有效解决这一问题。维度约简的主要目的是使算法在构造模型的过程中,只关注那些任务目标相关的属性特征,不考虑那些冗余或不相关的特征,从而降低算法的时间和空间复杂度,提高算法运行效率。维度约简技术针对数据的不同分布情况,采用不同的方法。当高维数据分布于同一个低维空间时,通常采用特征选择方法;当高维数据分布于几个不同低维空间时,通常选择子空间聚类方法。现有的特征选择和子空间聚类方法都存在各自的不足:特征选择方法选择的特征子集对分类识别精度不够高,子空间聚类方法的聚类精度不够高。本文围绕特征选择方法和子空间聚类方法主要做了如下两方面的工作:1.当高维数据分布于同一个低维空间时,现有的基于信息论的特征选择方法是通过已选特征而不是通过所有特征来评估候选特征,并没有充分考虑特征的全局冗余性,导致选择的特征子集对分类识别精度不够高。对此,提出一种基于PageRank和遗传算法的特征选择方法,将每个特征视为网络节点,利用互信息为节点创建边,通过改进的PageRank对网络节点的全局冗余性进行评估,依据本文评估准则对节点排序,并用遗传算法选择最优特征子集。在UCI基准数据库中10个数据集上进行测试,证明提出的基于PageRank和遗传算法的特征选择方法能选择出更优的特征子集。2.当高维数据分布于几个不同低维空间时,目前性能最优的算法是LS3C/NLS3C算法。然而,LS3C/NLS3C算法在稀疏编码阶段所获得的系数矩阵中,有一些属于不同子空间的数据对象之间线性表示的系数不为0(糟糕系数),导致由系数矩阵得到的关联矩阵中存在部分属于不同子空间的数据对象之间的相似度不为0(糟糕相似度),降低了LS3C/NLS3C算法的聚类精度。对此,提出一种剔核潜空间稀疏子空间聚类(DLS3C/DNLS3C)方法。在求解关联矩阵阶段,对优化函数中的系数矩阵添加一个Frobenius范数约束项,避免了在同一个线性表示中所有系数的绝对值同时趋于0,在仿射条件下,这种约束能迫使相似度大的数据对象的系数绝对值较大,而相似度小的数据对象的系数绝对值较小,再通过小系数剔除算法获得一个更优的系数矩阵,从而达到在谱聚类阶段提高聚类精度的目的。在子空间聚类领域的基准数据集Hopkins155进行测试,证明剔核潜空间稀疏子空间聚类方法能够有效剔除的糟糕系数,从而提高最终的聚类精度。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 贺玲;蔡益朝;杨征;;高维数据空间的一种网格划分方法[J];计算机工程与应用;2011年05期
2 李郁林;;高维数据分析中的降维研究[J];计算机光盘软件与应用;2012年17期
3 何进荣;丁立新;胡庆辉;李照奎;;高维数据空间的性质及度量选择[J];计算机科学;2014年03期
4 刘洪波,王秀坤,赵晶;高维数据空间金字塔技术研究[J];计算机工程与应用;2003年16期
5 沈萍;;高维数据挖掘技术研究[J];电脑知识与技术;2009年06期
6 谢枫平;;聚类分析中的高维数据降维方法研究[J];闽西职业技术学院学报;2009年04期
7 余元辉;邓莹;;一种新的高维数据聚类自适应算法的研究[J];沈阳化工大学学报;2010年02期
8 王寅峰;刘昊;狄盛;胡昊宇;;一种支持高维数据查询的并行索引机制[J];华中科技大学学报(自然科学版);2011年S1期
9 周勇;卢晓伟;程春田;;非规则流中高维数据流典型相关性分析并行计算方法[J];软件学报;2012年05期
10 王素芳;;基于组件的高维数据降维方法研究[J];电脑与电信;2012年10期
11 李郁林;;高维数据挖掘中的聚类算法研究[J];电脑与电信;2012年11期
12 贺玲;蔡益朝;杨征;;高维数据聚类方法综述[J];计算机应用研究;2010年01期
13 赵连伟,罗四维,赵艳敞,刘蕴辉;高维数据流形的低维嵌入及嵌入维数研究[J];软件学报;2005年08期
14 杨雪梅;董逸生;徐宏炳;刘学军;钱江波;王永利;;高维数据流的在线相关性分析[J];计算机研究与发展;2006年10期
15 黄斯达;陈启买;;一种基于相似性度量的高维数据聚类算法的研究[J];计算机应用与软件;2009年09期
16 吴翌琳;林寅;陈昊;;基于色差法的高维数据展示方法初探[J];统计与决策;2011年07期
17 武森;冯小东;吴庆海;;基于稀疏指数排序的高维数据并行聚类算法[J];系统工程理论与实践;2011年S2期
18 王晓阳;张洪渊;沈良忠;池万乐;;基于相似性度量的高维数据聚类算法研究[J];计算机技术与发展;2013年05期
19 游芳;姜建国;张坤;;基于二维属性的高维数据聚类算法研究[J];计算机技术与发展;2009年05期
20 谢志强;张豪;杨静;谭怀生;;高维数据多级模糊模式识别的分类研究[J];计算机应用研究;2009年11期
中国重要会议论文全文数据库 前6条
1 周煜人;彭辉;桂卫华;;基于映射的高维数据聚类方法[A];04'中国企业自动化和信息化建设论坛暨中南六省区自动化学会学术年会专辑[C];2004年
2 梁俊杰;杨泽新;冯玉才;;大规模高维数据库索引结构[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 陈冠华;马秀莉;杨冬青;唐世渭;帅猛;;面向高维数据的低冗余Top-k异常点发现方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
4 刘运涛;鲍玉斌;吴丹;冷芳玲;孙焕良;于戈;;CBFrag-Cubing:一种基于压缩位图的高维数据立方创建算法(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 刘文慧;;PCA与PLS用于高维数据分类的比较性研究[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 刘喜兰;冯德益;王公恕;朱成喜;冯雯;;脸谱分析在中进期地震跟踪预报中的应用[A];中国地震学会第四次学术大会论文摘要集[C];1992年
中国博士学位论文全文数据库 前10条
1 杨风召;高维数据挖掘中若干关键问题的研究[D];复旦大学;2003年
2 陈黎飞;高维数据的聚类方法研究与应用[D];厦门大学;2008年
3 吴庆耀;高维数据的若干分类问题及算法研究[D];哈尔滨工业大学;2013年
4 楼巍;面向大数据的高维数据挖掘技术研究[D];上海大学;2013年
5 黄健美;高维数据索引及其查询处理技术研究[D];东北大学;2009年
6 任亚洲;高维数据上的聚类方法研究[D];华南理工大学;2014年
7 董道国;高维数据索引结构研究[D];复旦大学;2005年
8 于怡;高维数据变量选择的几点研究[D];复旦大学;2013年
9 谭璐;高维数据的降维理论及应用[D];国防科学技术大学;2005年
10 刘翠响;人脸识别中高维数据特征分析[D];河北工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 沈江炎;基于软子空间的高维数据树形索引研究[D];昆明理工大学;2015年
2 侯小丽;高维数据聚类中的神经网络降维方法研究[D];兰州大学;2015年
3 赵俊琴;基于Lasso的高维数据线性回归模型统计推断方法比较[D];山西医科大学;2015年
4 何荧;高维数据下的特征选择与聚类方法研究[D];西南大学;2015年
5 康永为;大数据环境下高维数据处理若干问题[D];广西师范大学;2013年
6 张晓;基于超网络的高维数据聚类方法研究[D];山东师范大学;2015年
7 陈路莹;高维数据的聚类分析方法研究及其应用[D];厦门大学;2009年
8 王立强;基于多元统计图的高维数据降维方法及应用研究[D];燕山大学;2006年
9 胡飞;面向高维数据的统计分类分析[D];安庆师范学院;2015年
10 戴继勇;基于投影的高维数据异常检测研究[D];重庆大学;2007年
中国重要报纸全文数据库 前1条
1 本报记者 李双艺;引领高维数据分析先河[N];吉林日报;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978