收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于图的特征提取和特征选择及其应用研究

袁明冬  
【摘要】:高维数据广泛存在于数据挖掘、计算机视觉和模式识别的许多实际应用中。它给人们提供了大量新的机遇,同时也带来了诸多挑战。一方面,高维数据中蕴含的丰富信息拓展了人们对于客观事物的认知;另一方面,高维数据也增加了数据处理和存储的时间和空间复杂度,同时也带来了潜在的“维数灾难”和“过拟合”问题。此外,高维数据中大量冗余、无关甚至是噪声特征严重影响了数据分类、聚类以及可视化的性能。对高维数据进行维数约简(或降维)是解决上述问题的重要方法和有效手段,其目的是获取数据紧致和有效的低维表示。特征提取(或特征变换)和特征选择作为两类不同的降维方法,得到了大量学者的广泛关注。特征提取将原始高维特征空间变换到低维特征空间,属于特征产生的过程,新的特征是原始特征的线性或非线性组合;而特征选择是根据某种准则或依据,从庞大的原始高维特征中选出一组最优特征子集,属于特征筛选的过程,且所选特征保持了原始特征的物理意义。图嵌入框架理论将大多数的降维算法归结为图的构造及其嵌入形式。其中,图的构造是最重要的。不同的图构造方式反映了数据不同方面的信息。本文以图的构造和应用为主线,以高维小样本数据为研究对象,针对现有的一些方法存在的重构误差大、判别能力不足等问题,提出了几种特征提取和特征选择方法。主要的工作和研究成果集中在以下几个方面:(1)借鉴局部线性判别嵌入(LLDE)的研究思路,针对协同表示投影(CRP)判别能力不足的问题,提出了一种协同表示判别嵌入(CRDE)方法,并应用于图像特征提取。该方法首先利用协同表示构造图,并以此构造代价函数来表征数据间的协同重构关系;然后将改进的最大间距准则(MMC)作为正则项,明确地引入判别信息。因此,CRDE更适合于分类问题。此外,从图嵌入角度的进一步分析表明,许多常见的特征提取方法,如局部保持投影(LPP),邻域保持嵌入(NPE),稀疏保持投影(SPP),协同保持投影(CRP)以及判别稀疏邻域保持嵌入(DSNPE)等,都可以统一到CRDE的框架中。最后从识别率、参数分析以及特征提取时间三个方面验证了算法的有效性。(2)深入分析正则化最小二乘判别投影(RLSDP)中存在的重构误差大(或重构精度低)和判别能力不足的问题,提出了一种增强的正则化最小二乘判别投影(ERLSDP)方法。在ERLSDP中,对于每个样本,我们使用相关样本所有的表示系数进行重构,因而解决了RLSDP中重构误差大的问题;然后,针对RLSDP判别能力不足的问题,我们构造了一个具有块对角结构的权矩阵(对应于类内紧致图)来刻画数据的类内几何结构,并根据该权矩阵明确地最小化所有同类样本(更精确地说,是每个样本与其所属类别样本对应的重构形式)之间的距离,从而使得类内样本的分布更加紧凑;最后,通过最大化类间散度信息和最小化所有类内样本之间的距离得到ERLSDP的最优投影矩阵。在无遮挡和遮挡条件下的人脸识别实验验证了ERLSDP的有效性。(3)针对传统LDA忽略了样本局部信息以及投影向量个数较少的问题,提出了一种结合协同表示图(_2L-graph)的协同保持Fisher判别分析(CPFDA)方法。由于协同表示系数分布的局部特性,该方法可以看成是融合了局部几何和全局判别信息的一种新方法。CPFDA的优点是能够保持样本的协同重构关系,同时还继承了LDA全局判别特性,因而能够取得较好的实验效果。理论和实验结果显示CPFDA能够获得比LDA更多有意义的投影向量个数(具体地说,CPFDA可获得的投影向量个数为LDA的两倍)。进一步分析表明,LDA和MFA都可看作是CPFDA的特例。此外,通过将Gabor特征应用于CPFDA,进一步提高了CPFDA的性能。(4)针对同时正交基聚类特征选择(SOCFS)方法没有利用数据的局部几何结构信息的问题,结合L_(2,p)范数提出了一种局部保持正交基聚类无监督特征选择(LPOCFS)方法。LPOCFS方法以SOCFS为基础,但却具有更重要的特点。第一,LPOCFS构造了一个局部近邻图来明确地表征数据的局部几何结构,因此可以选出更具有判别性的特征子集;第二,LPOCFS对特征选择矩阵施加L_(2,p)(0(27)p?1)范数约束,因而在控制特征选择矩阵的稀疏性方面具有更大的灵活性;第三,针对实际优化中,簇指示矩阵(CIM)难以同时满足正交性和非负性的问题,我们提出了两种优化策略,对应的算法分别表示为nLPOCFS和oLPOCFS。其中,oLPOCFS更强调CIM正交性的作用,而nLPOCFS则更侧重于CIM的非负性。实验结果表明了oLPOCFS和nLPOCFS的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前17条
1 张红涛,胡玉霞,邱道尹;遗传算法在储粮害虫特征选择中的应用[J];华北水利水电学院学报;2004年03期
2 徐雷;阎平凡;常迥;;用于特征选择的BF算法及其与B&B算法的比较[J];自动化学报;1988年05期
3 杨锦英;王碧泉;;K—W检验和熵法在单个特征选择中的应用[J];华北地震科学;1989年02期
4 陈晋苏;特征选择在电信行业客户流失分析中的应用[J];科技资讯;2005年22期
5 范劲松,方廷健;特征选择和提取要素的分析及其评价[J];计算机工程与应用;2001年13期
6 江乃雄;蔡民;;综合距离特征选择问题解的存在性与唯一性[J];计算机应用与软件;1992年01期
7 钱学双;多重筛选逐步回归特征选择法及其应用[J];信息与控制;1986年05期
8 余胜龙;赵红;;基于样本邻域保持的代价敏感特征选择[J];数据采集与处理;2018年02期
9 杜政霖;李云;;基于特征聚类集成技术的在线特征选择[J];计算机应用;2017年03期
10 崔亚芬;解男男;;一种基于特征选择的入侵检测方法[J];吉林大学学报(理学版);2015年01期
11 林秀晶;夏勇明;钱松荣;;基于支持向量机及特征选择的单通道脑电波睡眠分期研究[J];生物医学工程学杂志;2015年03期
12 黄铉;;特征选择研究综述[J];信息与电脑(理论版);2017年24期
13 杨超;蔡晓东;甘凯今;王丽娟;;基于自适应显著特征选择的动态加权平均行人识别模型[J];计算机工程与科学;2017年05期
14 章新华;一种特征选择的动态规划方法[J];自动化学报;1998年05期
15 单世超;栾翠菊;;基于局部特征选择的微博中文文本分类研究[J];现代计算机(专业版);2017年23期
16 闫鹏;郑雪峰;朱建勇;肖赟泓;;一种基于嵌入式特征选择的垃圾邮件过滤模型[J];小型微型计算机系统;2009年08期
17 张丹;刘明霞;张道强;;基于有效距离的迭代特征选择[J];小型微型计算机系统;2017年05期
中国重要会议论文全文数据库 前10条
1 史彩娟;沙宇阳;刘健;闫晓东;刘利平;;基于自适应半监督稀疏特征选择的图像标注[A];第十届全国信号和智能信息处理与应用学术会议专刊[C];2016年
2 刘培磊;李满生;王挺;;蛋白质相互作用有向关系抽取的特征选择[A];第五届全国信息检索学术会议论文集[C];2009年
3 袁帅;杨宏晖;申昇;;基于云模型的特征评价准则[A];第三届上海——西安声学学会学术会议论文集[C];2013年
4 申昇;杨宏晖;袁帅;;用于水声目标识别的互信息无监督特征选择[A];第三届上海——西安声学学会学术会议论文集[C];2013年
5 李泽辉;聂生东;陈兆学;;应用多类SVM分割MR脑图像特征选择与优化的实验研究[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
6 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
7 宋鹏;郑文明;赵力;;基于子空间学习和特征选择融合的语音情感识别[A];第十四届全国人机语音通讯学术会议(NCMMSC’2017)论文集[C];2017年
8 臧淼;徐惠民;张永梅;;基于局部约束和稀疏编码的自动图像标注[A];国防光电子论坛第二届激光雷达成像探测技术及应用研讨会论文集[C];2015年
9 俞士汶;王治敏;朱学锋;;文学语言与自然语言理解研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 薛富强;葛临东;陈丽;;新的改进遗传算法用于调制信号特征选择[A];无线传感器网及网络信息处理技术——2006年通信理论与信号处理年会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 袁明冬;基于图的特征提取和特征选择及其应用研究[D];西安电子科技大学;2017年
2 胡小娟;基于特征选择的文本分类方法研究[D];吉林大学;2018年
3 滕旭阳;面向特征选择问题的优化方法研究[D];哈尔滨工程大学;2017年
4 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
5 高青斌;蛋白质亚细胞定位预测相关问题研究[D];国防科学技术大学;2006年
6 刘风;基于磁共振成像的多变量模式分析方法学与应用研究[D];电子科技大学;2014年
7 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
8 梁建宁;特征选择与图像匹配[D];复旦大学;2011年
9 曹杰;基于SVM的网络流量特征降维与分类方法研究[D];吉林大学;2017年
10 孙建文;基于集成特征选择的网络书写纹识别研究[D];华中师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 黄静远;两种高维小样本数据的分类方法对比研究[D];华中科技大学;2019年
2 任秀伟;基于嵌入式稀疏特征选择策略的降维算法研究[D];湖北工业大学;2018年
3 胡世赛;多样性增量特征选择技术的应用[D];内蒙古工业大学;2018年
4 黄晓娟;面向特征选择的Relief算法研究[D];苏州大学;2018年
5 杨钧;高维不完整数据的特征选择研究[D];辽宁大学;2018年
6 余胜龙;基于数据相关性的代价敏感特征选择[D];闽南师范大学;2018年
7 黄天意;基于稀疏回归的特征选择研究[D];闽南师范大学;2018年
8 朱鑫萍;论文影响力的预测方法研究[D];内蒙古大学;2018年
9 蓝恭旻;高维数据特征选择的鲁棒学习算法研究[D];国防科学技术大学;2016年
10 向婵;基于互信息的特征选择在入侵检测中的优化研究[D];昆明理工大学;2018年
中国重要报纸全文数据库 前7条
1 本报记者 李振辉;根据自身特征选择健身方式[N];广东科技报;2008年
2 海通证券 娄静吴先兴;把握风险收益特征选择最适合自己的基金[N];上海证券报;2007年
3 铁岭市第二高中 高军;让学生“动”起来[N];铁岭日报;2005年
4 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
5 《网络世界》记者 周源;云平台,只选对的[N];网络世界;2012年
6 郑军;高产鹅选种方法和标准[N];河南科技报;2016年
7 记者 丁宁;2012年,我们一起“追”的创新产品[N];上海证券报;2012年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978