收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

特征提取与特征选择技术研究

潘锋  
【摘要】:数据挖掘、机器学习领域普遍存在数据维度很高但同时样本数量偏少的情形,经典的分类、回归算法在对这种数据进行分析处理时往往计算代价过高甚至完全失效。一般的做法是在数据分析与处理之前对数据集进行特征提取或特征选择,抽取样本最相关特征,消除不相关特征与噪声特征,以利于后续工作。本文在深入分析与研究常用特征提取与特征选择方法基础上,提出了一些克服小样本与高计算复杂度问题的有效算法,主要内容如下: 1、提出了一种基于K-近邻局部间隔的判别映射方法。首先,将假设间隔概念应用于样本数据的局部分析并加以扩展,在样本分布空间要求局部邻域内同类样本与非同类样本能够尽可能判别;其次,鉴于对未知样本特征提取的需要,将局部邻域结构投影于一个较低维度的子空间内,要求在子空间内局部邻域仍然保持与同类样本距离和与非同类样本距离差异极大,即局部间隔极大化。考虑到求解局部最近邻步骤包含了矩阵求逆运算,基于投影定理使用Gram-Schmidt正交化降低时间复杂度。最后,探讨了基于局部间隔的判别映射方法与局部线性嵌入算法(Local Linear Embedding,LLE)之间的关系,发现基于局部间隔的判别映射方法可以视为LLE算法在有指导学习情形下的线性扩展。 2、为进一步提高基于局部间隔的特征提取能力,引入无标记样本,由非同类样本估计局部样本的判别性质,由较多的未标记近邻样本估计局部几何结构。将样本局部分布投影于较低维度的子空间,则算法具有了判别不同子流形的能力。在可视化实验中发现,这种基于局部间隔的半监督判别嵌入算法能够发现不同子流形,同时能够得到较高的分类精度。 3、谱聚类是被证明效果较好的无指导学习方法。研究发现,Laplacian矩阵的特征向量指示了样本的类别信息,本文证明了Laplacian矩阵的若干小特征值表现了簇结构的显著性,即特征值趋于零说明聚类效果会比较好。将这一定理作为衡量原始特征重要度的准则,提出了基于无监督技术的特征选择算法,即重要特征能够保证簇结构的显著性,而不相关特征不能保证簇结构的显著性甚至破坏簇结构。由于每选择一个特征都需要对Laplacian矩阵的特征分解步骤,为此使用Nystr m方法逼近半正定矩阵特征值以降低计算复杂度。 4、将流形学习的思想应用到特征排序,通过对特征赋予权重的方法计算特征的相关度。主要思想是相关特征在加权特征空间邻域保持同类样本仍然为近邻,而对于非同类近邻则应尽量远离。提出了两种评价特征相关度的标准:商准则与差准则,由于避免了特征分解步骤,计算表明两种准则下算法的时间复杂度为样本维度的线性函数,或样本数量的二次函数,与RELIEF-F算法相当。另外,通过对商准则的进一步研究,提出了基于局部学习的半监督特征加权与排序框架,将无标记样本引入,要求在加权空间相关特征不仅能够更好的判别样本,还能够保持样本的局部光滑性质。半监督特征排序框架同样不需要特征分解步骤,因此具有较低的计算复杂度。从此框架导出两种半监督特征排序算法:基于线性判别分析的特征排序与基于局部判别嵌入分析的特征排序,前者适于线性可分问题的特征排序,后者适于非线性可分问题的特征排序。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 寇苏玲;蔡庆生;;中文文本分类中的特征选择研究[J];计算机仿真;2007年03期
2 周晗;赵卫东;季军;;一种用于文本分类的特征选择方法[J];电脑知识与技术;2008年34期
3 刘立忻;李国正;;质谱数据的特征降维新方法[J];小型微型计算机系统;2009年05期
4 毛嘉莉;;文本聚类中的特征降维方法研究[J];西华师范大学学报(自然科学版);2009年04期
5 陈涛,谢阳群;文本分类中的特征降维方法综述[J];情报学报;2005年06期
6 卫威;王建民;;一种大规模数据的快速潜在语义索引[J];计算机工程;2009年15期
7 皋军;;智能识别中的降维算法简述[J];盐城工学院学报(自然科学版);2010年03期
8 曾晓宁;崔勇;蔺旭东;;基于粗糙集的视频片段自动分类方法[J];河北科技师范学院学报;2009年01期
9 高贵;;SAR图像目标鉴别研究综述[J];信号处理;2009年09期
10 田伟;乔谊正;马志强;;基于特征选择的脱机签名模糊鉴定建模与仿真[J];系统仿真学报;2008年07期
11 孙瑞霞;汪亚明;黄文清;;基于GA的2DPCA在人脸识别中的应用[J];计算机工程与设计;2007年10期
12 朱劼昊;周建江;吴杰;;基于线性卷积系数扩展特征的雷达目标识别[J];系统工程与电子技术;2010年01期
13 曹建军;张培林;任国全;张英堂;;基于蚁群优化的振动信号特征选择[J];振动与冲击;2008年05期
14 乔维维;秦小文;陆静逸;;印刷电路板图像模式识别研究[J];电子测试;2011年07期
15 钱国良;洪勇;叶风;耿子林;;基于机器学习的手写汉字识别的研究[J];模式识别与人工智能;1996年04期
16 游文杰;吉国力;袁明顺;;高维少样本数据的特征压缩[J];计算机工程与应用;2009年36期
17 韦振中;;基于核主成分分析的特征提取方法[J];广西工学院学报;2006年04期
18 马少华,高峰,李敏,吴成东;神经网络分类器的特征提取和优选[J];基础自动化;2000年06期
19 王树国;黄勇杰;张生;;可见光图像中飞机目标的特征选择及提取[J];哈尔滨工业大学学报;2010年07期
20 赵伟达;张丽清;;人脸检测中基于自适应ICA的特征提取算法[J];计算机仿真;2007年10期
中国重要会议论文全文数据库 前10条
1 赵燕平;李超;;网络安全信息挖掘中的特征选择与专利分析研究[A];2004年中国管理科学学术会议论文集[C];2004年
2 代克杰;张红梅;盛赛斌;;基于BP网络的故障特征提取方法研究[A];2004中国控制与决策学术年会论文集[C];2004年
3 刘华;周凌燕;张普;;面向词典编撰的词汇聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
5 林土胜;赖声礼;;视网膜血管特征提取的拆支跟踪法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
6 钱小聪;郑宝玉;穆明鑫;;神经网络联机手写签名验证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
7 张羽;汪源源;王威琪;余建国;林继耕;;狭窄血管多普勒信号特征提取的实验研究[A];21世纪医学工程学术研讨会论文摘要汇编[C];2001年
8 柳林霞;陈杰;窦丽华;;不变矩理论及其在目标识别中的应用[A];2002中国控制与决策学术年会论文集[C];2002年
9 杨日杰;施建礼;林洪文;;一种雷达视频回波特征提取方法研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
10 何新;史迎春;周献中;;一种基于独立分量分析的音频分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
2 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年
3 潘锋;特征提取与特征选择技术研究[D];南京航空航天大学;2011年
4 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年
5 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
6 冯坤;基于内积变换的机械故障特征提取原理与早期识别方法研究[D];北京化工大学;2012年
7 张旗;基于属性的图像分类研究[D];大连海事大学;2005年
8 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年
9 苏彩红;墙地砖质量自动检测技术的研究[D];华南理工大学;2004年
10 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年
中国硕士学位论文全文数据库 前10条
1 胡吉祥;基于频繁模式的消息文本聚类研究[D];中国科学院研究生院(计算技术研究所);2006年
2 朱鹏飞;基于粗集理论的人脸识别方法研究[D];山东大学;2005年
3 梁琰;肺部CT图像分析及特征提取研究[D];重庆大学;2007年
4 李建元;特征提取和特征选择在手写数字识别中的应用[D];北京邮电大学;2008年
5 于成龙;基于特征提取的特征选择研究[D];南京邮电大学;2011年
6 曾红梅;情绪图片视觉诱发EEG特征提取与分析[D];天津大学;2012年
7 张云鹏;发动机机械故障诊断系统特征提取算法研究[D];长春工业大学;2010年
8 雷自力;基于Pro/E的三维零件参数化建模和特征提取研究[D];华中科技大学;2011年
9 林少波;中文文本分类特征提取方法的研究与实现[D];重庆大学;2011年
10 张丽;基于投影寻踪的高光谱影像特征提取与自动识别技术研究[D];长安大学;2006年
中国重要报纸全文数据库 前10条
1 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
2 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
3 周晓娟;TD已过分水岭[N];通信产业报;2008年
4 王竣;深入开发CAD系统对疾病诊断有重要意义[N];中国医药报;2007年
5 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
6 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
7 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
8 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
9 记者 何腾江 通讯员 周汇成;验钞新技术通过鉴定[N];中山日报;2008年
10 孙哲南 谭铁牛;生物识别的十大关键技术[N];计算机世界;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978