收藏本站
《江南大学》 2011年
加入收藏 获取最新

特征选择新算法研究

冯宗翰  
【摘要】:特征选择是模式识别和数据挖掘领域中的关键环节之一,按照和后续分类算法结合的不同方式,特征选择算法可以分为嵌入式、封装式、过滤式三种模型。过滤式(Filter)算法凭借其算法较强的通用性和较低的复杂度等优势成为研究领域的热门,涌现出了大量的基于过滤式模型的特征选择算法。但是Filter模型的特征选择过程独立于分类过程,导致采用Filter模型特征选择算法所选出的特征与后续分类算法的性能有较大的偏差,会产生一定程度上的错分。许多特征选择算法在进行特征评价时由于缺乏对特征间相关性的考虑而产生了特征冗余,使得算法的效率降低并由于特征冗余影响到分类识别率。这就要求我们提出有效的改进算法进一步的降低Filter算法的错分率和去除特征子集中存在的特征冗余,最终得到无论是基于分类还是特征相关性都有效的特征子集。本文从这两方面着手展开工作,主要包括以下三个方面的内容: 1、迹比算法是典型的Filter模型的特征选择算法,该算法采用一种全新的迭代方式直接计算特征子集一级的得分,以此为依据得到最终的特征子集。算法区别于计算特征一级得分的传统算法,在较短的时间内得到较为优秀的特征子集,但是由于Filter模型算法的缺陷,该算法得到的特征子集所指导的分类会产生一定程度上的错分。本文采用一种基于错分区域的特征选择算法对迹比算法进行改进,通过特征空间的映射在当前特征空间的补空间中寻找对正确区分错分样本贡献最大的特征,加入到特征子集中构成最优特征子集。该整合后的新特征选择算法有效的降低了错分率,在基于错分区域的处理中,对于特征的再选择使用前向搜索和+L-R两种方法,并进行实验比较两种改进算法的性能。 2、为了有效应对特征冗余问题,本文对特征选择问题中特征间的相关性和特征与类的相关性做了详细的研究,给出了传统的基于特征相关性的特征选择算法的步骤和流程。并采用基于KNN聚类的非搜索特征选择算法对迹比算法进行改进,以特征间相关性度量为出发点,剔除特征子集中的冗余特征,在保证分类算法识别率的前提下有效地降低了数据维度。算法经由ORL人脸数据和UCI数据集的wine、australian验证,证明了改进算法有效的去除了特征冗余,程度略有不同。 3、本文对Relief算法进行了研究和改进,从改善错分和剔除冗余两个角度对算法进行改进。Relief算法是典型的Filter算法,其选出的特征子集在指导后续分类算法时会产生错分数据,为了对其算法进行改进,我们使用基于错分区域的+L-R算法对错分区域进行处理;Relief算法在特征的选择过程中强调特征与类的关联,并以此作为特征评价的标准,算法在选择特征的时候缺少对特征之间关联性的考虑,我们结合之前的改进算法提出了一种双重改进ReliefF的优化算法,通过UCI数据集的实验证明新算法的特征子集优于原始单一改进算法的特征子集。
【关键词】:特征选择 迹比算法 特征相关度 KNN特征选择算法 Relief算法
【学位授予单位】:江南大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.41
【目录】:
  • 摘要3-4
  • Abstract4-7
  • 第一章 绪论7-13
  • 1.1 特征选择算法概述及其研究意义7
  • 1.2 特征选择算法及分类7-11
  • 1.2.1 特征选择算法的分类8-10
  • 1.2.2 特征选择研究的历史与现状10-11
  • 1.3 本文的研究工作11-12
  • 1.4 本文研究内容安排12-13
  • 第二章 特征选择框架及基本特征选择算法介绍13-22
  • 2.1 引言13
  • 2.2 特征选择各要素分析13-15
  • 2.2.1 特征子集的生成13-14
  • 2.2.2 特征子集评价14-15
  • 2.2.3 停止条件15
  • 2.2.4 结果验证15
  • 2.3 基本特征选择算法15-20
  • 2.3.1 分支定界选择算法16-17
  • 2.3.2 向前及向后搜索选择算法17-18
  • 2.3.3 +L-R 搜索算法18-20
  • 2.4 实验结果与分析20-21
  • 2.5 本章小结21-22
  • 第三章 迹比准则算法及其改进算法22-41
  • 3.1 引言22
  • 3.2 迹比准则特征选择算法22-28
  • 3.2.1 计算特征一级得分的传统特征选择算法24-25
  • 3.2.2 计算子集一级得分的迹比准则算法25-28
  • 3.3 基于错分区域的特征选择28-33
  • 3.3.1 基于错分区域的前向改进算法28-32
  • 3.3.2 基于错分区域的+L-R 改进算法32-33
  • 3.4 实验结果分析33-40
  • 3.4.1 迹比算法实验结果与分析34-37
  • 3.4.2 基于错分区域的前向选择改进迹比算法结果及分析37-38
  • 3.4.3 基于错分区域的+L-R 选择改进迹比算法结果及分析38-40
  • 3.5 本章小结40-41
  • 第四章 基于特征相关性的特征选择算法41-53
  • 4.1 引言41
  • 4.2 特征的相关性41-43
  • 4.2.1 特征相关性分析的概念41-42
  • 4.2.2 特征相关性的分类42-43
  • 4.2.3 特征之间的冗余问题43
  • 4.3 基于特征相关性的特征选择43-44
  • 4.4 KNN 非搜索特征选择算法44-46
  • 4.5 基于特征相关性的迹比改进算法46-47
  • 4.6 改进算法实验结果47-52
  • 4.7 本章小结52-53
  • 第五章 Relief 算法及其改进算法研究53-62
  • 5.1 引言53
  • 5.2 Relief 和 ReliefF 算法53-55
  • 5.3 基于错分区域的特征选择对Relief 及ReliefF 算法的改进55-56
  • 5.4 基于特征相关性和错分区域选择的双重改进Relief 及ReliefF 算法56-58
  • 5.5 改进算法实验结果58-61
  • 5.6 本章小结61-62
  • 第六章 总结与展望62-64
  • 6.1 总结62
  • 6.2 未来的研究课题62-64
  • 致谢64-65
  • 参考文献65-70
  • 附录:作者在攻读硕士学位期间发表的论文70

【引证文献】
中国硕士学位论文全文数据库 前2条
1 朱坤;基于改进的Relief算法与支持向量机的高通量基因数据分析[D];福建农林大学;2012年
2 戴维;基于纹理统计方法的木材类型识别研究[D];湖南大学;2012年
【参考文献】
中国期刊全文数据库 前7条
1 徐之海,冯华君,李奇,徐红岩;基于Karhunen-Loeve变换的人脸识别研究[J];光电工程;2001年06期
2 陈仕涛;陈国龙;郭文忠;刘延华;;基于粒子群优化和邻域约简的入侵检测日志数据特征选择[J];计算机研究与发展;2010年07期
3 王博;黄九鸣;贾焰;杨树强;;适用于多种监督模型的特征选择方法研究[J];计算机研究与发展;2010年09期
4 张召;业宁;业巧林;;局部保持多投影向量Fisher判别分析算法[J];计算机学报;2010年05期
5 彭辉,张长水,荣钢,边肇祺;基于K-L变换的人脸自动识别方法[J];清华大学学报(自然科学版);1997年03期
6 徐燕;李锦涛;王斌;孙春明;;基于区分类别能力的高性能特征选择方法[J];软件学报;2008年01期
7 张翠平,苏光大;人脸识别技术综述[J];中国图象图形学报;2000年11期
【共引文献】
中国期刊全文数据库 前10条
1 王全凤;郑浩;;基于径向基函数神经网络的高层建筑结构选型[J];四川建筑科学研究;2010年05期
2 张根耀,李竹林,赵宗涛;遮挡情况下运动目标的跟踪[J];安徽大学学报(自然科学版);2003年03期
3 陈弋兰;王鸣;孙书诚;;朴素贝叶斯分类器的误差估计[J];安徽工程科技学院学报(自然科学版);2008年04期
4 张红涛;胡玉霞;张恒源;顾波;;储粮害虫图像识别中的特征压缩研究[J];安徽农业科学;2008年27期
5 张昭;何东健;;基于计算机视觉的竹块颜色分类方法研究[J];安徽农业科学;2010年26期
6 汪洁;朱军;;基于Linux的中文垃圾邮件过滤系统设计与实现[J];安徽农业大学学报;2011年02期
7 苏科;陈志彬;;基于BP神经网络的车牌识别系统[J];辽宁科技大学学报;2010年05期
8 孙梁;郗安民;;LED芯片损坏和缺陷识别[J];半导体光电;2009年06期
9 张贵,乔春生;应用支持向量机回归确定岩体强度指标[J];北方交通大学学报;2004年01期
10 李翠霞,于剑;一种模糊聚类算法归类的研究[J];北京交通大学学报;2005年02期
中国重要会议论文全文数据库 前10条
1 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
2 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
3 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
4 梁禹;王义刚;王娜;;基于支持向量机的电力电子电路故障诊断[A];第二十六届中国控制会议论文集[C];2007年
5 胡清华;常军涛;鲍文;于达仁;;高超声速发动机进气道起动/不起动模式分析[A];第二十九届中国控制会议论文集[C];2010年
6 刘华;张建华;王娆芬;王行愚;;人机系统操作员功能状态的模糊聚类方法[A];第二十九届中国控制会议论文集[C];2010年
7 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
8 尹雪娇;;基于蚁群算法的故障诊断[A];创新沈阳文集(A)[C];2009年
9 江萍;;车牌分割中的阈值选择策略[A];'2003系统仿真技术及其应用学术交流会论文集[C];2003年
10 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
中国博士学位论文全文数据库 前10条
1 陆满君;通信辐射源个体识别与参数估计[D];哈尔滨工程大学;2010年
2 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
3 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
4 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
5 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
6 乔小燕;基于生物形态学的赤潮藻显微图像分割与特征提取研究[D];中国海洋大学;2010年
7 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
8 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
9 徐红林;基因调控网络的建模及其结构分解方法研究[D];江南大学;2010年
10 傅军;新型墙体抗裂抗渗性能及工程应用研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
2 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
3 廖甜甜;白细胞图像语义识别分类的研究[D];南昌航空大学;2010年
4 黄正荣;基于振动波的高速公路车辆行驶状态辨识理论研究[D];南昌航空大学;2010年
5 刘棉;人机划拳系统的实现[D];山东科技大学;2010年
6 刘桂珍;颅骨三维重建与信息提取[D];山东科技大学;2010年
7 张海峰;空间三维信息重构与飞行器路径规划[D];山东科技大学;2010年
8 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
9 王亚东;基于二代身份证图象的人脸检测与识别研究与设计[D];山东科技大学;2010年
10 陈楠楠;互动音乐桌[D];山东科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 柯病凡,江泽慧,张述银,王景寅,苏厚勤,顾立峰,张卫国;中国主要商品木材微机识别的研究[J];安徽农学院学报;1990年02期
2 祁亨年;陈丰农;方陆明;马灵飞;;一种基于形态学的木材导管图像分割方法[J];北京林业大学学报;2008年04期
3 王秀华,刘镇波,刘一星;木材横切面显微图像特征参数的主成分分析[J];东北林业大学学报;2005年05期
4 管雪梅;孙丽萍;;基于Level Set方法的木材细胞显微图像分割[J];东北林业大学学报;2006年05期
5 韦振中;;基于核主成分分析的特征提取方法[J];广西工学院学报;2006年04期
6 阮晓钢;李颖新;李建更;龚道雄;王金莲;;基于基因表达谱的肿瘤特异基因表达模式研究[J];中国科学C辑:生命科学;2006年01期
7 张勇;陈莉;;聚类与PCA融合的特征提取方法研究[J];计算机工程与应用;2010年11期
8 蒋玉娇;王晓丹;王文军;毕凯;;一种基于PCA和ReliefF的特征选择方法[J];计算机工程与应用;2010年26期
9 王实;高文;;数据挖掘中的聚类方法[J];计算机科学;2000年04期
10 范文兵;王全全;雷天友;朱辉;;基于Q-relief的图像特征选择算法[J];计算机应用;2011年03期
中国硕士学位论文全文数据库 前3条
1 王辉;基于灰度共生矩阵木材表面纹理模式识别方法的研究[D];东北林业大学;2007年
2 陈丰农;基于显微构造图像木材识别技术研究[D];浙江林学院;2008年
3 姜百宁;机器学习中的特征选择算法研究[D];中国海洋大学;2009年
【二级参考文献】
中国期刊全文数据库 前9条
1 单松巍,冯是聪,李晓明;几种典型特征选取方法在中文网页分类上的效果比较[J];计算机工程与应用;2003年22期
2 郭文忠;陈国龙;陈庆良;余轮;;基于粒子群优化算法和相关性分析的特征子集选择[J];计算机科学;2008年02期
3 赵世奇,张宇,刘挺,陈毅恒,黄永光,李生;基于类别特征域的文本分类特征选择方法[J];中文信息学报;2005年06期
4 常犁云,263.net,王国胤,263.net,吴渝,263.net;一种基于Rough Set理论的属性约简及规则提取方法[J];软件学报;1999年11期
5 石云,263.net,孙玉芳,左春;基于Rough Set的空间数据分类方法[J];软件学报;2000年05期
6 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
7 陈友;程学旗;李洋;戴磊;;基于特征选择的轻量级入侵检测系统[J];软件学报;2007年07期
8 胡清华;于达仁;谢宗霞;;基于邻域粒化和粗糙逼近的数值属性约简[J];软件学报;2008年03期
9 严超,苏光大;人脸特征的定位与提取[J];中国图象图形学报;1998年05期
【相似文献】
中国期刊全文数据库 前10条
1 武建华;宋擒豹;沈均毅;谢建文;;基于关联规则的特征选择算法[J];模式识别与人工智能;2009年02期
2 计智伟;胡珉;尹建新;;特征选择算法综述[J];电子设计工程;2011年09期
3 杨杨;刘会东;;一种基于成对约束的特征选择改进算法[J];南京师范大学学报(工程技术版);2011年01期
4 张莉,孙钢,郭军;基于K-均值聚类的无监督的特征选择方法[J];计算机应用研究;2005年03期
5 刘利军;冯彩娣;马艳东;窦冠杰;;基于RBF神经网络的组合式特征选择算法[J];中国科技信息;2009年16期
6 奉国和;郑伟;;文本分类特征降维研究综述[J];图书情报工作;2011年09期
7 苏映雪;付耀文;黎湘;;一种基于ReliefF评估和互补系数的特征选择算法[J];电光与控制;2007年03期
8 渠小洁;;一种基于条件熵的特征选择算法[J];太原科技大学学报;2010年05期
9 任江涛;孙婧昊;黄焕宇;印鉴;;一种基于信息增益及遗传算法的特征选择算法[J];计算机科学;2006年10期
10 詹德川;周志华;;基于相关投影分的特征选择算法[J];计算机科学与探索;2007年02期
中国重要会议论文全文数据库 前10条
1 章小强;管霖;;基于蚁群算法的暂态稳定评估输入特征的识别[A];中国高等学校电力系统及其自动化专业第二十四届学术年会论文集(中册)[C];2008年
2 倪友平;王思臣;马桂珍;陈曾平;;分支界定算法在低分辨雷达飞机架次判别中的应用[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
3 柳斌;李之棠;涂浩;;一种基于半监督学习的应用层流量分类方法[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
4 万京;王建东;;一种基于新的差异性度量的ReliefF方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
5 周志红;周新聪;严新平;袁成清;;磨粒特征参数的评价与优化方法研究[A];2006全国摩擦学学术会议论文集(一)[C];2006年
6 李占潮;陈超;周喜斌;邹小勇;;基于遗传算法和支持向量机预测蛋白质结构类[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
7 甄超;郑涛;许洁萍;;音乐流派分类中特征选择算法研究[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年
8 李文法;段洣毅;刘悦;孙春来;;一种面向流分类的特征选择算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 付焕焕;李俊;张洁;;入侵检测中机器学习算法的集成[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
10 薛富强;葛临东;陈丽;;新的改进遗传算法用于调制信号特征选择[A];无线传感器网及网络信息处理技术——2006年通信理论与信号处理年会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 周晓娟;TD已过分水岭[N];通信产业报;2008年
2 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
3 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
4 吴国纲 许纯;七种IP拥塞控制算法需改进[N];计算机世界;2006年
5 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
6 刘晶;与TD-SCDMA一起成长[N];中国电子报;2004年
7 ;选择合适的数据挖掘算法[N];计算机世界;2007年
8 林闯 罗万明;IP拥塞控制策略[N];计算机世界;2001年
9 海通证券 娄静吴先兴;把握风险收益特征选择最适合自己的基金[N];上海证券报;2007年
10 泰兴市河失镇中心小学 叶晓庆;浅谈口算训练的方法[N];成才导报.教育周刊;2007年
中国博士学位论文全文数据库 前10条
1 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
2 刘华文;基于信息熵的特征选择算法研究[D];吉林大学;2010年
3 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
4 李玲娟;数据挖掘技术在入侵检测系统中的应用研究[D];苏州大学;2008年
5 张静;基于粗糙集理论的数据挖掘算法研究[D];西北工业大学;2006年
6 黄东山;特征选择及半监督分类方法研究[D];华中科技大学;2011年
7 姜静清;最小二乘支持向量机算法及应用研究[D];吉林大学;2007年
8 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
9 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
10 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 冯宗翰;特征选择新算法研究[D];江南大学;2011年
2 刘宜萍;基于特征选择的多因素时间序列预测模型研究[D];合肥工业大学;2006年
3 陆景辉;基于信息理论的特征选择算法研究[D];北京交通大学;2007年
4 赵晶晶;改进的遗传算法在样本选择中的应用研究[D];东北师范大学;2006年
5 熊小草;文本分类中特征选择的理论分析和算法研究[D];清华大学;2007年
6 张隆;基于信息论的特征选择和分类算法研究[D];西南农业大学;2005年
7 梁琰;肺部CT图像分析及特征提取研究[D];重庆大学;2007年
8 刘何秀;神经网络集成算法的研究[D];中国海洋大学;2009年
9 卢扬竹;基于内容的垃圾邮件过滤技术研究[D];西南交通大学;2009年
10 高苏艳;集成特征选择算法的研究[D];南京邮电大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 800-810-6613
  • 010-62985026