收藏本站
《清华大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

高维数据的特征选择及基于特征选择的集成学习研究

张丽新  
【摘要】:图像处理、信息检索以及生物信息学等大规模机器学习问题的不断涌现,对已有的特征选择算法和机器学习算法提出了严峻的挑战,迫切需要适应大规模数据集的准确性和运行效率等综合性能较好的特征选择算法以及机器学习算法。本文在高维数据的特征选择以及基于特征选择的集成学习上开展了研究。主要工作包括以下方面: 一、设计了两种串联型组合式特征选择算法。针对Relief评估不能去除冗余特征的缺点,设计了两种串联型组合式特征选择算法:一种为Filter-Filter模式,另一种为Filter-Wrapper模式。在人工数据集上的实验表明,Filter-Filter模式的组合式算法可以有效的克服Relief不能去除冗余特征的缺点,去掉全部或者近似全部的冗余特征,且运行效率高于Filter-Wrapper模式的组合算法;在人工数据集和实际数据集上的实验表明,Filter-Wrapper模式的组合式算法取得了明显高于Filter-Filter模式的测试准确率。 二、基于Relief和遗传算法各自的优缺点,提出了Relief和遗传算法耦合的组合式特征选择算法。算法采用 Relief 指导遗传算法种群初始化,目的是提高遗传算法搜索近似最优解的速度,以便在较短时间内寻找到近似最优解。在17个维数较高的数据集上的实验结果表明,从分类准确率,特征子集大小以及运行时间等多角度考察,该算法具有良好的综合性能。 三、从个体分类器准确率和个体分类器间差异度两方面出发,提出了一种适于高维数据的基于两步式特征选择的集成学习算法ReFeatEn。实验表明,在特征维数较高,特征间关系较复杂的数据集上,ReFeatEn算法的测试准确率始终优于或相当于Bagging、Boosting和基于随机特征选择的集成学习算法RandFeatEn,并且ReFeatEn的运行速度远高于Bagging和Boosting算法,而且适于并行运行,是一种适用于高维数据的基于特征选择的集成学习算法。 四、提出了将特征选择嵌入到Boosting算法中的思路,并设计了总体算法框架,据此分别针对朴素贝叶斯分类器和最近邻中心分类器设计了相应的集成学习算法,解决了Boosting算法对噪声特征较敏感的缺陷,得到的测试准确率显著高于对应的Boosting算法,是一种鲁棒性很强且具有推广性的集成学习算法。
【学位授予单位】:清华大学
【学位级别】:博士
【学位授予年份】:2004
【分类号】:TP301.6

【相似文献】
中国期刊全文数据库 前10条
1 张红涛,胡玉霞,邱道尹;遗传算法在储粮害虫特征选择中的应用[J];华北水利水电学院学报;2004年03期
2 刘艺;曹建军;刁兴春;周星;;特征选择稳定性研究综述[J];软件学报;2018年09期
3 陈晋苏;特征选择在电信行业客户流失分析中的应用[J];科技资讯;2005年22期
4 范劲松,方廷健;特征选择和提取要素的分析及其评价[J];计算机工程与应用;2001年13期
5 闫鹏;郑雪峰;朱建勇;肖赟泓;;一种基于嵌入式特征选择的垃圾邮件过滤模型[J];小型微型计算机系统;2009年08期
6 ;生物特征身份识别中的特征选择与先进的识别算法[J];北京邮电大学学报;2009年02期
7 刘飞飞;;入侵检测中特征选择技术的应用[J];计算机时代;2018年09期
8 岳训;迟忠先;莫宏伟;郝艳友;;基于网络社区模块结构的特征选择性能评价[J];计算机工程;2007年12期
9 喻莹;杨扬;董才林;;基于动态特征选择的手写体相似汉字的识别[J];计算机工程;2006年17期
10 李云,叶春晓,李季,刘嘉敏,吴中福;基于特征关联性的特征选择算法研究[J];微型机与应用;2004年06期
中国重要会议论文全文数据库 前10条
1 史彩娟;沙宇阳;刘健;闫晓东;刘利平;;基于自适应半监督稀疏特征选择的图像标注[A];第十届全国信号和智能信息处理与应用学术会议专刊[C];2016年
2 刘培磊;李满生;王挺;;蛋白质相互作用有向关系抽取的特征选择[A];第五届全国信息检索学术会议论文集[C];2009年
3 袁帅;杨宏晖;申昇;;基于云模型的特征评价准则[A];第三届上海——西安声学学会学术会议论文集[C];2013年
4 申昇;杨宏晖;袁帅;;用于水声目标识别的互信息无监督特征选择[A];第三届上海——西安声学学会学术会议论文集[C];2013年
5 李泽辉;聂生东;陈兆学;;应用多类SVM分割MR脑图像特征选择与优化的实验研究[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
6 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
7 宋鹏;郑文明;赵力;;基于子空间学习和特征选择融合的语音情感识别[A];第十四届全国人机语音通讯学术会议(NCMMSC’2017)论文集[C];2017年
8 臧淼;徐惠民;张永梅;;基于局部约束和稀疏编码的自动图像标注[A];国防光电子论坛第二届激光雷达成像探测技术及应用研讨会论文集[C];2015年
9 俞士汶;王治敏;朱学锋;;文学语言与自然语言理解研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 薛富强;葛临东;陈丽;;新的改进遗传算法用于调制信号特征选择[A];无线传感器网及网络信息处理技术——2006年通信理论与信号处理年会论文集[C];2006年
中国重要报纸全文数据库 前7条
1 本报记者 李振辉;根据自身特征选择健身方式[N];广东科技报;2008年
2 海通证券 娄静吴先兴;把握风险收益特征选择最适合自己的基金[N];上海证券报;2007年
3 铁岭市第二高中 高军;让学生“动”起来[N];铁岭日报;2005年
4 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
5 《网络世界》记者 周源;云平台,只选对的[N];网络世界;2012年
6 郑军;高产鹅选种方法和标准[N];河南科技报;2016年
7 记者 丁宁;2012年,我们一起“追”的创新产品[N];上海证券报;2012年
中国博士学位论文全文数据库 前10条
1 袁明冬;基于图的特征提取和特征选择及其应用研究[D];西安电子科技大学;2017年
2 滕旭阳;面向特征选择问题的优化方法研究[D];哈尔滨工程大学;2017年
3 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
4 高青斌;蛋白质亚细胞定位预测相关问题研究[D];国防科学技术大学;2006年
5 刘风;基于磁共振成像的多变量模式分析方法学与应用研究[D];电子科技大学;2014年
6 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
7 梁建宁;特征选择与图像匹配[D];复旦大学;2011年
8 曹杰;基于SVM的网络流量特征降维与分类方法研究[D];吉林大学;2017年
9 孙建文;基于集成特征选择的网络书写纹识别研究[D];华中师范大学;2011年
10 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026