收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向特征选择问题的优化方法研究

滕旭阳  
【摘要】:随着各领域内数据的不断生成与积累,海量数据为机器学习和数据挖掘任务带来了新的挑战。如何删除无关和冗余数据,并利用部分相关数据得到有价值的信息成为当下研究的热点。特征选择是数据挖掘、机器学习、模式识别等领域的一个预处理过程。该技术的主旨在于既能大幅度地缩小数据规模,又可以维持原始特征集合的信息表达能力。特征选择依据样本的分布特点,采用相应的评价方法,从原始特征集合中选择一个最优或者近似最优的特征子集代替总体特征集合。特征选择后得到的特征子集将提升数据处理的效率、保持识别的正确率并强化信息分析的结果。通过更加稳定的特征表示,更容易发现研究对象之间的固有联系。特征选择工作可以被视为一种离散的组合优化问题,因此本文采用了信息论和演化算法寻优等多种手段对特征子集选择过程进行优化,研究特征选择工作的两大方面:搜索策略的优化和评价方式的优化。围绕特征子集的组合性能开展各部分工作。针对特征选择搜索策略,提出了两种演化搜索的特征选择优化算法;针对特征选择评价方式,提出了通用于单标签与多标签的特征度量方法。本文的主要贡献和研究内容为:(1)提出基于动态混合变异策略的特征选择搜索优化方法:针对贪婪式特征选择无法获得全局最优的特征子集,并存在特征子集规模需人工限定的问题,使用遗传算法对特征空间进行搜索以形成自适应的特征子集。为了防止演化搜索陷入局部最优和子集规模不受控,提出了两种适用于特征选择的变异策略,结合单点变异形成动态混合变异策略。最后采用线性判别分析对特征子集进行整体度量。本部分实现了评估子集组合效应的动态自适应演化搜索方法,该优化工作侧重于对特征空间进行全局搜索。(2)提出基于关联信息熵度量的特征选择评价优化方法:针对特征选择工作中使用经典信息论度量方式将特征相关性和冗余性分割判断,缺乏对特征子集内的特征组合效应的整体评估的问题。将多传感器信息系统中的关联信息熵理论映射到到特征选择空间中,基于该理论评估特征集合内部整体的独立和冗余程度。计算特征与不同类别的互信息组合,并构造特征子集的相关矩阵。该评估方法的优势在于计算特征关系矩阵的关联信息熵时充分考虑了特征子集中不同特征间的多变量关系。该评估方法既可以作为特征排序算法,也可以结合冗余信息控制量转化为一种自适应的特征子集选择方法。该优化工作侧重于对特征子集作为不可分单元的组合性能的信息量度量。(3)提出基于V形二元粒子群优化的特征选择优化方法:特征子集的搜索速度也是特征选择工作的重要指标之一,针对二元粒子群在演化搜索中的速度优势,该项工作结合了上述演化算法搜索策略和关联信息熵评估的优势,提升了演化搜索在大规模数据集中寻优的时间效率,完成了对子集的整体组合度量。采用同样的度量手段时,V形二元粒子群的演化搜索优于贪婪式特征选择方法。该优化工作侧重于全局寻优策略和上述组合效应度量相协同合作,验证两种优化结合后更优的整体性能。(4)提出基于邻域关联信息熵度量的多标签特征选择评价优化方法:针对多标签特征选择问题,将各个特征在不同标签下的整体表现作为度量。有别于单标签特征选择问题,多标签下连续数据的离散化会丢失特征组合的大量信息。因此,使用邻域信息熵来计算特征在每个标签下的信息量。基于邻域信息熵的计算,构建特征邻域信息相关矩阵,进而采用关联信息熵进行特征集合的整体度量。该部分工作避免了将每个标签单独提取形成单标签特征选择的局限,是一种全新的多标签特征选择问题解决方案,并且验证了关联信息熵度量以及邻域关联信息熵度量在单标签特征选择与多标签特征选择中的通用性和有效性。该优化工作是在多标签特征选择领域的一种新的子集评价方式。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张红涛,胡玉霞,邱道尹;遗传算法在储粮害虫特征选择中的应用[J];华北水利水电学院学报;2004年03期
2 徐雷;阎平凡;常迥;;用于特征选择的BF算法及其与B&B算法的比较[J];自动化学报;1988年05期
3 杨锦英;王碧泉;;K—W检验和熵法在单个特征选择中的应用[J];华北地震科学;1989年02期
4 陈晋苏;特征选择在电信行业客户流失分析中的应用[J];科技资讯;2005年22期
5 范劲松,方廷健;特征选择和提取要素的分析及其评价[J];计算机工程与应用;2001年13期
6 江乃雄;蔡民;;综合距离特征选择问题解的存在性与唯一性[J];计算机应用与软件;1992年01期
7 钱学双;多重筛选逐步回归特征选择法及其应用[J];信息与控制;1986年05期
8 余胜龙;赵红;;基于样本邻域保持的代价敏感特征选择[J];数据采集与处理;2018年02期
9 杜政霖;李云;;基于特征聚类集成技术的在线特征选择[J];计算机应用;2017年03期
10 崔亚芬;解男男;;一种基于特征选择的入侵检测方法[J];吉林大学学报(理学版);2015年01期
11 林秀晶;夏勇明;钱松荣;;基于支持向量机及特征选择的单通道脑电波睡眠分期研究[J];生物医学工程学杂志;2015年03期
12 黄铉;;特征选择研究综述[J];信息与电脑(理论版);2017年24期
13 杨超;蔡晓东;甘凯今;王丽娟;;基于自适应显著特征选择的动态加权平均行人识别模型[J];计算机工程与科学;2017年05期
14 莫小勇;潘志松;邱俊洋;余亚军;蒋铭初;;基于在线特征选择的网络流异常检测[J];山东大学学报(工学版);2016年04期
15 章新华;一种特征选择的动态规划方法[J];自动化学报;1998年05期
16 刘杰;张平;高万夫;;基于条件相关的特征选择方法[J];吉林大学学报(工学版);2018年03期
17 单世超;栾翠菊;;基于局部特征选择的微博中文文本分类研究[J];现代计算机(专业版);2017年23期
18 闫鹏;郑雪峰;朱建勇;肖赟泓;;一种基于嵌入式特征选择的垃圾邮件过滤模型[J];小型微型计算机系统;2009年08期
19 张丹;刘明霞;张道强;;基于有效距离的迭代特征选择[J];小型微型计算机系统;2017年05期
20 ;生物特征身份识别中的特征选择与先进的识别算法[J];北京邮电大学学报;2009年02期
中国重要会议论文全文数据库 前10条
1 史彩娟;沙宇阳;刘健;闫晓东;刘利平;;基于自适应半监督稀疏特征选择的图像标注[A];第十届全国信号和智能信息处理与应用学术会议专刊[C];2016年
2 刘培磊;李满生;王挺;;蛋白质相互作用有向关系抽取的特征选择[A];第五届全国信息检索学术会议论文集[C];2009年
3 袁帅;杨宏晖;申昇;;基于云模型的特征评价准则[A];第三届上海——西安声学学会学术会议论文集[C];2013年
4 申昇;杨宏晖;袁帅;;用于水声目标识别的互信息无监督特征选择[A];第三届上海——西安声学学会学术会议论文集[C];2013年
5 李泽辉;聂生东;陈兆学;;应用多类SVM分割MR脑图像特征选择与优化的实验研究[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
6 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
7 宋鹏;郑文明;赵力;;基于子空间学习和特征选择融合的语音情感识别[A];第十四届全国人机语音通讯学术会议(NCMMSC’2017)论文集[C];2017年
8 臧淼;徐惠民;张永梅;;基于局部约束和稀疏编码的自动图像标注[A];国防光电子论坛第二届激光雷达成像探测技术及应用研讨会论文集[C];2015年
9 俞士汶;王治敏;朱学锋;;文学语言与自然语言理解研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 薛富强;葛临东;陈丽;;新的改进遗传算法用于调制信号特征选择[A];无线传感器网及网络信息处理技术——2006年通信理论与信号处理年会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 滕旭阳;面向特征选择问题的优化方法研究[D];哈尔滨工程大学;2017年
2 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
3 高青斌;蛋白质亚细胞定位预测相关问题研究[D];国防科学技术大学;2006年
4 刘风;基于磁共振成像的多变量模式分析方法学与应用研究[D];电子科技大学;2014年
5 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
6 梁建宁;特征选择与图像匹配[D];复旦大学;2011年
7 曹杰;基于SVM的网络流量特征降维与分类方法研究[D];吉林大学;2017年
8 孙建文;基于集成特征选择的网络书写纹识别研究[D];华中师范大学;2011年
9 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
10 王珏鑫;水稻耐盐性机理的计算生物学研究[D];吉林大学;2016年
中国硕士学位论文全文数据库 前10条
1 王峰;蚁群算法在网络入侵特征选择上的应用研究[D];湖南大学;2017年
2 李锦;ALS临床数据的特征选择及其预测方法研究[D];湖南大学;2017年
3 舒崇河;基于Relief算法的siRNA特征选择研究[D];吉林大学;2017年
4 麻书琴;Relief特征选择与混合核SVM在疾病诊断中的研究[D];太原理工大学;2017年
5 付浩;基于层次聚类特征选择和HF-SVM的活动识别技术[D];浙江大学;2017年
6 陈磊;文本表示模型和特征选择算法研究[D];中国科学技术大学;2017年
7 周琪;特征选择与特征学习算法研究[D];中国科学技术大学;2017年
8 陈勇达;基于布谷鸟算法的特征选择研究[D];吉林大学;2017年
9 蔡志铃;多标签特征选择的两种算法研究[D];闽南师范大学;2017年
10 刘博;基于进化算法的特征选择研究[D];河北大学;2017年
中国重要报纸全文数据库 前7条
1 本报记者 李振辉;根据自身特征选择健身方式[N];广东科技报;2008年
2 海通证券 娄静吴先兴;把握风险收益特征选择最适合自己的基金[N];上海证券报;2007年
3 铁岭市第二高中 高军;让学生“动”起来[N];铁岭日报;2005年
4 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
5 《网络世界》记者 周源;云平台,只选对的[N];网络世界;2012年
6 郑军;高产鹅选种方法和标准[N];河南科技报;2016年
7 记者 丁宁;2012年,我们一起“追”的创新产品[N];上海证券报;2012年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978