收藏本站
收藏 | 论文排版

生物组学数据的集成特征选择研究

杨峻山  
【摘要】:高通量技术的发展产生了大量与基因、蛋白质和代谢相关的生物组学数据。从生物组学数据中发现和提炼与疾病相关的信息一直是生物信息学领域的热点问题。通过模式识别中的特征选择和分类技术,对高维生物组学数据中蕴藏的重要信息进行提取、筛选、识别和分类是分析生物组学数据的常用方法。生物组学数据具有的高维小样本、多类间样本分布不平衡等多种特征和样本统计分布特性,对特征选择算法在分类泛化性和稳定性等方面的表现提出巨大挑战,为了精确和稳定地提取与分类目标高度相关的特征子集,需要我们深入地研究和设计针对生物组学数据特征选择问题的新方法。本文针对生物组学数据的不同特性,提出了一系列集成特征选择算法,主要工作概括如下:1.在研究多种特征相关性度量的基础上,提出一种基于多种相关性度量的集成最大相关最小冗余(maximum Relevance and Minimum Redundancy,mRMR)特征选择算法。我们分析了最大信息系数、皮尔逊相关系数和互信息量在特征相关性度量方面的差异,并对前向搜索算法进行改进,增加可以设置所选择特征个数和搜索范围的机制,基于3种特征相关性度量和改进的搜索算法获得三组最优特征子集并进行集成分类学习。对不同类型的多组生物组学数据集的分类对比实验结果表明,集成m RMR特征选择算法能够针对各种类型的生物组学数据有效地选择最优特征子集,并有助于分类算法获得良好的识别性能。2.针对生物组学数据普遍存在多个最优或次优特征子集的情况,提出基于小生境二进制粒子群优化的集成特征选择算法。基于单一特征子集构建的分类模型在小样本生物组学数据上容易产生过拟合而影响分类泛化性能。为了尽量避免该问题,本文通过小生境二进制粒子群优化算法作为特征子集搜索算法,获得多个差异度最大且分类性能最优的特征子集并进行集成分类学习,由投票技术所集成的强分类器体现出优良的稳定性和泛化性。3.为了克服生物组学数据类间样本不平衡特性对特征选择和分类过程的影响,本文提出一种迭代式集成特征选择算法。该算法利用2种样本平衡预处理方法和3种过滤式生物组学数据特征选择算法,通过样本平衡和特征选择不断迭代的方式,使特征选择在一个趋于平衡的样本分布中迭代完成。对多组具有类间样本不平衡特性的生物组学数据进行分类实验,结果表明,由于克服了样本不平衡特性对特征选择的影响,所设计的迭代集成特征选择算法可以进一步提高分类性能。4.针对迭代集成特征选择所具有的局限性,本文提出一种基于粒子群优化的集成特征和模型选择算法。该算法将候选样本平衡模型、特征选择模型和分类模型的选择以及相应模型的超参数编码到粒子中。通过粒子种群的优化,自适应搜索具有最优分类性能的模型组合以及对应模型的超参数设置。实验结果表明,基于粒子群优化的集成特征和模型选择算法能够根据不同生物组学数据的样本和特征分布特性,自适应选择样本平衡模型和特征选择模型的最优组合,避免人为选择和设置模型所引入的主观偏差。本文所提出的一系列集成特征选择算法有助于解决生物组学数据复杂的样本和特征分布特性对特征选择和分类所造成的困难,所使用的集成特征选择思路可为后续相关生物组学数据分析提供借鉴。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 付涛;;基于特征选择的多示例学习算法研究[J];科技通报;2013年08期
2 杨打生,郭延芬;一种特征选择的信息论算法[J];内蒙古大学学报(自然科学版);2005年03期
3 张永;曹东侠;;一种高效的特征选择机制应用于入侵检测[J];甘肃科学学报;2011年03期
4 杨锦英;王碧泉;;K—W检验和熵法在单个特征选择中的应用[J];华北地震科学;1989年02期
5 刘代志,李夕海,张斌;基于序优化方法的特征选择研究[J];核电子学与探测技术;2004年06期
6 刘开第,薛俊锋,庞彦军;特征选择及其常用算法[J];河北建筑科技学院学报;2004年04期
7 喻军;孟晓玲;;一种基于层次分析的特征选择法[J];中国科技信息;2006年10期
8 南重汉;邹凌云;;基于分组重量编码和特征选择技术预测外膜蛋白[J];第三军医大学学报;2013年13期
9 苗玉杰;;差分进化在图像特征选择中的应用研究[J];科技通报;2013年08期
10 赵小杰,种劲松,王宏琦;合成孔径雷达图像的特征选择[J];遥感技术与应用;2001年03期
11 钟春香 ,黄振德 ,周冠雄;图象特征选择问题的讨论及特征空间维数的确定[J];华中工学院学报;1980年S1期
12 杨打生,艾华;第一特征选择的信息论方法[J];内蒙古师范大学学报(自然科学汉文版);2005年01期
13 凌健;林成德;;拆分特征选择及其在企业信用评估中应用[J];福建工程学院学报;2006年04期
14 赵宇;黄思明;陈锐;;特征选择与空间降维概述、热点及展望[J];数学的实践与认识;2013年15期
15 邵壮超;张绍武;潘泉;施建宇;姜涛;;基于一种动态特征选择融合算法的蛋白质结构类预测[J];世界科技研究与发展;2005年06期
16 娄芸芸;邱百良;潘珍;;基于混沌最优化的多特征选择[J];成功(教育);2007年07期
17 林书亮;;联合L_(2,1)范数正则约束的特征选择方法[J];科技与企业;2013年24期
18 葛雷;李国正;尤鸣宇;;多标记学习的嵌入式特征选择[J];南京大学学报(自然科学版);2009年05期
19 王圆圆;李京;;基于决策树的高光谱数据特征选择及其对分类结果的影响分析[J];遥感学报;2007年01期
20 张向荣,焦李成;基于免疫克隆选择算法的特征选择[J];复旦学报(自然科学版);2004年05期
中国重要会议论文全文数据库 前10条
1 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 李长升;卢汉清;;排序学习模型中的特征选择[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
3 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 倪友平;王思臣;马桂珍;陈曾平;;分支界定算法在低分辨雷达飞机架次判别中的应用[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
5 李泽辉;聂生东;陈兆学;;应用多类SVM分割MR脑图像特征选择与优化的实验研究[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
6 蒙新泛;王厚峰;;主客观识别中的上下文因素的研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 万京;王建东;;一种基于新的差异性度量的ReliefF方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
8 范丽;许洁萍;;基于GMM的音乐信号音色模型研究[A];第四届和谐人机环境联合学术会议论文集[C];2008年
9 陈友;戴磊;程学旗;;基于MRMHC-C4.5的IP流分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 申昇;杨宏晖;袁帅;;用于水声目标识别的互信息无监督特征选择[A];第三届上海——西安声学学会学术会议论文集[C];2013年
中国博士学位论文全文数据库 前10条
1 李静;高维数据交互特征选择和分类研究[D];燕山大学;2015年
2 刘风;基于磁共振成像的多变量模式分析方法学与应用研究[D];电子科技大学;2014年
3 王石平;粗糙拟阵及其在高维数据降维中的应用研究[D];电子科技大学;2014年
4 代琨;基于支持向量机的网络数据特征选择技术研究[D];解放军信息工程大学;2013年
5 王爱国;微阵列基因表达数据的特征分析方法研究[D];合肥工业大学;2015年
6 杨峻山;生物组学数据的集成特征选择研究[D];深圳大学;2017年
7 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
8 张明锦;基于特征选择的多变量数据分析方法及其在谱学研究中的应用[D];华东理工大学;2011年
9 高青斌;蛋白质亚细胞定位预测相关问题研究[D];国防科学技术大学;2006年
10 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 周瑞;基于支持向量机特征选择的移动通信网络问题分析[D];华南理工大学;2015年
2 张金蕾;蛋白质SUMO化修饰位点预测的数据挖掘技术研究[D];西北农林科技大学;2015年
3 陈云风;基于聚类集成技术的高铁信号故障诊断研究[D];西南交通大学;2015年
4 张斌斌;网络股评的倾向性分析[D];中央民族大学;2015年
5 季金胜;高分辨率遥感影像典型地物目标的特征选择及其稳定性研究[D];上海交通大学;2015年
6 袁玉录;基于数据分类的网络通信行为建模方法研究[D];电子科技大学;2015年
7 王虎;基于试验设计的白酒谱图特征选择及支持向量机参数优化研究[D];南京财经大学;2015年
8 王维智;基于特征提取和特征选择的级联深度学习模型研究[D];哈尔滨工业大学;2015年
9 皮阳;基于声音的生物种群识别[D];电子科技大学;2015年
10 刘树龙;特征选择在软件缺陷预测中的应用技术研究[D];南京大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978