生物组学数据的集成特征选择研究
【摘要】:高通量技术的发展产生了大量与基因、蛋白质和代谢相关的生物组学数据。从生物组学数据中发现和提炼与疾病相关的信息一直是生物信息学领域的热点问题。通过模式识别中的特征选择和分类技术,对高维生物组学数据中蕴藏的重要信息进行提取、筛选、识别和分类是分析生物组学数据的常用方法。生物组学数据具有的高维小样本、多类间样本分布不平衡等多种特征和样本统计分布特性,对特征选择算法在分类泛化性和稳定性等方面的表现提出巨大挑战,为了精确和稳定地提取与分类目标高度相关的特征子集,需要我们深入地研究和设计针对生物组学数据特征选择问题的新方法。本文针对生物组学数据的不同特性,提出了一系列集成特征选择算法,主要工作概括如下:1.在研究多种特征相关性度量的基础上,提出一种基于多种相关性度量的集成最大相关最小冗余(maximum Relevance and Minimum Redundancy,mRMR)特征选择算法。我们分析了最大信息系数、皮尔逊相关系数和互信息量在特征相关性度量方面的差异,并对前向搜索算法进行改进,增加可以设置所选择特征个数和搜索范围的机制,基于3种特征相关性度量和改进的搜索算法获得三组最优特征子集并进行集成分类学习。对不同类型的多组生物组学数据集的分类对比实验结果表明,集成m RMR特征选择算法能够针对各种类型的生物组学数据有效地选择最优特征子集,并有助于分类算法获得良好的识别性能。2.针对生物组学数据普遍存在多个最优或次优特征子集的情况,提出基于小生境二进制粒子群优化的集成特征选择算法。基于单一特征子集构建的分类模型在小样本生物组学数据上容易产生过拟合而影响分类泛化性能。为了尽量避免该问题,本文通过小生境二进制粒子群优化算法作为特征子集搜索算法,获得多个差异度最大且分类性能最优的特征子集并进行集成分类学习,由投票技术所集成的强分类器体现出优良的稳定性和泛化性。3.为了克服生物组学数据类间样本不平衡特性对特征选择和分类过程的影响,本文提出一种迭代式集成特征选择算法。该算法利用2种样本平衡预处理方法和3种过滤式生物组学数据特征选择算法,通过样本平衡和特征选择不断迭代的方式,使特征选择在一个趋于平衡的样本分布中迭代完成。对多组具有类间样本不平衡特性的生物组学数据进行分类实验,结果表明,由于克服了样本不平衡特性对特征选择的影响,所设计的迭代集成特征选择算法可以进一步提高分类性能。4.针对迭代集成特征选择所具有的局限性,本文提出一种基于粒子群优化的集成特征和模型选择算法。该算法将候选样本平衡模型、特征选择模型和分类模型的选择以及相应模型的超参数编码到粒子中。通过粒子种群的优化,自适应搜索具有最优分类性能的模型组合以及对应模型的超参数设置。实验结果表明,基于粒子群优化的集成特征和模型选择算法能够根据不同生物组学数据的样本和特征分布特性,自适应选择样本平衡模型和特征选择模型的最优组合,避免人为选择和设置模型所引入的主观偏差。本文所提出的一系列集成特征选择算法有助于解决生物组学数据复杂的样本和特征分布特性对特征选择和分类所造成的困难,所使用的集成特征选择思路可为后续相关生物组学数据分析提供借鉴。
|
|
|
|
1 |
付涛;;基于特征选择的多示例学习算法研究[J];科技通报;2013年08期 |
2 |
杨打生,郭延芬;一种特征选择的信息论算法[J];内蒙古大学学报(自然科学版);2005年03期 |
3 |
张永;曹东侠;;一种高效的特征选择机制应用于入侵检测[J];甘肃科学学报;2011年03期 |
4 |
杨锦英;王碧泉;;K—W检验和熵法在单个特征选择中的应用[J];华北地震科学;1989年02期 |
5 |
刘代志,李夕海,张斌;基于序优化方法的特征选择研究[J];核电子学与探测技术;2004年06期 |
6 |
刘开第,薛俊锋,庞彦军;特征选择及其常用算法[J];河北建筑科技学院学报;2004年04期 |
7 |
喻军;孟晓玲;;一种基于层次分析的特征选择法[J];中国科技信息;2006年10期 |
8 |
南重汉;邹凌云;;基于分组重量编码和特征选择技术预测外膜蛋白[J];第三军医大学学报;2013年13期 |
9 |
苗玉杰;;差分进化在图像特征选择中的应用研究[J];科技通报;2013年08期 |
10 |
赵小杰,种劲松,王宏琦;合成孔径雷达图像的特征选择[J];遥感技术与应用;2001年03期 |
11 |
钟春香
,黄振德
,周冠雄;图象特征选择问题的讨论及特征空间维数的确定[J];华中工学院学报;1980年S1期 |
12 |
杨打生,艾华;第一特征选择的信息论方法[J];内蒙古师范大学学报(自然科学汉文版);2005年01期 |
13 |
凌健;林成德;;拆分特征选择及其在企业信用评估中应用[J];福建工程学院学报;2006年04期 |
14 |
赵宇;黄思明;陈锐;;特征选择与空间降维概述、热点及展望[J];数学的实践与认识;2013年15期 |
15 |
邵壮超;张绍武;潘泉;施建宇;姜涛;;基于一种动态特征选择融合算法的蛋白质结构类预测[J];世界科技研究与发展;2005年06期 |
16 |
娄芸芸;邱百良;潘珍;;基于混沌最优化的多特征选择[J];成功(教育);2007年07期 |
17 |
林书亮;;联合L_(2,1)范数正则约束的特征选择方法[J];科技与企业;2013年24期 |
18 |
葛雷;李国正;尤鸣宇;;多标记学习的嵌入式特征选择[J];南京大学学报(自然科学版);2009年05期 |
19 |
王圆圆;李京;;基于决策树的高光谱数据特征选择及其对分类结果的影响分析[J];遥感学报;2007年01期 |
20 |
张向荣,焦李成;基于免疫克隆选择算法的特征选择[J];复旦学报(自然科学版);2004年05期 |
|