收藏本站
《济南大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于集成学习的蛋白质亚细胞定位预测

刘立元  
【摘要】:随着人类基因组计划的成功实施和现代分子生物学的蓬勃开展,给人们留下了海量的生物学数据,并把人们带入了后基因组时代。由于后基因组时代生物学数据的大规模性,及数据之间关系的复杂性,使得人们不得不借助计算机来存储和处理这些海量数据。这样通过对生物学实验数据的获取,加工,存储,检索与分析来揭示海量的生物学数据中所蕴含的普遍的生物学意义为主要目的的生物信息学应运而生。很早就有文献研究表明:蛋白质序列相似程度越高,它们就越可能出现在同一个亚细胞定位中。因为同源蛋白的序列具有很高的相似性,并且具有相同或者相似的生物学功能,所以其亚细胞定位也具有相似性。随着人类基因组的测序成功,公用蛋白质数据库中蛋白质的数量和蛋白质功能注释之间的矛盾日益尖锐。然而由于生物学数据的海量性,基于传统的生物学的实验手段去挖掘这些数据海洋中规律性显然是费时、费力和高代价的(time-consuming and costly)。因此,开发能够直接从蛋白质原始序列中准确预测蛋白质空间结构、亚细胞定位和蛋白质蛋白质相互作用的算法被提上日程。 蛋白质亚细胞定位和亚核定位预测是后基因组时代生物信息学中的重要研究内容。基因的表达使得蛋白质在核糖体内(细菌在细胞质中合成)的合成成为可能,也使得遗传信息进行传递。蛋白质合成后必须被转运的特定的亚细胞器中,才能正常发挥其生物学功能,使整个生命机体正常运转。如果合成的蛋白质的定位与其天然定位发生偏差,细胞的各种功能及其构成的生命机体将遭受重大影响。 本文在前人研究的基础上,从组成蛋白质一级结构的氨基酸原始序列出发,提出利用进化模糊K-近邻算法(Evolutionary Fuzzy K-Nearest Neighbor, EFKNN)及其集成(Ensemble)分别对革兰氏阴性菌的五个亚细胞定位和真核细胞核中的九个亚核定位中的蛋白质进行了预测。FKNN最早由James Keller等人于1985年率先提出而FKNN算法是在K-近邻分类(KNN)算法的基础提出来的,KNN从训练样本集中寻找K(事先设定)个与待测样本在某种规定的距离下最近的样本,然后把待测样本判决为在K个与待测样本最近的的样本中,样本类标号重复出现次数最多的类。FKNN亦是基于此原理,不同之处在于对待测样本做判决时根据样本属于每一类的程度赋予该样本一个隶属度。隶属度越大,表示属于某一类的可能性越高。把模糊理论引入KNN算法中,在很大的程度上削弱了训练样本分布不均匀性对分类效果的影响,提高了分类精确度,并且在一定程度上降低了该算法对K值的敏感性。 为了提高分类器的精度,提高分类器自身的泛化能力,本文把集成学习引入到蛋白质亚细胞定位预测中。研究表明,当个体分类器具有较高精度,并且集成的个体分类器之间具有明显的差异性时,集成的分类结果才更有效。基于此理论,首先,在包含299条分布在5个不同的亚细胞定位的革兰氏阴性菌蛋白质的数据集上,运用伪氨基酸特(PseAA)征提取算法,采用不同的K值训练了6个个体和精度都存在明显差异的基分类器,运用jackknife交叉验证的方式,对分类结果采用一种新型的加权投票即累加投票量原则(Accumulative Vote Quantity, AVQ)进行集成,取得良好了分类结果。其次,为了提高个体基分类器预测精度,增大个体分类器之间的差异性,我们又在亚核定位数据集SNL9上,为了更科学的表示蛋白质序列,分别使用了氨基酸组成(AA)、伪氨基酸组成模型(PseAA)、准序列顺序(Quasi-sequence-order)模型、理化组成模型(PCC)、氨基酸组成模型和理化组成模型融合(Fusion)等5种蛋白质特征提取算法对蛋白质原始序列进行特征提取,利用这五种算法提取的特征,训练了5个结构不同的EFKNN分类器,并且在每个基本分类器中,每个分类器K的取值通过实验得出。这样充分保证了基本分类器之间的个体差异性和分类精度,并运用AVQ方法对分类结果集成,也采用jackknife交叉验证的方式,对细胞核内的9类亚核定位的蛋白质进行了预测,正确率为70.0%。通过实验结果表明,提出的预测模型在蛋白质亚细胞定位预测方面具有广阔的应用前景或至少对现有预测模型做了有效的补充。AVQ集成方法的提出,提高了分类精度,丰富和发展了集成学习理论方法的研究和实际应用。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 凌霄汉;吉根林;;一种基于聚类集成的无监督特征选择方法[J];南京师范大学学报(工程技术版);2007年03期
2 刘郁,陈耘志,张兵;图像挖掘中利用类特征集成的自动学习算法研究[J];电脑知识与技术;2005年30期
3 贾瑞玉;冯伦阔;李永顺;张新建;;基于集成学习的覆盖算法[J];计算机技术与发展;2009年07期
4 时雷;虎晓红;席磊;;基于集成学习的网页分类算法[J];郑州大学学报(理学版);2009年03期
5 王昕昕;;基于遗传算法的分类方法讨论[J];电脑知识与技术;2009年33期
6 张新东;亢俊健;陈嶷瑛;李文斌;;选择分类器进行入侵检测[J];微计算机信息;2010年06期
7 徐冲;王汝传;任勋益;;基于集成学习的入侵检测方法[J];计算机科学;2010年07期
8 李烨,蔡云泽,许晓鸣;基于支持向量机集成的故障诊断[J];控制工程;2005年S2期
9 琚旭;王浩;姚宏亮;;基于Boosting的支持向量机组合分类器[J];合肥工业大学学报(自然科学版);2006年10期
10 蔡铁;伍星;李烨;;集成学习中基于离散化方法的基分类器构造研究[J];计算机应用;2008年08期
11 赵洋;冀俊忠;李文斌;;基于复杂网络的分类器融合[J];科学技术与工程;2008年14期
12 吴焕政;吴渝;肖开州;;基于粗糙集和集成学习的BBS网络舆情分类[J];广西大学学报(自然科学版);2009年05期
13 张振宇;;稳健的多支持向量机自适应提升算法[J];大连交通大学学报;2010年02期
14 徐鹤;王锁萍;王汝传;赵丹;;基于神经网络集成的P2P流量识别研究[J];南京邮电大学学报(自然科学版);2010年03期
15 吴科主;江雨燕;周传华;;一种多层次选择性集成学习算法[J];计算机应用与软件;2011年01期
16 付彬;王志海;王中锋;;最大化边际的分类器选取算法[J];计算机科学与探索;2011年01期
17 周光明;基于解释学习中的不完善理论问题[J];电脑开发与应用;2004年03期
18 俞扬;周志华;;集成学习中完全随机学习策略研究[J];计算机工程;2006年17期
19 常卫东;;基于集成学习的智能入侵检测系统[J];中国科技信息;2006年22期
20 陈华;魏连;郑志娴;许榕生;;基于集成学习的网络取证模型[J];福建电脑;2007年10期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
3 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
4 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 张红梅;高海华;王行愚;;抑制样本噪声的AdaBoost算法及其在入侵检测中的应用[A];2007年中国智能自动化会议论文集[C];2007年
6 付焕焕;李俊;张洁;;入侵检测中机器学习算法的集成[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
7 张红梅;;基于粗糙集特征约简的SVM集成入侵检测模型[A];2009中国控制与决策会议论文集(3)[C];2009年
8 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
9 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
10 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
2 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
3 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
4 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
5 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
6 苏强;基于数据挖掘算法的环境毒物QSAR研究[D];上海大学;2013年
7 宋相法;基于稀疏表示和集成学习的若干分类问题研究[D];西安电子科技大学;2013年
8 孙永宣;集成学习下的图像分析关键问题研究[D];合肥工业大学;2013年
9 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
10 刘峰;贝叶斯网络结构学习算法研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 张家红;集成分类学习算法研究[D];山东师范大学;2011年
2 刘晓坤;基于遗传算法的混合学习和集成学习研究[D];天津大学;2003年
3 刘立元;基于集成学习的蛋白质亚细胞定位预测[D];济南大学;2011年
4 贺梁;基于支持向量机的集成学习算法研究[D];华南理工大学;2010年
5 李新军;基于支持向量机的建模预测研究[D];天津大学;2004年
6 李洪伟;基于模式识别和集成学习的电力系统暂态稳定评估[D];华北电力大学(河北);2010年
7 赵万鹏;基于Adaboost算法的数字识别技术的研究与应用[D];中国科学院研究生院(成都计算机应用研究所);2006年
8 王晓芹;类别不平衡数据的集成学习研究[D];山东师范大学;2010年
9 王体龙;基于置信区间的贝叶斯网参数学习算法及集成学习研究[D];吉林大学;2008年
10 杜健;基于神经遗传学习算法的模型优化研究[D];天津大学;2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978