收藏本站
《国防科学技术大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

蛋白质亚细胞定位预测相关问题研究

高青斌  
【摘要】: 蛋白质组学研究的一个重要任务是在细胞水平上研究探讨蛋白质执行完成、控制生命活动的内在规律,分析蛋白质功能与亚细胞定位、环境的关系,从而更加清楚地认识蛋白质参与生命活动的内在特点。由于蛋白质亚细胞定位预测可以为了解蛋白质功能提供重要线索,目前已成为生物信息学研究的热点问题之一。本文主要以蛋白质亚细胞定位预测为主题,针对蛋白质序列的编码方法、特征选择技术、分类算法以及分泌蛋白信号肽剪切位点识别等几个方面问题进行了研究,其主要内容和创新之处包括: (1)蛋白质序列编码方法研究。 蛋白质序列编码是计算机算法分析的基础,也是决定系统预测性能的重要因素,具有重要的生物学意义。经过多年的探索,研究人员提出了各种不同的序列编码方法,其中大部分侧重于多信息资源的综合利用。然而,到目前为止人们还没有找到一种非常有效的方法。为此,本文从序列编码方法入手,利用自相关函数和氨基酸残基的10种生物化学性质,并结合蛋白质序列的氨基酸组成特征和二肽组成特征,构建了一个编码蛋白质序列的混合特征集,提出了一种基于AAindex的蛋白质亚细胞定位方法。自相关函数是一种基于氨基酸索引(amino acid index,AAindex)的特征描述方法,它不仅考虑了氨基酸残基之间的耦合作用,也包含了序列的长度信息,在一定程度上弥补了氨基酸组成和二肽组成所丢失的部分有用信息。基于本文提出的序列编码方法,论文利用最近邻算法对蛋白质亚细胞定位数据进行了测试,取得了良好的预测性能。与同类其它方法相比,本文方法具有一定的优势,说明该方法是可行的。 (2)蛋白质特征选择技术研究。 无论是分类器的训练过程,还是分类器的识别过程,都要利用样本的特征。而在设计分类系统时,一般情况下可利用的特征集的维数往往很大。如果将这些特征不加分析地全部作为分类特征,识别过程将会有很大的工作量,分类效果也不一定好,甚至会导致特征维数灾难。所以,在数据分析之前进行特征选择过程就显得尤为重要。本文利用特征选择技术对蛋白质亚细胞定位预测问题和G-蛋白耦联受体(G-protein coupled receptors,GPCRs)识别问题进行了探索性研究,分别构建了基于支持向量机的过滤特征选择方法和封装特征选择方法,并利用选出的特征集对蛋白质进行了分类研究。蛋白质特征选择的目的是通过摒弃那些不相关的的或冗余的蛋白质特征,构建更为紧凑的蛋白质序列特征描述方法,以增强识别结果的可理解性和可用性。实验研究表明,利用选择的特征子集不仅可以加快系统的识别速度,而且还有可能提高系统的分类性能,这也证实了特征选择方法的有效性。 (3)蛋白质分类算法研究。 算法研究一直是生物信息学研究的重点内容,涉及生物信息学的各个领域。对于同样的生物学数据和特征集,选择不同的算法可能会对系统性能产生较大影响。基于实例的学习,典型的如最近邻算法,是机器学习中一种常用的方法。然而在实际的生物信息学问题中,由于训练样本的数量往往是非常有限的,使得最近邻方法的分类性能受到一定限制。因此,本文在最近邻方法的基础上介绍了两类新的模式分类方法,最近特征线和可调近邻方法,并将它们用于蛋白质亚细胞定位预测研究,取得了优于最近邻方法的识别精度。这两类方法在未能获取更多训练样本的情况下,能够通过扩展现有样本描述能力的方式提高系统的分类性能,尤其适合于对小样本数据的识别。 上述方法的一个主要缺点是计算量大,不太适合大样本数据的识别。为了缩短运算时间,本文在最近特征线方法的基础上提出了一种称为中心最近邻的模式分类方法。与最近特征线方法相比,这种方法不仅可以大大降低计算的复杂度,而且识别精度也不会明显降低。通过对实际蛋白质数据的分析,中心最近邻方法同样取得了优于最近邻方法的识别精度,证明了该方法的有效性。 (4)信号肽剪切位点识别方法研究。 无论是在原核生物还是在真核生物中,信号肽都控制着几乎所有蛋白质到分泌通路的入口。它们位于氨基酸序列的N端,在蛋白质转运到细胞膜时被剪切掉。由于数据库中存在大量未经处理的蛋白质数据,信号肽及其剪切位点的识别引起了人们浓厚的兴趣。本文利用隐Markov模型(HMM)研究了模式生物大肠杆菌信号肽剪切位点的识别问题。在整个识别过程中,论文考虑了序列数据的统计特性和信号肽剪切位点附近氨基酸残基之间的耦合规则,将这些生物学知识与隐Markov模型相结合,加入了一个筛选过程,以进一步提高系统的识别精度。本文使用LOOCV方法对系统性能进行了评估,其预测准确率达到了85.6%,取得了理想的识别效果。
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:Q51

【引证文献】
中国期刊全文数据库 前1条
1 石瑞佳;胡秀珍;;基于物化特性编码和离散增量的支持向量机方法预测酶的亚类[J];内蒙古工业大学学报(自然科学版);2011年01期
中国硕士学位论文全文数据库 前3条
1 李智;梨抗黑星病类似基因Hcrp和启动子克隆与类受体蛋白分析[D];华中农业大学;2010年
2 史舵;基于主成分分析方法的蛋白质亚细胞定位[D];大连理工大学;2010年
3 张丽;蛋白质亚细胞定位的序列编码及预测方法研究[D];湖南大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 林卫中;肖绚;;基于GM(2,1)的亚细胞定位预测[J];计算机工程;2009年08期
2 姜小莹;魏蓉;董彩霞;李晓波;;基于最大熵模型预测蛋白质结构的分类[J];计算机与应用化学;2007年11期
3 ;Genetic insight of the H5N1 hemagglutinin cleavage site[J];Chinese Science Bulletin;2007年17期
4 郭晓莉;朱贻盛;李亦学;石萍;周豪魁;姚劲松;黄振德;魏冬青;;H5N1血凝素蛋白切割位点的序列研究[J];科学通报;2007年16期
5 关宏宇;余成;葛春华;张晓湾;张向东;;α-唑基-α-芳氧烷基频哪酮(芳乙酮)及其醇式衍生物抗真菌活性的支持向量机研究[J];辽宁大学学报(自然科学版);2007年04期
6 马军伟;高新中;张杰;;蛋白质亚细胞定位预测中的序列编码技术研究[J];计算机科学;2012年S3期
7 何萍;徐晓华;陈崚;;监督式谱空间分类器[J];软件学报;2012年04期
8 ;Structural Analysis of Fibroin Heavy Chain Signal Peptide of Silkworm Bombyx mori[J];Acta Biochimica et Biophysica Sinica;2006年07期
9 张光亚;高嘉强;方柏山;;酸性和碱性酶稳定性机制及其识别[J];生物工程学报;2009年01期
10 谭显胜;袁哲明;周铁军;熊洁仪;王春娟;;支持向量机及组合预测在蛋白质四级结构分类中的应用[J];现代生物医学进展;2008年04期
中国重要会议论文全文数据库 前2条
1 ;Predicting G-Protein-Coupled Receptor Classes Based on Adaptive K-nearest Neighbor Algorithm[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
2 郭延芝;文志宁;李梦龙;;基于序列信息的蛋白质功能预测[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 张凤英;日本沼虾(Macrobrachium nipponense)卵子和胚胎发育相关基因的克隆与表达研究[D];华东师范大学;2011年
2 高建召;基于序列的蛋白质折叠速率与膜蛋白功能分类研究[D];南开大学;2010年
3 张宁;蛋白质Beta折叠的分析与预测及生物信息工具开发[D];南开大学;2010年
4 于涛;蛋白质的结构特征及氯通道蛋白质的离子输运特性研究[D];武汉大学;2009年
5 顾全;基于集成智能的膜蛋白受体结构与功能研究[D];东华大学;2010年
6 张胜利;蛋白质与RNA中的若干问题研究[D];大连理工大学;2011年
7 张柱金;DNA序列二维可视化研究[D];华中科技大学;2011年
8 王立鹏;特征提取及分类算法在膜蛋白分类预测问题中的应用[D];兰州理工大学;2010年
9 刘菲;天府肉鹅α干扰素基因克隆、表达及其生物学活性研究[D];四川农业大学;2011年
10 马军伟;基于机器学习方法的蛋白质亚细胞定位预测研究[D];大连理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 张杰;基于支持向量机和蛋白质全序列的蛋白质—蛋白质相互作用预测[D];郑州大学;2010年
2 史舵;基于主成分分析方法的蛋白质亚细胞定位[D];大连理工大学;2010年
3 肖纯材;基于伪氨基酸成分的蛋白质序列分类研究[D];景德镇陶瓷学院;2011年
4 叶华;柑橘果胶酯酶的基因克隆[D];西华大学;2006年
5 陈军;模式识别技术在筛选溶脲脲原体和人精子交叉抗原中的应用研究[D];上海交通大学;2007年
6 孙翰昌;草鱼成纤维细胞生长因子-8(FGF8)的cDNA克隆与序列分析[D];西南大学;2007年
7 谭显胜;基于支持向量机的蛋白质分类及含氟农药活性预测[D];湖南农业大学;2007年
8 谭福元;模式识别方法在生物信息学与红外光谱分析中的应用[D];四川大学;2007年
9 邹怡;基于数据挖掘技术的亚细胞定位点预测算法研究[D];上海交通大学;2008年
10 赵文杰;嗜酸氧化亚铁硫杆菌铁硫簇组装蛋白IscU和分泌蛋白的研究[D];中南大学;2008年
【同被引文献】
中国期刊全文数据库 前10条
1 王学良,刘洁,刘家成,夏风,王向阳,黄娟;安徽省梨黑星病测报方法[J];安徽农业科学;2004年01期
2 汤浩茹,王永清,邓群仙;生物间遗传学在梨品种与梨黑星菌相互作用中的应用研究[J];果树科学;1998年03期
3 张海娥;乐文全;张新忠;;梨黑星病抗性机理的研究进展[J];华北农学报;2007年S2期
4 杨予涛,杨国栋,刘石娟,郭兴启,郑成超;一个光合组织特异表达强启动子的分离及功能分析[J];中国科学(C辑:生命科学);2003年04期
5 李玉岗;张法;刘志勇;;结合位点进化距离与支持向量机的蛋白质分类方法[J];计算机学报;2008年01期
6 吕华飞,明小天,瞿礼嘉,刘美华,李静,顾红雅,陈章良;稻瘟病病原物诱导启动子的构建及表达[J];科学通报;1999年20期
7 毛自朝,于秋菊,甄伟,郭俊毅,胡鸢雷,高音,林忠平;果实专一性启动子驱动ipt基因在番茄中的表达及其对番茄果实发育的影响[J];科学通报;2002年06期
8 孙景春,徐晋麟,李亦学,石铁流;大规模蛋白质相互作用数据的分析与应用[J];科学通报;2005年19期
9 李保华,赵美琦;梨叶抗黑星病作用机制研究[J];莱阳农学院学报;2003年03期
10 杨春霞;陈英;黄敏仁;李火根;;拟南芥逆境诱导型启动子rd29A的克隆及活性检测[J];南京林业大学学报(自然科学版);2008年01期
中国博士学位论文全文数据库 前3条
1 王学奎;氮钙光对小麦谷氨酰胺合成酶和氮同化的影响[D];华中农业大学;2000年
2 王洁;水稻白叶枯病抗性相关基因及抗病基因类似序列的克隆[D];中国农业大学;2005年
3 刘振林;甘菊BADH基因启动子的克隆及瞬时表达分析[D];北京林业大学;2006年
中国硕士学位论文全文数据库 前7条
1 李凤敏;蛋白质亚细胞定位的序列分析和理论预测算法研究[D];内蒙古大学;2004年
2 刘成;梨抗黑星病基因的AFLP分子标记[D];中国农业大学;2005年
3 唐南南;生物序列的图形表示及系统发生分析[D];大连理工大学;2006年
4 李水明;蛋白质磷酸化鉴定方法研究及HT1080细胞磷酸化蛋白质组分析[D];湖南师范大学;2007年
5 邹怡;基于数据挖掘技术的亚细胞定位点预测算法研究[D];上海交通大学;2008年
6 董星光;梨抗黑星病基因的分子标记研究[D];中国农业科学院;2009年
7 胡月;基于主成分分析和独立成分分析的人脸识别研究[D];吉林大学;2010年
【二级引证文献】
中国期刊全文数据库 前1条
1 郭丽丽;陈月辉;;基于机器学习的蛋白质亚细胞定位预测[J];信息技术与信息化;2011年05期
中国硕士学位论文全文数据库 前2条
1 郑晓洁;苹果树腐烂病预测模型研究[D];西北农林科技大学;2011年
2 杜毓博;梨黑星病拮抗菌FJ1的筛选及拮抗机理研究[D];西北大学;2012年
【相似文献】
中国期刊全文数据库 前10条
1 陈龙;朱化彬;沙里金;王栋;王宗礼;程金华;郝海生;杜卫华;;蛋白质组学数据库建设的研究进展[J];畜牧与兽医;2008年08期
2 杨彩娥;匡铁吉;;蛋白质组学研究技术及进展[J];武警医学;2007年01期
3 李昕;马利;王金甲;赵春;;特征选择(FS)算法在生物信息学中的应用[J];生物医学工程学杂志;2011年02期
4 孙青菊;焦炳华;;线粒体蛋白质组学[J];生命的化学;2008年05期
5 李虹;谢鹭;;预测和鉴定蛋白质翻译后修饰的生物信息方法[J];现代生物医学进展;2008年09期
6 孙爱华;姜颖;贺福初;;线粒体蛋白质表达谱的研究进展[J];遗传;2006年10期
7 ;《基因组研究手册》——基因组学、蛋白质组学、代谢组学、生物信息学、伦理和法律问题(翻译版)[J];科学通报;2009年10期
8 ;科学出版社新书推介(2009-03)[J];微生物学报;2009年06期
9 王英超;党源;李晓艳;王兴龙;;蛋白质组学及其技术发展[J];生物技术通讯;2010年01期
10 张根连;范术丽;宋美珍;庞朝友;喻树迅;;植物蛋白质组学技术研究进展[J];生物技术通报;2011年07期
中国重要会议论文全文数据库 前10条
1 蒋智钢;吴聪明;张万江;沈建忠;;蛋白质组学及其在细菌耐药性研究中的应用[A];中国畜牧兽医学会兽医药理毒理学分会第十次研讨会论文摘要集[C];2009年
2 葛剑徽;李成;谢迅雷;;生物信息学发展现状与前景展望[A];2008年中华临床医学工程及数字医学大会暨中华医学会医学工程学分会第九次学术年会论文集[C];2008年
3 李占潮;陈超;周喜斌;邹小勇;;基于遗传算法和支持向量机预测蛋白质结构类[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
4 果德安;;蛋白质组学技术在中药研究中的应用[A];中医药中青年科技创新与成果展示论坛论文集[C];2009年
5 果德安;;蛋白质组学技术在中药研究中的应用[A];自主创新与持续增长第十一届中国科协年会论文集(3)[C];2009年
6 王浩畅;赵铁军;刘延力;于浩;;生物医学文本中命名实体识别的智能化方法[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
7 孙瑞祥;付岩;张京芬;李德泉;王海鹏;蔡津津;王晓彪;曾嵘;贺思敏;高文;;蛋白质组质谱信息处理的关键算法研究[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
8 程国建;蔡磊;潘华贤;;核向量机在大规模机器学习中的应用[A];第十一届中国青年信息与管理学者大会论文集[C];2009年
9 王静;葛晓慧;郭红燕;熊光武;韩劲松;张璐芳;张小为;;早期和晚期卵巢癌蛋白质组学的初步研究[A];中华医学会第一届全球华人妇产科学术大会暨第三次全国妇产科中青年医师学术会议论文汇编[C];2007年
10 李占潮;周漩;戴宗;邹小勇;;基于一级结构信息预测蛋白质与蛋白质相互作用[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
中国重要报纸全文数据库 前10条
1 记者 吴月辉;蛋白质组学在美逐步形成市场[N];新华每日电讯;2001年
2 ;抓紧蛋白质组学的研究[N];中国医药报;2002年
3 黎明;科学新宠——蛋白质组学[N];医药经济报;2001年
4 前线;蛋白质组学产业正逐渐形成[N];中国经营报;2001年
5 李平平 申竹芳;蛋白质组学提速糖尿病学研究[N];中国医药报;2006年
6 麦国荣;蛋白质组学[N];中国医药报;2001年
7 王雪飞 吴志军;首建人类器官蛋白质组“蓝图”[N];健康报;2006年
8 特约记者 郝成涛 记者 于春光;为肿瘤疾病的防治研究开辟新途径[N];解放军报;2009年
9 本报特约记者 吴志军 郝成涛;为科学攀登搭建精神高地[N];解放军报;2010年
10 阳光;中科院大连化物所为蛋白质组学研究提供新方法[N];中国医药报;2007年
中国博士学位论文全文数据库 前10条
1 高青斌;蛋白质亚细胞定位预测相关问题研究[D];国防科学技术大学;2006年
2 张晓丽;几种舌苔蛋白组学初步研究[D];湖北中医学院;2008年
3 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
4 谢江;蛋白质相互作用网络的数值研究[D];上海大学;2008年
5 杜伟;机器学习及数据挖掘在生物信息学中的应用研究[D];吉林大学;2011年
6 李旭东;高恶性膀胱移行细胞癌与相应正常上皮比较蛋白质组学的初步研究[D];天津医科大学;2006年
7 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
8 陈祖云;煤与瓦斯突出前兆的非线性预测及支持向量机识别研究[D];中国矿业大学;2009年
9 晏春;基因剪接的信号序列分析和相关特征研究[D];国防科学技术大学;2006年
10 余捷凯;蛋白质质谱高通量分析平台的建立及其在消化道肿瘤中的应用性研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 詹超;支持向量机在基因表达数据分类中的研究[D];武汉理工大学;2006年
2 张海霞;蛋白质二级结构预测方法研究[D];大连理工大学;2004年
3 郑小莉;ONO-AE-248诱发中性粒细胞非凋亡性程序化死亡的蛋白质组学研究[D];泸州医学院;2006年
4 王燕;语音隐写分析技术研究[D];华北电力大学(河北);2009年
5 闵瑞隽;基于支持向量机的在全基因组范围内建立预测调控网络的研究[D];上海师范大学;2009年
6 高永岗;医学图像的语义标注技术研究与应用[D];西北大学;2009年
7 杜圣东;基于多类支持向量机的文本分类研究[D];重庆大学;2007年
8 付建文;小波域语音隐藏信息检测方法研究[D];华北电力大学(河北);2008年
9 宋羚;基于多目标遗传算法和SVM的特征选择方法[D];华中科技大学;2007年
10 马宏伟;基于SVM的中文文本分类系统的建模与实现[D];大连理工大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026