收藏本站
《东华大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于智能计算的蛋白质功能预测研究

张同亮  
【摘要】: 蛋白质是生命体赖以生存的营养要素,是细胞组织的重要组成部分。几乎所有的生物过程都与蛋白质发生某种联系。根据蛋白质序列的排列顺序和序列信息确定蛋白质的功能成为生物学研究重点。目前蛋白质序列数量的激增,急需要开发快速、准确地计算工具预测蛋白质的功能。研究蛋白质序列信息与其功能的关系也是这个领域的研究重点。本论文围绕蛋白质功能预测的几个重要方面:蛋白质亚细胞位点预测,蛋白质结构类预测和单序列蛋白质二级结构预测和蛋白质序列内功能Motif发现展开研究,目的是开发一些根据序列信息预测蛋白质功能的方法。论文的主要研究成果如下: 在蛋白质亚细胞位点预测研究中,根据Chou提出的伪氨基酸组成离散模型,提出一种改进的伪氨基酸组成模型。使用免疫遗传算法优化附加特征向量的权重。在改进的伪氨基酸组成模型框架中,使用数字信号处理技术和疏水氨基酸对模式表示序列的附加特征,应用扩大的协方差作为预测工具,预测了真核细胞12类亚细胞位点。然后提出了一种基于特征选择的集成分类器的预测方法,用于凋谢蛋白的亚细胞位点预测。使用具有不同间隔的氨基酸对组成表示序列特征,经过特征选择后形成更加有效的特征组合。集成分类器中的基本分类器为模糊K-近邻(FKNN)分类算法,Jackknife测试和独立数据集测试证明了该方法的有效性和实用性。 在蛋白质结构类预测研究中,提出了三种结构类预测的方法。第一种是基于二叉树支持向量机的方法,发展了一种新的伪氨基酸组成表示序列的特征。结合了传统的氨基酸组成,序列内氨基酸相互关系和疏水模式,使用二叉树支持向量机作为预测工具,采用标准数据集验证了方法的性能;第二种方法是基于改进的伪氨基酸组成模型的结构类预测方法。将蛋白质序列映射为短的时间序列,计算序列的近似熵,构造了一种27-D的伪氨基酸组成表示序列特征。FKNN分类算法作为预测工具,免疫遗传算法优化附加特征权重系数。在“严格”数据集测试中取得了较好的结果;第三种方法是两层模糊支持向量机网络的方法,在第一层中,基本的分类器是模糊支持向量机,输入数据是基于不同物理化学属性的伪氨基酸组成。组合第一层中各个模糊支持向量机的输出数据,作为第二层模糊支持向量机分类器的输入数据,经过决策后得到最终结果。 在蛋白质二级结构预测研究中,提出了基于最大熵概率模型的预测方法。考虑了蛋白质序列的结构类信息和目标残基的上下文环境,设计了影响残基二级结构的特征空间和特征模版。将这些特征都包含进入最大熵概率分布模型中,根据结构类不同分别训练和建立二级结构预测模型。算法中二级结构的特征信息仅来自于序列本身,没有考虑多序列排列信息。目的是解决“孤立”蛋白的二级结构预测问题。实验证明预测算法具有较高的准确率和实用性。 由于细胞核内空间狭窄和蛋白质的不稳定性,核内亚空间的蛋白质位点预测成为难点。本论文提出了基于近似熵的伪氨基酸组成方法,采用集成AdaBoost分类器作为预测工具,用于蛋白质亚核位点的预测。在两个标准数据集上的测试表明了该方法的有效性。 蛋白质家族内序列具有相似的功能,序列内的重点区域Motif也应该具有相似性。本论文提出了一种Motif发现算法,在蛋白质家族内寻找重要的Motif集合,验证序列所属的蛋白质家族。在连接酶的21个亚家族识别中,建立了一个实用的连接酶亚家族服务器。 最后,对全论文的研究内容进行了总结,指出了研究工作中存在的不足,明确了下一步的研究方向。
【关键词】:蛋白质功能预测 亚细胞定位 蛋白质结构类 二级结构 模糊K近邻算法 模糊支持向量机 集成分类算法 Motif发现
【学位授予单位】:东华大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:Q51-3
【目录】:
  • 摘要5-7
  • ABSTRACT7-10
  • 目录10-14
  • 第一章 绪论14-26
  • 1.1 研究背景及意义14-17
  • 1.2 国内外的研究现状17-22
  • 1.2.1 蛋白质亚细胞定位研究18-19
  • 1.2.2 蛋白质结构类和折叠类型预测研究19-20
  • 1.2.3 蛋白质二级结构预测研究20-22
  • 1.3 论文的研究内容和创新点22-23
  • 1.4 论文的章节安排23-26
  • 第二章 蛋白质亚细胞定位预测算法的研究26-46
  • 2.1 引言26-27
  • 2.2 改进的伪氨基酸组成模型27-30
  • 2.2.1 伪氨基酸组成离散模型27-28
  • 2.2.2 改进的伪氨基酸组成模型28-30
  • 2.3 真核细胞蛋白质亚细胞定位预测30-37
  • 2.3.1 蛋白质序列表示方法31-33
  • 2.3.2 扩大的协方差判别式算法33
  • 2.3.3 测试数据集33-34
  • 2.3.4 性能评价标准34-35
  • 2.3.5 结果与讨论35-37
  • 2.4 凋谢蛋白亚细胞定位预测研究37-45
  • 2.4.1 背景介绍37-38
  • 2.4.2 材料和方法38-43
  • 2.4.3 结果与讨论43-45
  • 2.5 小结45-46
  • 第三章 基于伪氨基酸组成的蛋白质结构类预测算法的研究46-64
  • 3.1 引言46
  • 3.2 背景及相关工作46-48
  • 3.3 基于二叉树支持向量机的结构类预测方法48-56
  • 3.3.1 序列特征表示48-49
  • 3.3.2 支持向量机原理49-51
  • 3.3.3 二叉树支持向量机51-52
  • 3.3.4 数据集和评价方法52-53
  • 3.3.5 结果与讨论53-56
  • 3.4 基于近似熵的蛋白质结构类预测方法56-62
  • 3.4.1 测试数据集57
  • 3.4.2 预测方法57-58
  • 3.4.3 近似熵原理与计算方法58-59
  • 3.4.4 结果与讨论59-62
  • 3.5 小结62-64
  • 第四章 基于模糊支持向量机网络的蛋白质结构类预测研究64-70
  • 4.1 引言64
  • 4.2 材料和方法64-67
  • 4.2.1 模糊支持向量机64-65
  • 4.2.2 模糊支持向量机网络65-66
  • 4.2.3 蛋白质序列表示66-67
  • 4.3 结果与讨论67-69
  • 4.4 小结69-70
  • 第五章 不同结构类蛋白质二级结构预测算法的研究70-86
  • 5.1 引言70-71
  • 5.2 背景及相关工作71-73
  • 5.3 最大熵模型原理73-74
  • 5.4 材料和方法74-82
  • 5.4.1 数据集74-76
  • 5.4.2 蛋白质二级结构预测模型的建立76-77
  • 5.4.3 特征空间77-80
  • 5.4.4 特征模版80-81
  • 5.4.5 算法性能评价81-82
  • 5.5 结果与分析82-85
  • 5.6 小结85-86
  • 第六章 基于集成分类算法的蛋白质亚核定位研究86-94
  • 6.1 引言86
  • 6.2 研究背景86-87
  • 6.3 材料和方法87-90
  • 6.3.1 数据集87
  • 6.3.2 蛋白质序列表示87-88
  • 6.3.3 集成分类预测系统88-89
  • 6.3.4 AdaBoost算法89-90
  • 6.4 结果与讨论90-93
  • 6.5 小结93-94
  • 第七章 蛋白质序列Motif发现算法的研究94-112
  • 7.1 引言94-95
  • 7.2 背景及相关工作95-96
  • 7.3 蛋白质序列Motif发现算法96-101
  • 7.3.1 特征选择97-98
  • 7.3.2 模体连接98-100
  • 7.3.3 模体产生100-101
  • 7.3.4 蛋白质序列家族识别101
  • 7.4 Motif发现算法在连接酶的亚家族识别上的应用101-109
  • 7.4.1 数据集102-103
  • 7.4.2 结果与讨论103-108
  • 7.4.3 接连酶亚家族类型预测服务器108-109
  • 7.5 小结109-112
  • 第八章 总结与展望112-116
  • 8.1 总结112-114
  • 8.2 展望114-116
  • 参考文献116-134
  • 附录134-137
  • 附录A 攻读博士学位期间完成的论文134-136
  • 附录B 攻读博士学位期间所参与的项目136-137
  • 附录C 攻读博士学位期间获得的奖励和荣誉称号137

【参考文献】
中国期刊全文数据库 前4条
1 董启文,王晓龙,林磊,关毅,赵健;蛋白质二级结构预测:基于词条的最大熵马尔科夫方法[J];中国科学C辑;2005年01期
2 唐发明,王仲东,陈绵云;支持向量机多类分类算法研究[J];控制与决策;2005年07期
3 孙海军,阮晓钢;用多模神经网络预测蛋白质二级结构[J];昆明理工大学学报(理工版);2004年05期
4 王龙会,石峰;遗传神经网络及其在蛋白质二级结构预测中的应用[J];数学杂志;2002年02期
【共引文献】
中国期刊全文数据库 前7条
1 王艳春;何东健;;神经网络在蛋白质二级结构预测中的应用[J];安徽农业科学;2006年16期
2 阮晓钢,孙海军;编码方式对蛋白质二级结构预测精度的影响[J];北京工业大学学报;2005年03期
3 马栋萍,阮晓钢;基于改进BP神经网络预测蛋白质二级结构[J];北京联合大学学报;2005年02期
4 任力锋,张波,刘辉;蛋白质序列信息的提取与蛋白质结构预测[J];北京生物医学工程;2005年03期
5 何琴;高建华;刘伟;;蛋白质二级结构预测的人工神经网络方法研究[J];分析科学学报;2006年04期
6 孙海军,阮晓钢;用多模神经网络预测蛋白质二级结构[J];昆明理工大学学报(理工版);2004年05期
7 史晓红;王燕;刘文斌;殷志祥;;现代优化计算方法在蛋白质结构预测中的应用[J];数学的实践与认识;2006年10期
中国重要会议论文全文数据库 前3条
1 孙海军;阮晓钢;;氨基酸序列编码对蛋白质二级结构预测的影响[A];第二十二届中国控制会议论文集(下)[C];2003年
2 朱尔一;;偏最小二乘变量筛选法建立蛋白质中三联氨基酸数与二级结构数的模型[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
3 程丽丽;张健沛;杨静;马骏;;一种改进的层次SVM多类分类方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 李冬冬;基因组序列标注的算法与理论研究[D];国防科学技术大学;2004年
2 肖绚;基于粗粒化元胞自动机在生物序列与动力学的模型研究[D];东华大学;2006年
3 俞晓晶;基于蛋白质序列和生物医学文献的蛋白质功能挖掘[D];中国科学院研究生院(上海生命科学研究院);2006年
4 陈世哲;微电子产品视觉检测中关键技术研究[D];哈尔滨工业大学;2006年
5 王钦军;高/多光谱遥感目标识别算法及其在岩性目标提取中的应用[D];中国科学院研究生院(遥感应用研究所);2006年
6 毛军军;基于商空间粒度理论的商分形模型及其应用[D];安徽大学;2006年
7 宋杰;仿生计算在生物信息学中的应用[D];安徽大学;2006年
8 文志宁;信号处理方法在波谱分析及生物信息学中的应用研究[D];四川大学;2006年
9 杜耀华;基因组转录调控元件的特征分析与识别算法研究[D];国防科学技术大学;2006年
10 高青斌;蛋白质亚细胞定位预测相关问题研究[D];国防科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 何伟;使用随机投影技术发现生物序列特征的算法[D];郑州大学;2002年
2 孙海军;基于神经网络的蛋白质二级结构预测问题的研究[D];北京工业大学;2004年
3 江山;基于生物信息学方法研究生物电磁学机理[D];电子科技大学;2004年
4 高芸;基于基因本体论的生物信息个人数据库与其在蛋白质亚细胞定位预测研究中的应用[D];东华大学;2005年
5 张洪福;对PCR引物设计问题的研究[D];山东大学;2005年
6 何琴;人工神经网络方法在分析化学中的应用研究[D];郑州大学;2005年
7 陆克中;基于机器学习的多聚脯氨酸二型结构预测[D];江南大学;2005年
8 陈卫峰;蛋白质结构预测及其方法研究[D];武汉大学;2005年
9 王辉;基于核主成分分析特征提取及支持向量机的人脸识别应用研究[D];合肥工业大学;2006年
10 朱笑花;马铃薯生物信息研究平台的开发[D];昆明理工大学;2006年
【二级参考文献】
中国期刊全文数据库 前6条
1 颜宏利,宋云龙,刘凡,贺艳,孙树汉;膜联蛋白AnxB1的同源模建及降低免疫原性研究[J];中国科学C辑;2004年01期
2 程凌鹏,陈森雄,Jenifer Brannan,Joanita Jakana,张勤奋,周正洪,张景强;伊蚊C6/36细胞浓核病毒蛋白衣壳三维结构的测定[J];中国科学C辑;2004年01期
3 周鹏,谢明勇,聂少平,王小如;茶多糖TGC的结构表征[J];中国科学C辑;2004年02期
4 马笑潇,黄席樾,柴毅;基于SVM的二叉树多类分类算法及其在故障诊断中的应用[J];控制与决策;2003年03期
5 王龙会,石峰;遗传神经网络及其在蛋白质二级结构预测中的应用[J];数学杂志;2002年02期
6 李春好,李立辉,杨印生;人工神经网络BP算法的数据处理方法及应用[J];系统工程理论与实践;1997年07期
【相似文献】
中国期刊全文数据库 前10条
1 孙林光;银巍;黄奕俊;程文芳;苏兴文;邱鹏新;颜光美;;大鼠神经元Arnt2亚细胞定位的预测与分析[J];中国病理生理杂志;2006年07期
2 丁小凤;胡 翔;张健;;GAS41蛋白的表达、抗体制备及其亚细胞定位[J];激光生物学报;2005年06期
3 张春岩;蔡青;于顺;徐群渊;陈彪;杨慧;;α-突触核蛋白在正常大鼠脑神经元中的亚细胞定位[J];解剖学报;2006年03期
4 刘巅;李娅;李连强;朱飞;;异戊烯基焦磷酸(IPP)异构酶的生物信息学分析[J];安徽农业科学;2007年20期
5 黄妤;张学文;;生长素结合蛋白ABP1研究进展[J];安徽农业科学;2007年29期
6 夏宗良;王美平;刘全军;王道文;;大麦黄矮病毒GAV株系ORF4基因在杆状病毒-昆虫细胞系统中的表达及亚细胞定位[J];生物工程学报;2007年06期
7 姚峰;周军媚;王佐;危当恒;姜志胜;刘录山;吴端生;;SDF-1α基因与绿色荧光蛋白融合载体的构建及亚细胞定位[J];中国比较医学杂志;2008年03期
8 罗畅;丁小凤;孙一兵;韩梅;;EPS8蛋白的表达、多克隆抗体制备及其亚细胞定位[J];湖南师范大学自然科学学报;2008年02期
9 马立安;江涛;张忠明;;拟南芥Ran小GTP结合蛋白在细胞有丝分裂中的定位[J];华中农业大学学报;2008年06期
10 段瑞军;符少萍;郭建春;;海马齿SRTG152-I基因表达产物的亚细胞定位[J];热带作物学报;2011年04期
中国重要会议论文全文数据库 前10条
1 ;石斑鱼死亡调节相关基因GRIM-19的克隆和亚细胞定位分析[A];2010年中国水产学会学术年会论文摘要集[C];2011年
2 王韻;周新;汪炳华;陈丽达;曹金秀;;MM-LDL对内皮细胞cPLA_2活性、表达及亚细胞定位的影响[A];湖北省暨武汉生物化学与分子生物学学会第八届会员代表大会和第十五次学术年会论文摘要汇编[C];2004年
3 周建华;曹慧秋;文继舫;邓征浩;屈晓辉;姜昕;;FGF-2调控肺癌细胞Survivin的表达及Smac亚细胞定位的机制[A];中华医学会病理学分会2006年学术年会论文汇编[C];2006年
4 刘金花;伍欣星;;人乳头瘤病毒16型变异株E7蛋白在HeLa细胞中的表达及其亚细胞定位[A];湖北省暨武汉市生物化学与分子生物学学会第八届第十七次学术年会论文汇编[C];2007年
5 张晓艳;唐娟;应航宇;李红艳;尤立平;蔓小红;陈扬鑫;;FoxO亚类的亚细胞定位及表达与银屑病表皮增殖的关系[A];中华医学会第16次全国皮肤性病学术年会摘要集[C];2010年
6 王晓杜;陈培君;沈阳;马志永;;猪流感病毒聚合酶PB1蛋白亚细胞定位的研究[A];中国畜牧兽医学会家畜传染病学分会第七届全国会员代表大会暨第十三次学术研讨会论文集(上册)[C];2009年
7 袁二燕;张洁;吕宗舜;陈平;林烈;汤国庆;;CPD1、CPD2和MB在人胃腺癌SGC-7901细胞的亚细胞定位及其介导的光动力对细胞的杀伤效应研究[A];中华医学会第12次全国内科学术会议论文汇编[C];2009年
8 陈剑清;盖其静;张耀洲;;全反式维甲酸(ATRA)对BmNIF31蛋白亚细胞定位的影响[A];华东六省一市生物化学与分子生物学会2008年学术交流会论文摘要汇编[C];2008年
9 江艳;童富淡;张耀洲;;家蚕BmCycH蛋白的相关研究[A];华东六省一市生物化学与分子生物学会2009年学术交流会论文摘要汇编[C];2009年
10 马良;张耀洲;;家蚕中BmIBP基因的表达分析和亚细胞定位[A];华东六省一市生物化学与分子生物学会2009年学术交流会论文摘要汇编[C];2009年
中国重要报纸全文数据库 前2条
1 张学全;克隆人类全长功能基因获突破[N];中国高新技术产业导报;2004年
2 本报记者 齐冰;破解蛋白质秘密已经开始 [N];健康时报;2004年
中国博士学位论文全文数据库 前10条
1 张付云;壳寡糖诱导烟草抗性相关基因的克隆和鉴定[D];中国科学院研究生院(大连化学物理研究所);2007年
2 梅素玉;基于机器学习的蛋白亚细胞定位预测[D];复旦大学;2010年
3 张同亮;基于智能计算的蛋白质功能预测研究[D];东华大学;2008年
4 邱荣元;P21亚细胞定位改变对HepG2细胞增殖和凋亡的影响[D];华中科技大学;2010年
5 孙燕;人ZNF268基因在早期胚胎发育中的特性和功能研究[D];武汉大学;2003年
6 肖海华;苹果属山定子Mb.nramp1基因克隆及其功能的初步研究[D];中国农业大学;2005年
7 刘永忠;ASB-8基因的克隆及其生物学功能研究[D];复旦大学;2003年
8 祁碧菽;水稻Ca~(2+)/H~+反向转运体OsCAX3的功能、表达特性及调控序列研究[D];中国农业大学;2005年
9 王志峰;成对盒基因Pax9的亚细胞定位及对细胞生物学行为的调控研究[D];武汉大学;2005年
10 熊文碧;HMGN2的亚细胞定位及其重组免疫毒素的研究[D];四川大学;2005年
中国硕士学位论文全文数据库 前10条
1 高永娟;人类基因CREB4的功能初步研究[D];华东师范大学;2005年
2 汤雪燕;绿色荧光蛋白融合表达法研究黄瓜α-半乳糖苷酶亚细胞定位[D];扬州大学;2009年
3 何昆;eIF-5A基因钓取、蛋白质表达、抗体制备及其功能的初步研究[D];中国人民解放军军事医学科学院;2003年
4 刘曼;利用GFP标记对胞外钙调素定位的研究[D];河北师范大学;2003年
5 齐兴云;盐芥ThTRXh蛋白的亚细胞定位及AtTRXh突变体的表型分析[D];山东师范大学;2006年
6 王翔;XIAP与XAF1在正常口腔黏膜角质形成细胞和Tca8113细胞中的表达与定位[D];吉林大学;2006年
7 周妮;LP4/2A融合基因在玉米中的亚细胞定位分析[D];中国农业科学院;2011年
8 高芸;基于基因本体论的生物信息个人数据库与其在蛋白质亚细胞定位预测研究中的应用[D];东华大学;2005年
9 王秋霞;盐芥和拟南芥硫氧还蛋白在氧化胁迫中的功能研究[D];山东师范大学;2008年
10 杨文竹;转植酸酶基因玉米中植酸酶的亚细胞定位[D];中国农业科学院;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026