收藏本站
《重庆大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

蛋白质超二级结构预测研究

邹东升  
【摘要】: 后基因组时代生命科学中最重大的研究课题之一是蛋白质组研究,蛋白质结构预测正是蛋白质组研究中一个富有挑战性的研究课题,其研究不仅对于理解蛋白质空间折叠机制与蛋白质功能具有理论价值,更对生物制药、农业生物科技等应用领域具有直接的指导作用。蛋白质的三维空间结构与其功能紧密相关,而超二级结构正是构成三维结构的基本单元。从蛋白质一级结构直接预测三维空间结构非常困难,蛋白质二级结构及超二级结构正是两者直接之间的重要桥梁,因此超二级结构的预测有着重要的研究意义。 现有的许多研究主要是针对蛋白质二级结构预测,超二级结构预测的相关研究还比较少。作为超二结构预测的基础和前提,二级结构预测是不可缺少的环节。氨基酸的编码方式对蛋白质二级结构预测精度有重要影响,因此有必要对氨基酸编码方式进行分析比较,为二级结构预测编码方式的选择提供直接依据;目前较少的超二级结构预测研究在特征表达上有缺陷,仅仅考虑氨基酸基本组成成份,特征信息表达不完整;同时在超二级结构分类方法上也有待进一步探索。 本文应用机器学习技术对蛋白质超二级结构预测问题进行深入研究:本文首先对二级结构预测的氨基酸编码问题进行研究;然后对蛋白质结构中频繁出现的一种特殊超二级结构(β发夹)进行预测研究;最后将特殊超二级结构研究进一步推广到一般超二级结构的预测研究。论文取得的主要成果与创新工作概括如下: ①研究分析了不同的氨基酸编码方式对使用支持向量机进行蛋白质二级结构预测精度的影响。蛋白质二级结构预测采用何种氨基酸编码方式会对预测精度有很大影响。选择具有较好的分类能力的支持向量机进行蛋白质二级结构预测。建立二级结构预测模型,分析比较正交编码、5位编码、Codon编码(基本)、Codon编码(扩展)和Profile编码等5种氨基酸编码方案以及不同的支持向量机核函数对二级结构预测精度的影响。实验数据表明:使用支持向量机进行蛋白质二级结构预测时,经过多重序列比对、包含更多生物进化信息的Profile编码方式的预测精度明显优于其他4种编码方式。 ②提出一种新的β发夹特征表达方法。用离散量及离散增量表征蛋白质β-β模体的信息。用氨基酸基本组成成份,二肽成份以及氨基酸组成分布三种方式表达β-β模体特征。每个β-β模体表达成一个18维的特征向量,用作分类器的输入。实验数据集选择ArchDB40数据库(3088个蛋白质)、Kumar数据库(2088个蛋白质)、CASP6数据集(63个蛋白质)。将支持向量机用于β发夹的预测分类器,取得了较高的预测精度。 ③使用提出的β发夹特征表达方法,首次将离散增量结合二次判别分析方法用于β发夹的预测。在ArchDB40数据集、Kumar数据集、CASP6数据集上均取得较高的的预测精度。上述工作充分说明:本文提出的新的β发夹特征表达方法是有效的。 ④将特殊超二级结构特征表达策略进一步推广到一般超二级结构特征表达。用离散量及离散增量表达一般超二级结构序列的表征信息。用氨基酸基本组成成份,二肽成份以及氨基酸组成分布三种方式表达一般超二级结构特征。每个超二级结构序列表达成一个36维的特征向量,用作分类器的输入。实验数据集选择ArchDB40数据库中9180个β–β模体、5737个β–α模体、6378个α–β模体、4176个α–α模体。将支持向量机用于超二级结构的预测,在训练集及独立测试集均取得较高的预测精度。 ⑤首次将二次判别分析方法用于一般超二级结构的预测。使用相同的数据集,在训练集及独立测试集上均获得较高的预测精度。上述工作充分说明:特殊超二级结构特征表达策略进一步推广到一般超二级结构特征表达是有效的。
【学位授予单位】:重庆大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:Q51

【相似文献】
中国重要会议论文全文数据库 前5条
1 胡海宇;向俊峰;陈传峰;;菲咯啉二酰胺体系中二级与超二级结构转化[A];全国第十四届大环化学暨第六届超分子化学学术讨论会论文专辑[C];2008年
2 李彩艳;胡秀珍;;蛋白质中两种Strand-Loop-Strand模体的判断[A];第十次中国生物物理学术大会论文摘要集[C];2006年
3 沙印林;黄永亮;王琦;来鲁华;;具有β发夹结构的线性短肽[A];生命科学与生物技术:中国科协第三届青年学术年会论文集[C];1998年
4 胡海宇;向俊峰;陈传峰;;人工模拟EF-hand Motif[A];全国第十四届大环化学暨第六届超分子化学学术讨论会论文专辑[C];2008年
5 王斌;;感染与退行性疾病:蛋白质构象改变在发病机制中的作用[A];新观点新学说学术沙龙文集43:传染病的遗传易感性[C];2010年
中国博士学位论文全文数据库 前3条
1 邹东升;蛋白质超二级结构预测研究[D];重庆大学;2009年
2 胡秀珍;蛋白质的β-发夹、β(γ)-转角及四类简单超二级结构预测[D];内蒙古大学;2007年
3 徐海松;蛋白质序列中的折叠和去折叠信息[D];北京工业大学;2011年
中国硕士学位论文全文数据库 前5条
1 王伟;基于有限状态机的分子生物学系统建模研究[D];山东大学;2010年
2 李彩艳;蛋白质超二级结构库的建立及其序列统计分析[D];内蒙古工业大学;2007年
3 杨磊;蛋白质相互作用预测方法的研究与蛋白质超二级预测系统的开发[D];中国科学技术大学;2010年
4 高鹏;贻贝抗菌肽的分子设计、结构与功能研究[D];浙江工业大学;2010年
5 张静;基于刚体动力学模型对多肽折叠的分子动力学模拟[D];辽宁师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026