收藏本站
《东华大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于智能计算的蛋白质功能预测研究

张同亮  
【摘要】: 蛋白质是生命体赖以生存的营养要素,是细胞组织的重要组成部分。几乎所有的生物过程都与蛋白质发生某种联系。根据蛋白质序列的排列顺序和序列信息确定蛋白质的功能成为生物学研究重点。目前蛋白质序列数量的激增,急需要开发快速、准确地计算工具预测蛋白质的功能。研究蛋白质序列信息与其功能的关系也是这个领域的研究重点。本论文围绕蛋白质功能预测的几个重要方面:蛋白质亚细胞位点预测,蛋白质结构类预测和单序列蛋白质二级结构预测和蛋白质序列内功能Motif发现展开研究,目的是开发一些根据序列信息预测蛋白质功能的方法。论文的主要研究成果如下: 在蛋白质亚细胞位点预测研究中,根据Chou提出的伪氨基酸组成离散模型,提出一种改进的伪氨基酸组成模型。使用免疫遗传算法优化附加特征向量的权重。在改进的伪氨基酸组成模型框架中,使用数字信号处理技术和疏水氨基酸对模式表示序列的附加特征,应用扩大的协方差作为预测工具,预测了真核细胞12类亚细胞位点。然后提出了一种基于特征选择的集成分类器的预测方法,用于凋谢蛋白的亚细胞位点预测。使用具有不同间隔的氨基酸对组成表示序列特征,经过特征选择后形成更加有效的特征组合。集成分类器中的基本分类器为模糊K-近邻(FKNN)分类算法,Jackknife测试和独立数据集测试证明了该方法的有效性和实用性。 在蛋白质结构类预测研究中,提出了三种结构类预测的方法。第一种是基于二叉树支持向量机的方法,发展了一种新的伪氨基酸组成表示序列的特征。结合了传统的氨基酸组成,序列内氨基酸相互关系和疏水模式,使用二叉树支持向量机作为预测工具,采用标准数据集验证了方法的性能;第二种方法是基于改进的伪氨基酸组成模型的结构类预测方法。将蛋白质序列映射为短的时间序列,计算序列的近似熵,构造了一种27-D的伪氨基酸组成表示序列特征。FKNN分类算法作为预测工具,免疫遗传算法优化附加特征权重系数。在“严格”数据集测试中取得了较好的结果;第三种方法是两层模糊支持向量机网络的方法,在第一层中,基本的分类器是模糊支持向量机,输入数据是基于不同物理化学属性的伪氨基酸组成。组合第一层中各个模糊支持向量机的输出数据,作为第二层模糊支持向量机分类器的输入数据,经过决策后得到最终结果。 在蛋白质二级结构预测研究中,提出了基于最大熵概率模型的预测方法。考虑了蛋白质序列的结构类信息和目标残基的上下文环境,设计了影响残基二级结构的特征空间和特征模版。将这些特征都包含进入最大熵概率分布模型中,根据结构类不同分别训练和建立二级结构预测模型。算法中二级结构的特征信息仅来自于序列本身,没有考虑多序列排列信息。目的是解决“孤立”蛋白的二级结构预测问题。实验证明预测算法具有较高的准确率和实用性。 由于细胞核内空间狭窄和蛋白质的不稳定性,核内亚空间的蛋白质位点预测成为难点。本论文提出了基于近似熵的伪氨基酸组成方法,采用集成AdaBoost分类器作为预测工具,用于蛋白质亚核位点的预测。在两个标准数据集上的测试表明了该方法的有效性。 蛋白质家族内序列具有相似的功能,序列内的重点区域Motif也应该具有相似性。本论文提出了一种Motif发现算法,在蛋白质家族内寻找重要的Motif集合,验证序列所属的蛋白质家族。在连接酶的21个亚家族识别中,建立了一个实用的连接酶亚家族服务器。 最后,对全论文的研究内容进行了总结,指出了研究工作中存在的不足,明确了下一步的研究方向。
【学位授予单位】:东华大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:Q51-3

【参考文献】
中国期刊全文数据库 前7条
1 董启文,王晓龙,林磊,关毅,赵健;蛋白质二级结构预测:基于词条的最大熵马尔科夫方法[J];中国科学C辑:生命科学;2005年01期
2 朱骥;杨华;牛北方;郎显宇;陆忠华;迟学斌;;Motif识别算法简介及软件性能研究[J];计算机应用研究;2006年10期
3 孙海军,阮晓钢;用多模神经网络预测蛋白质二级结构[J];昆明理工大学学报(理工版);2004年05期
4 唐发明,王仲东,陈绵云;支持向量机多类分类算法研究[J];控制与决策;2005年07期
5 张松;黄波;夏学峰;孙之荣;;蛋白质亚细胞定位的生物信息学研究[J];生物化学与生物物理进展;2007年06期
6 张同亮;丁永生;;基于最大熵模型的蛋白质二级结构的预测[J];生物医学工程学杂志;2008年02期
7 王龙会,石峰;遗传神经网络及其在蛋白质二级结构预测中的应用[J];数学杂志;2002年02期
【共引文献】
中国期刊全文数据库 前10条
1 王艳春;何东健;;神经网络在蛋白质二级结构预测中的应用[J];安徽农业科学;2006年16期
2 阮晓钢,孙海军;编码方式对蛋白质二级结构预测精度的影响[J];北京工业大学学报;2005年03期
3 马栋萍,阮晓钢;基于改进BP神经网络预测蛋白质二级结构[J];北京联合大学学报(自然科学版);2005年02期
4 任力锋,张波,刘辉;蛋白质序列信息的提取与蛋白质结构预测[J];北京生物医学工程;2005年03期
5 王晓宇;闫继宏;臧希喆;秦勇;赵杰;;两轮自平衡机器人多传感器数据融合方法研究[J];传感技术学报;2007年03期
6 闫志刚;杜培军;;H-SVMs的构造方法[J];东南大学学报(自然科学版);2009年S1期
7 谢雪英,孙啸,陆祖宏;卡方检验确定背景序列模型Markov chain的阶数(英文)[J];Journal of Southeast University(English Edition);2003年04期
8 刘冰;;多类SVM分类算法的研究和改进[J];电脑知识与技术(学术交流);2007年06期
9 杨欣;沈志熙;黄席樾;詹建平;;智能车辆在城区交通场景中的多类障碍物识别[J];重庆大学学报;2009年07期
10 何琴;高建华;刘伟;;蛋白质二级结构预测的人工神经网络方法研究[J];分析科学学报;2006年04期
中国重要会议论文全文数据库 前8条
1 刁智华;母媛媛;;一种基于马氏距离的SVM决策树多类分类算法[A];中国自动化学会控制理论专业委员会B卷[C];2011年
2 孙海军;阮晓钢;;氨基酸序列编码对蛋白质二级结构预测的影响[A];第二十二届中国控制会议论文集(下)[C];2003年
3 刘新东;;基于LLE和SVM的模拟电路软故障诊断[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年
4 朱尔一;;偏最小二乘变量筛选法建立蛋白质中三联氨基酸数与二级结构数的模型[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
5 左青;段玉玺;陈立杰;朱晓峰;王媛媛;;蛋白质亚细胞定位方法在植物病理学研究中的应用[A];中国植物病理学会2011年学术年会论文集[C];2011年
6 李凤敏;李前忠;张俊萍;;基于离散增量和协变判别式识别小鼠蛋白质亚细胞定位[A];第十一次中国生物物理学术大会暨第九届全国会员代表大会摘要集[C];2009年
7 程丽丽;张健沛;杨静;马骏;;一种改进的层次SVM多类分类方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 吴泽月;陈月辉;;基于二叉树和人工神经网络的蛋白质亚细胞定位预测[A];山东计算机学会2013学术年会论文集[C];2013年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 张宁;蛋白质Beta折叠的分析与预测及生物信息工具开发[D];南开大学;2010年
3 宋国明;基于提升小波及SVM优化的模拟电路智能故障诊断方法研究[D];电子科技大学;2010年
4 马勤;原核生物中调节子的研究和预测[D];山东大学;2010年
5 于涛;蛋白质的结构特征及氯通道蛋白质的离子输运特性研究[D];武汉大学;2009年
6 顾全;基于集成智能的膜蛋白受体结构与功能研究[D];东华大学;2010年
7 李艳文;信号Pathway预测方法研究[D];吉林大学;2011年
8 张胜利;蛋白质与RNA中的若干问题研究[D];大连理工大学;2011年
9 王立鹏;特征提取及分类算法在膜蛋白分类预测问题中的应用[D];兰州理工大学;2010年
10 左永春;基于多类特征融合的基因启动子相关问题的理论研究[D];内蒙古大学;2011年
中国硕士学位论文全文数据库 前10条
1 韩聪;家蚕OCIAD2基因的克隆表达及其定位研究[D];浙江理工大学;2010年
2 史舵;基于主成分分析方法的蛋白质亚细胞定位[D];大连理工大学;2010年
3 饶裕平;基于视频的森林火灾识别方法研究[D];浙江农林大学;2010年
4 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年
5 李红伦;道路视频监控文件中对象分类方法的研究[D];昆明理工大学;2010年
6 赵振华;模体发现问题的若干算法及应用研究[D];西安电子科技大学;2009年
7 胡慧泽;基于分步查找的高效复合模式查找算法[D];西安电子科技大学;2010年
8 戈鲁宁;基于吉布斯采样的模体识别算法研究[D];西安电子科技大学;2010年
9 詹海萍;弱信号模体检测的图搜索算法[D];西安电子科技大学;2010年
10 周敬;一种有效的SDA模体发现算法[D];西安电子科技大学;2009年
【二级参考文献】
中国期刊全文数据库 前8条
1 刘宗旨,王建龙,王群,黄勋,徐卫辉,朱立煌,何平,方荣祥;水稻Osgrp-2基因的结构、表达特性和染色体定位[J];中国科学(C辑:生命科学);2003年03期
2 颜宏利,宋云龙,刘凡,贺艳,孙树汉;膜联蛋白AnxB1的同源模建及降低免疫原性研究[J];中国科学C辑:生命科学;2004年01期
3 程凌鹏,陈森雄,Jenifer Brannan,Joanita Jakana,张勤奋,周正洪,张景强;伊蚊C6/36细胞浓核病毒蛋白衣壳三维结构的测定[J];中国科学C辑:生命科学;2004年01期
4 周鹏,谢明勇,聂少平,王小如;茶多糖TGC的结构表征[J];中国科学(C辑:生命科学);2004年02期
5 马笑潇,黄席樾,柴毅;基于SVM的二叉树多类分类算法及其在故障诊断中的应用[J];控制与决策;2003年03期
6 王龙会,石峰;遗传神经网络及其在蛋白质二级结构预测中的应用[J];数学杂志;2002年02期
7 李春好,李立辉,杨印生;人工神经网络BP算法的数据处理方法及应用[J];系统工程理论与实践;1997年07期
8 方慧生,相秉仁,安登魁;改进Madaline学习算法预测蛋白质二级结构[J];中国药科大学学报;1996年06期
【相似文献】
中国期刊全文数据库 前10条
1 刘秀艳,滕胜;应用计算机识别蛋白质功能[J];生命的化学;2000年03期
2 曾岚,徐晋麟,李亦学,石铁流;大规模蛋白质功能预测方法的进展[J];生命的化学;2005年01期
3 卢宏超;石秋艳;石宝晨;张治华;赵屹;唐素勤;熊磊;王强;陈润生;;基于蛋白质网络功能模块的蛋白质功能预测[J];生物化学与生物物理进展;2006年05期
4 王繁业;李亚非;;用于新药开发的新的蛋白质功能预测方法[J];化学与生物工程;2006年09期
5 王秀鹤;王正华;王勇献;张振慧;;基于分组重量编码的蛋白质功能预测[J];生物信息学;2007年01期
6 倪青山;王正志;黎刚果;孟祥林;;基于K近邻的蛋白质功能的预测方法[J];生物医学工程研究;2009年02期
7 蒋英芝;贺连华;刘建军;;蛋白质功能研究方法及技术[J];生物技术通报;2009年09期
8 胡敏菁;吴建盛;施识帆;刘宏德;孙啸;;面向蛋白质功能位点识别的机器学习平台构建[J];生物信息学;2010年01期
9 赵研;卢奕南;权勇;;基于模糊积分多源数据融合的蛋白质功能预测[J];南京大学学报(自然科学版);2012年01期
10 吴建盛;;基于新型机器学习方法的蛋白质功能预测与分析[J];信息通信;2012年05期
中国重要会议论文全文数据库 前10条
1 卢乃浩;张燕;李海玲;高中洪;;蛋白质酪氨酸硝化修饰对蛋白质功能影响及抗氧化剂的作用[A];第六届全国化学生物学学术会议论文摘要集[C];2009年
2 郭延芝;李梦龙;;蛋白质功能预测中的特征筛选与优化[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
3 汪世华;;蛋白质芯片用于快速检测的研究[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
4 王靖;李霞;高磊;朱明珠;杨德武;;蛋白质功能位点和结构域与人类蛋白质互作关联分析[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
5 郭延芝;文志宁;李梦龙;;基于序列信息的蛋白质功能预测[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
6 刘克良;梁远军;;肽类药物研究进展[A];2006第六届中国药学会学术年会大会报告集[C];2006年
7 刘俊峰;王新泉;王占新;安晓敏;常文瑞;梁栋材;;造血干细胞中特异表达新基因kd93的重组表达和晶体结构研究[A];中国科协2005年学术年会生物物理与重大疾病分会论文摘要集[C];2005年
8 常珊;李春华;龚新奇;陈慰祖;王存新;;蛋白质不同区域的氨基酸保守性网络分析[A];第十次中国生物物理学术大会论文摘要集[C];2006年
9 张长胜;来鲁华;;基于关键相互作用的蛋白质功能设计[A];第五届全国化学生物学学术会议论文摘要集[C];2007年
10 李亦学;;蛋白质组功能注释[A];中国蛋白质组学第二届学术大会论文摘要论文集[C];2004年
中国重要报纸全文数据库 前4条
1 记者 耿挺;蛋白质功能算出来[N];上海科技报;2007年
2 刘云涛;北大蛋白质功能设计研究获新进展[N];中国医药报;2007年
3 记者 吴仲国;日首次公开招募研究人员[N];科技日报;2001年
4 华琳 王治强;我校三项“973”项目通过科技部验收[N];新清华;2005年
中国博士学位论文全文数据库 前8条
1 孙承磊;基于数据挖掘技术的蛋白质功能预测研究[D];上海大学;2013年
2 窦永超;预测蛋白质功能位点的几种新数学模型[D];大连理工大学;2011年
3 施绍萍;基于支持向量机的蛋白质功能预测新方法研究[D];南昌大学;2012年
4 俞晓晶;基于蛋白质序列和生物医学文献的蛋白质功能挖掘[D];中国科学院研究生院(上海生命科学研究院);2006年
5 张同亮;基于智能计算的蛋白质功能预测研究[D];东华大学;2008年
6 马志强;蛋白质功能预测的非同源性计算方法研究[D];吉林大学;2009年
7 陈义明;基于分类的蛋白质功能预测技术研究[D];国防科学技术大学;2010年
8 张拓;两种特殊类型蛋白质功能残基的预测与生物序列比对[D];南开大学;2009年
中国硕士学位论文全文数据库 前10条
1 王博;基于频繁功能模式的蛋白质功能预测[D];吉林大学;2012年
2 赵研;模糊积分在蛋白质功能预测上的应用[D];吉林大学;2012年
3 李希;基于序列特征的蛋白质功能类预测方法研究[D];湖南大学;2010年
4 王秀鹤;基于序列和相互作用的蛋白质功能预测[D];国防科学技术大学;2006年
5 邓小龙;基于随机游走的蛋白质功能预测方法的研究[D];吉林大学;2012年
6 刘昊;基于聚类算法和相互作用网络的蛋白质功能预测研究[D];湖南大学;2009年
7 贾元丰;基于复杂网络社团结构与贝叶斯网络模型的蛋白质功能预测[D];山西大学;2013年
8 黄丹梅;多分类器系统在蛋白质功能预测方面的应用[D];吉林大学;2010年
9 蔡娟;基于蛋白质相互作用网络及聚类算法的蛋白质功能预测方法研究[D];中南大学;2012年
10 黄淑云;基于序列的蛋白质功能预测研究[D];南昌大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026