收藏本站
《南开大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

两种特殊类型蛋白质功能残基的预测与生物序列比对

张拓  
【摘要】: 生物信息学对制约生物学发展的诸多问题的探索性研究和得出的具有指导意义的研究成果,受到了生物学、信息学及其相关学科的高度关注,同时也促进了生物信息学自身的快速发展。目前,生物信息学的基本框架已经构建,其着力解决的科学问题也更加清晰、明确。但从学科自身发展的逻辑严密和求解复杂问题的实际效果思考,生物信息学尚有许多工作要做,有些方法需要进一步完善、有些方法则需要设计、开发和创建。 本文的主要结果由以下三部分组成: 第一部分:推广了SPA算法,使之适用于一般罚分(或得分)矩阵,并做出了数学证明。推广后的SPA算法有了更广的应用范围,可以根据实际问题的需要来调整打分矩阵,进而得到需要的比对结果。这就缓解了使用Hamming矩阵时经常出现的最优比对不唯一的问题,为设计基于SPA的多重序列比对算法打下了基础。 第二部分:设计了基于序列的蛋白质功能残基的预测方法,实现了蛋白质功能残基的大规模快速预测,为蛋白质功能实现的机理研究提供参考与指导。预测的结果可用于蛋白质功能残基实验测定的初步筛选,大大地节省了时间、人力和物力,提高了工作效率。使用特征选择算法对设计的特征进行筛选,减少了输入的特征维数,提高了预测的速度;还可以从选中的特征中总结出一些有意义的生物结论。 (1)开发了基于序列的预测酶催化残基的方法CRpred。CRpred的预测精度超过了现有的基于序列的预测方法,且与当前的基于结构的预测方法的预测精度相当。对选中特征的分析表明:一些氨基酸(His,Cys,Asp,Arg,Glu,Tyr)有着较高的催化倾向性;而另外一些氨基酸(Val,Ala,Ile,Pro,Leu,Met)则不容易成为催化残基;甘氨酸(Gly)能够为催化部位提供柔韧性;残基的保守性之于预测催化残基至关重要,催化残基通常比一般的残基更保守,对催化倾向性较高的氨基酸保守的残基更有可能成为催化残基;催化残基与特定的序列模式,如CysXXCys,AspXLysXXAsn等相关联;虽然催化残基偏爱一个相对疏水的大环境,但在局部范围内,它们通常被一些亲水残基包围。 (2)采用基于原子间距离的定义方式定义RNA绑定残基,设计了基于序列的预测蛋白质的RNA绑定残基的方法RBRpred。相对已有的基于序列的预测方法,RBRpred的预测精度有了提升。通过特征选择得到以下结论:侧链带正电的精氨酸(Arg)和赖氨酸(Lys),容易与带负电的RNA的磷酸基团相互吸引,结合形成稳定结构;甘氨酸(Gly)相对其他的氨基酸体积较小,可以增加RNA绑定部位的柔韧性:侧链带负电的谷氨酸(Glu),以及疏水的亮氨酸(Leu)、缬氨酸(Val)、丙氨酸(Ala)和苯丙氨酸(Phe)不容易出现在RNA绑定部位。序列保守性对蛋白质的RNA绑定残基的预测非常重要。在三种二级结构中,Coil结构的残基,尤其是在较长Coil片段中的残基有着更好的柔韧性,容易与RNA分子发生相互作用:而Helix结构则相反,结构比较稳固,位于其中的残基较难成为RNA绑定残基。相对溶剂可及面积较大的残基更有可能成为RNA绑定残基。 第三部分:将广义纠错码应用于DNA计算。针对DNA计算中可能出现的突变误差问题,设计了一个可自动纠错的DNA操作系统。提出了解决DNA计算中突变误差纠正问题的一种方案。
【关键词】:一般打分矩阵下的快速比对算法 蛋白质功能残基的预测 催化残基 RNA绑定残基 DNA计算中的纠错码方法
【学位授予单位】:南开大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:Q51
【目录】:
  • 摘要3-5
  • Abstract5-8
  • 主要创新点8-9
  • 前言9-16
  • 第一章 引言16-22
  • 1.1 生物信息学概述16
  • 1.2 生物信息学的研究内容及现状16-19
  • 1.3 论文要解决的问题19-20
  • 1.4 论文的主要成果与应用20-22
  • 第二章 二重序列比对与SPA算法22-32
  • 2.1 序列比对简介22-26
  • 2.1.1 序列比对的意义与应用22-23
  • 2.1.2 突变的类型23-24
  • 2.1.3 序列比对的方法与类型24-25
  • 2.1.4 序列比对的数学描述25-26
  • 2.2 动态规划算法26-27
  • 2.2.1 算法的基本步骤26-27
  • 2.2.2 动态规划算法的几点说明27
  • 2.3 SPA算法27-32
  • 2.3.1 SPA算法的原理与要点28-29
  • 2.3.2 SPA算法的基本算法步骤29-31
  • 2.3.3 关于SPA算法的几点说明31-32
  • 第三章 一般罚分(或得分)矩阵下的SPA算法32-38
  • 3.1 一般得分矩阵下的序列比对模型32-34
  • 3.2 位移突变的统计估计34-35
  • 3.3 模拟计算35-38
  • 第四章 预测酶的催化残基38-68
  • 4.1 简介38-40
  • 4.1.1 酶、催化残基和催化部位38
  • 4.1.2 定位酶的催化残基38-39
  • 4.1.3 现有的预测方法39-40
  • 4.1.4 存在的问题与本文的目标40
  • 4.2 数据集40-44
  • 4.2.1 数据集的构建41-43
  • 4.2.2 关于数据集的两点说明43-44
  • 4.2.3 精度评估44
  • 4.3 预测流程44-45
  • 4.4 基于序列的特征设计45-47
  • 4.4.1 ResType特征45
  • 4.4.2 PSSM特征和EntWOP特征45-46
  • 4.4.3 AveCH特征46-47
  • 4.4.4 CRPair特征47
  • 4.5 预测模型的构建47-49
  • 4.5.1 分类器选择47-48
  • 4.5.2 特征排序48
  • 4.5.3 参数选择48-49
  • 4.5.4 特征选择49
  • 4.6 预测结果评估49-60
  • 4.6.1 基准预测方法50-51
  • 4.6.2 初步比较51-53
  • 4.6.3 在T-124数据集上的测试53-54
  • 4.6.4 与FRPred的比较54-56
  • 4.6.5 置信值56-60
  • 4.7 对参数和特征的分析60-68
  • 4.7.1 支持向量机核函数的贡献60-61
  • 4.7.2 特征选择和参数选择的贡献61
  • 4.7.3 对特征的初步分析61-63
  • 4.7.4 残基保守性与催化残基的联系63-65
  • 4.7.5 残基类型与催化残基的联系65-66
  • 4.7.6 疏水性和催化残基的联系66
  • 4.7.7 序列模式和催化残基的联系66-68
  • 第五章 预测蛋白质的RNA绑定残基68-104
  • 5.1 简介68-73
  • 5.1.1 蛋白质和RNA的相互作用68
  • 5.1.2 研究现状68-70
  • 5.1.3 已有的预测方法70-71
  • 5.1.4 RNA绑定残基的定义方式71-72
  • 5.1.5 目前的问题与本文的目标72-73
  • 5.2 数据集73-75
  • 5.2.1 文献数据集73-74
  • 5.2.2 测试数据集74
  • 5.2.3 精度评估74-75
  • 5.3 预测流程75-76
  • 5.4 基于序列的特征设计76-83
  • 5.4.1 基于残基类型的特征77
  • 5.4.2 基于保守性的特征77-78
  • 5.4.3 基于二级结构的特征78-81
  • 5.4.4 基于相对溶剂可及面积的特征81-83
  • 5.4.5 组合特征83
  • 5.4.6 关于PSIPRED和SPINE的一点说明83
  • 5.5 预测模型的构建83-86
  • 5.5.1 分类器选择84
  • 5.5.2 全局参数选择84-85
  • 5.5.3 特征选择85
  • 5.5.4 局部参数选择85-86
  • 5.6 预测结果评估86-93
  • 5.6.1 与已有预测方法的比较86-91
  • 5.6.2 在RB48数据集上的测试91-92
  • 5.6.3 补充说明92-93
  • 5.7 对所选特征的分析93-104
  • 5.7.1 初步分析93-95
  • 5.7.2 对预测的二级结构与相对溶剂可及面积的分析95-96
  • 5.7.3 残基类型与RNA绑定残基的联系96-97
  • 5.7.4 序列保守性与RNA绑定残基的联系97-99
  • 5.7.5 二级结构与RNA绑定残基的联系99-100
  • 5.7.6 相对溶剂可及面积与RNA绑定残基的联系100
  • 5.7.7 组合特征与RNA绑定残基的联系100-104
  • 第六章 DNA计算概述104-110
  • 6.1 DNA计算的提出104-106
  • 6.1.1 哈密顿路径问题104-105
  • 6.1.2 Adleman的DNA计算模型105-106
  • 6.2 DNA计算的生物学基础106-107
  • 6.2.1 DNA分子是信息的载体106
  • 6.2.2 DNA分子的操作106-107
  • 6.2.3 分子计算107
  • 6.3 DNA计算的应用和现状107-110
  • 6.3.1 DNA计算的应用108
  • 6.3.2 DNA计算的优点及存在的问题108-110
  • 第七章 可纠错的DNA操作系统及模拟计算110-118
  • 7.1 突变误差的数据空间110-113
  • 7.1.1 突变误差的定义110
  • 7.1.2 突变误差的度量问题110-111
  • 7.1.3 突变误差的纠错码111-113
  • 7.2 DNA操作系统中的纠错码设计与应用113-114
  • 7.2.1 DNA计算问题的选择113
  • 7.2.2 哈密顿回路问题的DNA操作树113-114
  • 7.2.3 DNA操作树的删除运算114
  • 7.2.4 哈密顿回路问题的DNA操作系统114
  • 7.2.5 DNA计算中突变误差的克服114
  • 7.3 哈密顿回路问题的DNA模拟计算114-116
  • 7.4 小结116-118
  • 第八章 结束语118-120
  • 参考文献120-134
  • 致谢134-136
  • 附录一 推广SPA算法中的定理证明136-140
  • 附录二 CRpred的完整ROC曲线140-144
  • 个人简历144-145
  • 附发表论文145-147

【引证文献】
中国博士学位论文全文数据库 前1条
1 窦永超;预测蛋白质功能位点的几种新数学模型[D];大连理工大学;2011年
【参考文献】
中国期刊全文数据库 前1条
1 许进,张雷;DNA计算机原理、进展及难点(Ⅰ):生物计算系统及其在图论中的应用[J];计算机学报;2003年01期
【共引文献】
中国期刊全文数据库 前10条
1 吕洪升;;Hamilton临界图C_(m,n)的派生图类C′_(m,n)的简单性质[J];安徽工程科技学院学报(自然科学版);2009年02期
2 郭玲;姜广峰;;一类图构形的模元素[J];北京化工大学学报(自然科学版);2006年02期
3 郝卫东;杨扬;刘宏岚;梁泉;;基于运行时间权矩阵的网格服务匹配问题的优化解[J];北京科技大学学报;2007年12期
4 高波;张晓桂;;基于二叉树的图形界面机械传动创意组合的实现[J];北京印刷学院学报;2006年06期
5 张智佳;;DNA计算机的生物基础和应用[J];才智;2008年08期
6 梁增勇;;细胞形结构在四色定理证明中的作用[J];才智;2010年35期
7 田敏;刘占军;李云;陈前斌;;一种基于节点度数的Ad Hoc网络稳定路由协议[J];重庆邮电大学学报(自然科学版);2007年05期
8 邓文君;杨真;杨震;;一种新的无线mesh网络编码算法[J];重庆邮电大学学报(自然科学版);2010年02期
9 龙昌满;汪定国;;图的边割的矩阵判别法[J];重庆工学院学报(自然科学版);2008年07期
10 张强,孙雨耕,房朝晖;无线传感器网络k点连通可靠性的研究[J];传感技术学报;2005年03期
中国重要会议论文全文数据库 前3条
1 王雷;蒋爱平;;基于DNA编码的遗传神经网络算法及应用[A];第十九届测控、计量、仪器仪表学术年会(MCMI'2009)论文集[C];2009年
2 杨春德;魏国辉;任静静;杨孝田;;DNA计算机中二叉树的层次遍历算法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
3 余平祥;张丽红;刘伟章;余金昌;;双代号网络图自动生成系统研究与实现[A];农业系统工程理论与实践研究——全国农业系统工程学术研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 朱蓓蓓;溴化锂水溶液微观特性的分子动力学研究[D];大连海事大学;2010年
2 张宁;蛋白质Beta折叠的分析与预测及生物信息工具开发[D];南开大学;2010年
3 付永生;无线Ad Hoc网络中可靠路由若干关键问题的研究[D];浙江大学;2010年
4 陈霄;DNA遗传算法及应用研究[D];浙江大学;2010年
5 沈懿珍;基于协同智能的蛋白质相互作用及其网络研究[D];东华大学;2011年
6 穆华;多运动平台协同导航的分散式算法研究[D];国防科学技术大学;2010年
7 侯叶;基于图论的图像分割技术研究[D];西安电子科技大学;2011年
8 左大杰;铁路快速客运网络旅客列车开行方案优化研究[D];西南交通大学;2010年
9 蒋霁云;基于供应能力和响应时间的供应链瓶颈企业识别的研究[D];西南交通大学;2011年
10 郭里;若干图论问题的DNA计算机算法研究[D];湖南大学;2009年
中国硕士学位论文全文数据库 前10条
1 张永琦;无线传感器网络中基于网关的分级簇算法研究[D];郑州大学;2010年
2 王超楠;计算机辅助流感病毒药物神经氨酸酶抑制剂的筛选与设计[D];河南师范大学;2010年
3 王庆虎;DNA计算机中数据结构的设计与研究[D];长春工业大学;2010年
4 刘根炎;烟碱乙酰胆碱受体的分子模拟[D];武汉工程大学;2010年
5 张蕾;供水管网爆管分析功能的实现方法及对比研究[D];中国地质大学(北京);2011年
6 徐程;路网固定检测器优化布设方法研究[D];吉林大学;2011年
7 叶东华;适应网络变结构的复杂环网最小断点集研究[D];华北电力大学(北京);2011年
8 闫玉莲;整合素拮抗剂分子对接及定量构效关系研究[D];大连理工大学;2011年
9 孙杨;ACE抑制肽的微波合成、活性及分子对接研究[D];大连理工大学;2011年
10 朱宝;RFID防冲突算法研究及其在高速公路网的应用[D];大连海事大学;2011年
【同被引文献】
中国期刊全文数据库 前1条
1 许进,张雷;DNA计算机原理、进展及难点(Ⅰ):生物计算系统及其在图论中的应用[J];计算机学报;2003年01期
中国博士学位论文全文数据库 前1条
1 刘太岗;机器学习方法在生物信息学中的应用[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前2条
1 殷志祥,张凤月,许进;0-1规划问题的DNA计算[J];电子与信息学报;2003年01期
2 刘文斌,许进;赋权Hamilton路的DNA计算模型[J];系统工程与电子技术;2002年06期
中国重要会议论文全文数据库 前1条
1 许进;;DNA分子生物计算机与运筹学发展的新机遇[A];中国运筹学会第六届学术交流会论文集(上卷)[C];2000年
【相似文献】
中国期刊全文数据库 前10条
1 郭亚军;刘赋;王惠德;窦胜功;宁坚;;科技人才需求量的预测方法[J];预测;1993年05期
2 刘永宏;;灰色预测模型在机械设备运行状态趋势分析中的应用[J];江南大学学报(自然科学版);1993年02期
3 傅金祥,马兴冠;水资源需求预测及存在的主要问题探讨[J];中国给水排水;2002年10期
4 姬永红,项彦勇;水底隧道涌水量预测方法的应用分析[J];水文地质工程地质;2005年04期
5 丁洁;基于灰色灾变原理的互联网用户人数预测模型[J];情报理论与实践;2005年05期
6 高宇飞;程远平;汪磊;刘静;;室内火灾温度的预测方法及其分析[J];灾害学;2006年01期
7 谢东;李为民;宣科;何多慧;;应用数据挖掘的束流流强预测[J];原子能科学技术;2006年04期
8 茅奇辉;刘俊;李俊才;;基坑工程变形预测方法研究[J];江苏建筑;2007年02期
9 谢宗平;;现代工程造价预测方法发展与研究[J];科技信息(科学教研);2007年22期
10 张华军;单美荣;;对我国城市交通规划的分析[J];民营科技;2007年05期
中国重要会议论文全文数据库 前10条
1 刘俊峰;饶妮妮;;基于AR模型预测DNA序列的蛋白编码区[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
2 丁光彬;王治昆;赵林明;翟传仁;;包络预测方法及其在电力负荷预测中的应用[A];管理科学与系统科学进展——全国青年管理科学与系统科学论文集(第4卷)[C];1997年
3 朱美琳;陈安;;航空服务成本预测的支持向量机方法研究[A];2004年中国管理科学学术会议论文集[C];2004年
4 雷向杰;;月平均气温客观集成预测方法研究[A];第28届中国气象学会年会——S5气候预测新方法和新技术[C];2011年
5 钟玲文;郑玉柱;员争荣;雷崇利;张慧;;煤在温度和压力综合影响下的吸附性能及其未知区煤层气含量的预测方法[A];煤田地质与可持续发展——中国煤炭学会、中国地质学会煤田地质专业委员会2001年学术年会论文集[C];2001年
6 冯国昌;耿媚;杜素周;孙思先;;预测方法在无功动态补偿中的应用及仿真[A];2001中国钢铁年会论文集(下卷)[C];2001年
7 邵学栋;;生产类开发建设项目土壤流失量预测方法探讨[A];2008中国水力发电论文集[C];2008年
8 丁鉴海;余素荣;展迎春;;地震短临前兆与跨越式预测方法[A];新世纪 新机遇 新挑战——知识创新和高新技术产业发展(上册)[C];2001年
9 刘长新;熊励;王炜;孙友霞;;基于BP神经网络的航空器材消耗预测[A];第十二届中国管理科学学术年会论文集[C];2010年
10 季叶克;;信息预测服务中对预测方法选用的影响因素及其比较分析[A];福建省图书馆学会2008年学术年会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 山水;艾斯本与NIST集合数据集[N];中国石化报;2007年
2 李宇;上市预披露将成市场常规[N];中国证券报;2008年
3 郭立;荣昌猪实现数字化[N];中国畜牧兽医报;2005年
4 记者 刘浪 通讯员 廖雅琴;中国首套数字化“可视人”数据集在渝通过成果鉴定[N];重庆日报;2003年
5 秦笃烈;解读 中国造女性数字人[N];健康报;2006年
6 李宇;港交所明年试验上市预披露计划[N];中国证券报;2007年
7 上海 陈纯;初识T-SQL,恋情的开始[N];电脑报;2004年
8 周青 编译;CDP:与快照相得益彰[N];计算机世界;2006年
9 本报记者 周仲全 实习生 蔡为伟;数字虚拟人:为承受人类苦痛而来[N];辽宁日报;2005年
10 本报记者  郝宗强;为社会和谐作贡献[N];人民日报;2006年
中国博士学位论文全文数据库 前10条
1 张拓;两种特殊类型蛋白质功能残基的预测与生物序列比对[D];南开大学;2009年
2 郭建秀;蛋白质折叠速率预测方法研究[D];电子科技大学;2011年
3 邱智军;蛋白质结合位点预测方法研究与应用[D];大连理工大学;2012年
4 吴毅;数字人全身分割数据集的建立及人体胸腔与盆腔的数字化研究[D];第三军医大学;2012年
5 王明会;基于统计建模方法的蛋白质结构预测研究[D];中国科学技术大学;2006年
6 倪同和;道路交通规划关键指标预测方法研究[D];吉林大学;2011年
7 熊毅;基于机器学习的蛋白质结合位点特征化和预测方法研究[D];武汉大学;2011年
8 张华;蛋白质残基深度、柔性和功能的预测与分析[D];南开大学;2009年
9 邵晨;机器学习方法预测蛋白质相互作用应用Logistic回归提高质谱多肽鉴定的准确度[D];中国协和医科大学;2008年
10 纳赛尔 阿里 穆罕默德 巴拉卡特;复杂化学数据的知识发现新型化学计量学算法研究[D];湖南大学;2005年
中国硕士学位论文全文数据库 前10条
1 郑顺香;上市公司财务困境预警模型实证分析[D];天津大学;2006年
2 莫旭;预测方法在粮食行业的应用[D];吉林大学;2004年
3 程义菊;电梯交通流预测方法的研究[D];天津大学;2004年
4 彭志行;马尔可夫链理论及其在经济管理领域的应用研究[D];河海大学;2006年
5 张飞;网格资源的性能预测方法研究[D];同济大学;2006年
6 张静忻;我国载货汽车市场分析及预测[D];对外经济贸易大学;2006年
7 张建;分形理论在东天山金矿预测中的运用[D];新疆大学;2006年
8 王成玉;客运站建设可行性研究[D];长安大学;2006年
9 初旭新;足球机器人决策子系统研究与开发[D];北京工业大学;2006年
10 戴珺晶;江苏省专利产出与专利战略分析[D];南京财经大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026