收藏本站
《中国科学院研究生院(上海生命科学研究院)》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于蛋白质序列和生物医学文献的蛋白质功能挖掘

俞晓晶  
【摘要】:运用计算手段对蛋白质功能进行分类预测是当前生物信息学的研究热点之一,本文针对包含蛋白质功能信息的两大载体:蛋白质序列和生物医学文献,运用机器学习和自然语言处理技术进行挖掘分析。 在蛋白质序列分析方面,采用了经典氨基酸组成、基于氨基酸组成的氨基酸序列物理化学组成与分布法和蛋白质功能域组成法三种不同的蛋白质序列描述方法。应用最近邻算法、支持向量机、极大似然估计以及期望最大化算法等机器学习算法,我们分别尝试研究蛋白质四级结构分类、DNA/RNA结合蛋白质预测以及蛋白质功能分类问题,获得了较满意的分类预测准确率。蛋白质序列分析的结果显示蛋白质功能域组成是蛋白质序列信息非常高效的描述符,表明功能域在蛋白质功能行使中发挥着重要作用。据此,我们在MEDLINE的摘要数据库中运用自然语言处理技术挖掘关于蛋白质功能域相互作用的信息,加上从其它实验室得到的数据,一共搜集到175条功能域与功能域相互作用的信息和355条功能域与其它生物分子相互作用的信息。在此基础上,我们整合了Pfam、Swiss-Prot、InterPro、GO、DIP、KEGG等其它数据库与功能域相关的信息,构建了蛋白质功能域相互作用数据库(Database of Domain Interactions and Bindings,DDIB)。用户可以通过地址http://www.ddib.org访问查询。
【关键词】:蛋白质功能预测 蛋白质功能域 自然语言处理 支持向量机 极大似然估计 最近邻算法
【学位授予单位】:中国科学院研究生院(上海生命科学研究院)
【学位级别】:博士
【学位授予年份】:2006
【分类号】:Q51;Q811.4
【目录】:
  • 摘要5-6
  • Abstract6-7
  • 第一章 引言7-11
  • 第二章 从序列分析出发研究蛋白质功能概况11-29
  • 2.1 预测蛋白质功能的序列特征表述方法11-19
  • 2.1.1 基于氨基酸组成及其相关信息的方法11-15
  • 2.1.2 蛋白质功能域组成法15-16
  • 2.1.3 基于基因组上下文的方法16-19
  • 2.2 蛋白质序列分析中常用的机器学习算法19-29
  • 2.2.1 支持向量机19-23
  • 2.2.2 最近邻算法23-24
  • 2.2.3 极大似然估计与期望最大化算法24-26
  • 2.2.4 其它26-29
  • 第三章 生物医学文献挖掘概况29-34
  • 3.1 生物医学文献数据库MEDLINE29
  • 3.2 自然语言处理29-30
  • 3.3 生物自然语言处理30-34
  • 第四章 从蛋白质功能域组成对蛋白质四级结构的分类预测34-41
  • 4.1 引言34-36
  • 4.2 材料与方法36-38
  • 4.2.1 数据集合36-37
  • 4.2.2 功能域组成特征向量37
  • 4.2.3 最近邻算法37-38
  • 4.3 结果与讨论38-40
  • 4.4 结论40-41
  • 第五章 运用支持向量机从蛋白质序列预测 rRNA、RNA和 DNA 结合蛋白质41-53
  • 5.1 引言41-42
  • 5.2 材料与方法42-45
  • 5.2.1 数据集合42-43
  • 5.2.2 支持向量机43-44
  • 5.2.3 特征向量44-45
  • 5.2.4 准确率评估45
  • 5.3 结果45-47
  • 5.4 讨论47-53
  • 第六章 基于功能域组成的蛋白质功能分类预测53-64
  • 6.1 引言53-54
  • 6.2 材料与方法54-57
  • 6.2.1 数据集合与功能分类54-55
  • 6.2.2 “简单”方法55-56
  • 6.2.3 极大似然估计方法56-57
  • 6.3 结果57-61
  • 6.4 讨论61-64
  • 第七章 蛋白质功能域相互作用信息的文献挖掘及相关数据库构建64-80
  • 7.1 引言64-66
  • 7.2 材料与方法66-76
  • 7.2.1 功能域相互作用的文本挖掘66-73
  • 7.2.2 预测功能域-功能域相互作用73
  • 7.2.3 DDIB数据库的构建73-76
  • 7.3 DDIB数据库描述76-78
  • 7.4 DDIB数据库的应用78-80
  • 第八章 SARS 冠状病毒spike 蛋白质中hAPN 受体结合位点的预测80-90
  • 8.1 引言80-81
  • 8.2 材料与方法81-85
  • 8.2.1 蛋白质-蛋白质相互作用81-84
  • 8.2.2 分子建模84
  • 8.2.3 CD13三维模型的生成84-85
  • 8.2.4 S蛋白质(D757-R761)对CD13(D438-P814)的相互作用模拟85
  • 8.3 结果与讨论85-89
  • 8.3.1 SARS_CoV蛋白质与CD13 可能的相互作用区域85-86
  • 8.3.2 CD13(D438-P814)与SARS_CoV 的S 蛋白质(D757-R761)结合的三维模拟86-89
  • 8.4 结论89-90
  • 第九章 结论与展望90-94
  • 9.1 本文研究结论90-91
  • 9.2 课题研究展望91-94
  • 参考文献94-106
  • 附录106-131
  • 附录1. 四级结构预测蛋白质集合106-126
  • 1.1 非冗余训练集合中包含的蛋白质106-108
  • 1.2 独立测试集合中包含的蛋白质108-126
  • 附录2. 核酸结合蛋白质集合126-131
  • 2.1 rRNA结合蛋白质126-127
  • 2.2 RNA结合蛋白质127
  • 2.3 DNA结合蛋白质127-131
  • 攻读博士学位期间发表及完成的论文目录131-132
  • 致谢132

【相似文献】
中国期刊全文数据库 前10条
1 王正华;王秀鹤;王勇献;张振慧;;基于相互作用的蛋白质功能预测[J];激光生物学报;2007年04期
2 卢宏超;石秋艳;石宝晨;张治华;赵屹;唐素勤;熊磊;王强;陈润生;;基于蛋白质网络功能模块的蛋白质功能预测[J];生物化学与生物物理进展;2006年05期
3 孙景春,徐晋麟,李亦学,石铁流;大规模蛋白质相互作用数据的分析与应用[J];科学通报;2005年19期
4 王秀鹤;王正华;王勇献;张振慧;;基于分组重量编码的蛋白质功能预测[J];生物信息学;2007年01期
5 宋卓;张宁;阮吉寿;杨卓;张涛;;基于氨基酸序列预测蛋白质功能性点突变位点[J];生物物理学报;2007年02期
6 倪青山;王正志;黎刚果;孟祥林;;基于K近邻的蛋白质功能的预测方法[J];生物医学工程研究;2009年02期
7 曹建平,马义才,李亦学,石铁流;计算方法在蛋白质相互作用研究中的应用[J];生命科学;2005年01期
8 曾岚,徐晋麟,李亦学,石铁流;大规模蛋白质功能预测方法的进展[J];生命的化学;2005年01期
9 贺光;生物信息学在蛋白质研究中的应用[J];国外医学.遗传学分册;2002年03期
10 杨亮,宁瑛惠;基因组信息学简介[J];生物学教学;2000年09期
中国博士学位论文全文数据库 前3条
1 俞晓晶;基于蛋白质序列和生物医学文献的蛋白质功能挖掘[D];中国科学院研究生院(上海生命科学研究院);2006年
2 李敏;蛋白质网络中复合物和功能模块挖掘算法研究[D];中南大学;2008年
3 张同亮;基于智能计算的蛋白质功能预测研究[D];东华大学;2008年
中国硕士学位论文全文数据库 前2条
1 王秀鹤;基于序列和相互作用的蛋白质功能预测[D];国防科学技术大学;2006年
2 刘昊;基于聚类算法和相互作用网络的蛋白质功能预测研究[D];湖南大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026