收藏本站
《吉林大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于随机游走的蛋白质功能预测方法的研究

邓小龙  
【摘要】:自从人类基因组测序完成,遗传学领域现在处于理论和实践发展的重要时期。进一步研究的关键在于全面的理解生物体蛋白质编码的表达、功能和调控。这是蛋白质组学研究的课题。蛋白质组学的应用和方法非常广泛,如搞清发生在在分子水平的生物过程的复杂性、在各种细胞类型中的异同,以及在疾病状态中的转换。蛋白质功能预测则是蛋白质组学研究的非常重要的方向之一。 根据研究,蛋白质很少单独发挥功能。对蛋白质功能的分析表明在同一个细胞过程的蛋白质之间存在相互作用。而那些未知功能蛋白质,则可以根据与它们有相互作用的已知功能的蛋白质的功能来进行预测。蛋白质的相互作用不仅可以对蛋白质功能进行预测,还可以对功能路径进行建模,从而揭示细胞过程的分子机制。对蛋白质互作的研究是理解细胞中蛋白质功能的基础。 近年来,随着高通量方法的出现,产生了大量的蛋白质相互作用数据,例如双杂交系统、质谱分析和蛋白质芯片技术等。这样我们就可以从这些异构的数据源建立建立一个基因组规模的蛋白质相互作用网络。但是在这个网络中仍然相当多未知功能的蛋白质,对这些蛋白质进行功能预测仍是一个主要挑战。 目前,已有的很多技术都是假设具有相似功能的蛋白质在互作网络中是相邻的。我们则假设,在蛋白质的互作网络中,不管蛋白质是否相邻,具有相似功能的蛋白质就具有相似的注释模式。我们通过和已知蛋白质比较蛋白注释模式的相似度,来预测未知蛋白质的功能。 蛋白质功能预测是个多标签学习问题,每个蛋白质和与之相关的注释标签集组成训练样本集,多标签学习的主要任务就是通过分析训练集中已知功能的蛋白质,对未知功能的蛋白质预测它可能具有的功能标签集。 我们提出的方案分为三个步骤。首先,用随机游走算法提取蛋白质互作网络中的注释模式。随机游走算法得到的是互作网络中与起始蛋白质最近的那些蛋白质。把随机游走得到的邻居信息转化为注释模式的信息。接着,用传统的K近邻分算法从蛋白质样本集中找到未知蛋白质的k个最近邻。最后,基于从分类标签中得到的统计学信息(例如蛋白质所有邻居中属于每个可能的类的数目),基于最大后验概率来决定未知蛋白质属于哪些标签类。 通过在出芽酵母的蛋白质相互作用数据集上的进行测试,结果表明本方案能够有效地进行蛋白质功能预测。 在本文的工作中,将来还可以从以下几个方面进行深入的研究: 1)可以尝试结合蛋白质的其他的信息,如蛋白质域(domain)、蛋白质序列比对(blast)等信息,进行注释模式提取。 2)尝试采用或者结合其他多标签的分类算法。如BOOSTEXTER、RANK-SVM等。 3)对FunCat注释目录其中的层次性信息的使用进行研究。
【关键词】:蛋白质功能预测 蛋白质-蛋白质相互作用网络 分类 随机游走 K近邻 多标记学习
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:Q51-33
【目录】:
  • 摘要4-6
  • Abstract6-10
  • 第1章 绪论10-22
  • 1.1 课题背景与意义10-12
  • 1.2 蛋白质相互作用的研究现状12-20
  • 1.2.1 蛋白质相互作用检测的实验方法13-15
  • 1.2.2 蛋白质相互作用检测的计算方法15-17
  • 1.2.3 蛋白质相互作用相关数据库17-20
  • 1.3 本文的主要工作20-22
  • 第2章 随机游走算法提取蛋白质的邻居模式22-32
  • 2.1 图的相关知识22-24
  • 2.1.1 图的定义23
  • 2.1.2 图的基本概念23-24
  • 2.1.3 图的邻接矩阵表示24
  • 2.2 随机游走24-30
  • 2.2.1 背景介绍24-25
  • 2.2.2 图的随机游走25-28
  • 2.2.3 马尔科夫链的基本定义28-29
  • 2.2.4 随机游走的定义29-30
  • 2.3 随机游走在蛋白质互作网络的应用30-31
  • 2.4 小结31-32
  • 第3章 基于邻居模式的蛋白质功能预测32-40
  • 3.1 蛋白质的注释模式32-35
  • 3.1.1 注释模式的相关定义32-33
  • 3.1.2 提取注释模式33-35
  • 3.2 多标签学习的 K 近邻算法35-39
  • 3.2.1 K 近邻算法35-37
  • 3.2.2 KNN 在蛋白质功能预测中的应用37-39
  • 3.3 小结39-40
  • 第4章 实验与结果分析40-51
  • 4.1 实验处理流程40
  • 4.2 数据40-45
  • 4.2.1 实验数据准备41-43
  • 4.2.2 多数据源融合43-45
  • 4.3 实验45-51
  • 4.3.1 评价指标45-48
  • 4.3.2 结果分析48-51
  • 第5章 总结与展望51-53
  • 5.1 工作总结51-52
  • 5.2 工作展望52-53
  • 参考文献53-57
  • 致谢57

【参考文献】
中国博士学位论文全文数据库 前1条
1 徐晓华;图上的随机游走学习[D];南京航空航天大学;2008年
中国硕士学位论文全文数据库 前1条
1 孙凉艳;基于K近邻集成算法的分类挖掘研究[D];西北大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 李雪峰;;一些唯一3-着色图[J];安徽大学学报(自然科学版);2009年04期
2 王勇;陈克平;姚勤;;系统发生分析软件PAUP和TreePuzzle使用方法介绍[J];安徽农业科学;2008年02期
3 王勇;陈克平;姚勤;;系统发生分析程序MrBayes 3.1使用方法介绍[J];安徽农业科学;2009年33期
4 王雯雯;武栓虎;;基于DNA双链特征的启动子预测方法[J];北京交通大学学报;2009年06期
5 秦洋;王立宏;武栓虎;宋宜斌;;基于拉普拉斯矩阵的DNA序列集相似性分析[J];北京交通大学学报;2009年06期
6 黄雅平;杜建庚;陈恩义;;楼宇三维路径模型的自动生成算法[J];北京交通大学学报;2010年02期
7 石鸥燕;杨文万;;生物信息数据库及其利用[J];包头医学院学报;2006年03期
8 向浏欣;谭军;;浅谈系统发生树构建方法[J];才智;2009年20期
9 卢自娟;;完全二部单路图谱半径的极限[J];湖南文理学院学报(自然科学版);2010年02期
10 王伟宇;;完全二部图(n≥6的无限图)的线图[J];长春大学学报;2006年04期
中国重要会议论文全文数据库 前1条
1 胡扬;桂卫华;;人工代谢技术在医药领域中的应用研究[A];第二十九届中国控制会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 徐兆华;基因芯片数据统合分析方法的若干拓展[D];浙江大学;2010年
2 高翠芳;模糊聚类新算法及应用研究[D];江南大学;2011年
3 刘晨光;氧化还原电位调控的高浓度乙醇发酵及其机理研究[D];大连理工大学;2011年
4 刘念;三种蝗虫线粒体基因组测序与直翅目比较线粒体基因组学分析[D];陕西师范大学;2011年
5 赵建邦;基于代谢网络的功能模式发现及系统发生分析研究[D];西安电子科技大学;2011年
6 彭柳青;高维高噪声数据聚类中关键问题研究[D];西安电子科技大学;2011年
7 许爱清;茯砖茶的真菌菌群特性及其整肠功能研究[D];湖南农业大学;2011年
8 陈伟;群体智能算法及其在基因表达数据聚类中的应用[D];江南大学;2011年
9 缑葵香;基于贝叶斯理论的基因调控网络建模研究[D];天津大学;2010年
10 张焕萍;面向基因表达数据的致病基因挖掘方法研究[D];南京航空航天大学;2009年
中国硕士学位论文全文数据库 前10条
1 张杰;基于支持向量机和蛋白质全序列的蛋白质—蛋白质相互作用预测[D];郑州大学;2010年
2 吕俊杰;真核基因剪接位点识别算法研究[D];哈尔滨工程大学;2010年
3 战晓文;基于完全基因组且无序列比对的用于亲缘分析的严格距离度量[D];湘潭大学;2010年
4 王若飞;基于机器学习的蛋白质折叠预测算法研究[D];湘潭大学;2010年
5 卓立;中国滨藜亚科的地理分布与分子系统学研究[D];新疆农业大学;2010年
6 赵丹;基于SVM分类机的DNA序列分类方法[D];南昌大学;2010年
7 张天红;网络钓鱼预警系统设计与分析[D];电子科技大学;2010年
8 林妙春;贪食迈阿密虫的生物学特性研究[D];福建师范大学;2010年
9 侯青敏;基于子图密度的序列模体发现算法研究[D];西安电子科技大学;2009年
10 王芳;解图着色问题的一个新的遗传算法[D];西安电子科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前1条
1 钱晓东,王正欧;基于改进KNN的文本分类方法[J];情报科学;2005年04期
中国博士学位论文全文数据库 前2条
1 陈海霞;面向数据挖掘的分类器集成研究[D];吉林大学;2006年
2 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前1条
1 莫浩澜;基于高层语义的自然图像检索方法研究[D];湘潭大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 张玲,林澄涛,王恒;基因组范围的蛋白质功能研究方法初探[J];生物化学与生物物理进展;2001年05期
2 刘秀艳,滕胜;应用计算机识别蛋白质功能[J];生命的化学;2000年03期
3 张成林;李建远;;蛋白质相互作用的研究方法[J];中外医学研究;2011年04期
4 王大成;;蛋白质的三维结构研究[J];生物化学与生物物理进展;1980年05期
5 ;增强食欲的蛋白质[J];生命世界;2006年05期
6 陈丽娜;王倩;尚玉奎;张良才;孙钊;何伟明;赵研;李琬;王宏;何月涵;李霞;;人类蛋白质结构互作网络——结构域对网络拓扑与蛋白质功能的影响[J];生物化学与生物物理进展;2010年05期
7 陶站华,王淑静,刘兴汉;蛋白质转导技术及其应用[J];医学分子生物学杂志;2005年02期
8 高飞雪;杨俊林;;我国科学家在蛋白质功能设计领域取得重要进展[J];中国科学基金;2007年05期
9 杨运春;;“生命活动的主要承担者——蛋白质”的教学设计[J];生物学通报;2008年07期
10 王祥余;朴永哲;翟明昌;王晓丹;程贺;赵长新;;酿酒酵母FFC2146胞内蛋白及胞外蛋白双向电泳条件优化及图谱建立[J];微生物学通报;2011年02期
中国重要会议论文全文数据库 前10条
1 刘银坤;;疾病蛋白质组学研究重点和临床应用展望[A];中华医学会第七次全国检验医学学术会议资料汇编[C];2008年
2 高飞;;泛素样蛋白NEDD8对乳腺癌相关蛋白3(BCA3)的修饰及BCA3对NFκB活性的抑制[A];中国细胞生物学学会2005年学术大会、青年学术研讨会论文摘要集[C];2005年
3 刘俊峰;王新泉;王占新;安晓敏;常文瑞;梁栋材;;造血干细胞中特异表达新基因kd93的重组表达和晶体结构研究[A];中国科协2005年学术年会生物物理与重大疾病分会论文摘要集[C];2005年
4 林东海;;用异核多维NMR技术测定蛋白质的溶液结构[A];第十四届全国波谱学学术会议论文摘要集[C];2006年
5 徐加豹;蔡浩洋;张义正;李校;;基于基因网络预测哺乳动物线粒体蛋白质的功能[A];中国遗传学会第八次代表大会暨学术讨论会论文摘要汇编(2004-2008)[C];2008年
6 张小伟 ;张群业 ;鲁静 ;黄秋花;;全反式维甲酸诱导NB4细胞分化蛋白组中蛋白修饰及Isoforms变化的初步研究[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
7 宋卓;阮吉寿;张涛;;基于氨基酸序列预测蛋白质的功能性点突变[A];第十次中国生物物理学术大会论文摘要集[C];2006年
8 宋卓;阮吉寿;张涛;;基于氨基酸序列预测蛋白质的功能性点突变[A];第十次中国生物物理学术大会论文摘要集[C];2006年
9 刘克良;梁远军;;肽类药物研究进展[A];2006第六届中国药学会学术年会大会报告集[C];2006年
10 许越;;非损伤型扫描离子选择电极技术及其在基因组研究后期的应用[A];生物膜与重大疾病学术研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 记者 吴仲国;日首次公开招募研究人员[N];科技日报;2001年
2 记者 耿挺;蛋白质功能算出来[N];上海科技报;2007年
3 采访记者 姜洪良;弱碱性活蛋白 创造蛋白质功能的升级[N];中国食品质量报;2005年
4 记者 刘恕;我国启动四项重大科学研究计划[N];科技日报;2006年
5 记者 顾钢;科学家发现干细胞蛋白质调控新机制[N];科技日报;2007年
6 刘云涛;北大蛋白质功能设计研究获新进展[N];中国医药报;2007年
7 记者:周清春;蛋白质研究:触摸生命的本质[N];科技日报;2006年
8 华琳 王治强;我校三项“973”项目通过科技部验收[N];新清华;2005年
9 梁远军 刘克良;肽类药物研究: 无限风光在险峰[N];中国医药报;2007年
10 白京丽;我国应重视对糖的研究[N];中国医药报;2000年
中国博士学位论文全文数据库 前10条
1 蔡从中;支持向量机及其在生物材料功能研究中的应用[D];重庆大学;2003年
2 施绍萍;基于支持向量机的蛋白质功能预测新方法研究[D];南昌大学;2012年
3 马志强;蛋白质功能预测的非同源性计算方法研究[D];吉林大学;2009年
4 董少忠;一个HSV-1刺激相关基因的克隆及其功能的初步分析[D];中国协和医科大学;2003年
5 李健峰;与HSV-1感染相关的细胞立即早期基因产物HTRP在细胞辅抑制因子复合物中功能的分析[D];中国协和医科大学;2004年
6 陈义明;基于分类的蛋白质功能预测技术研究[D];国防科学技术大学;2010年
7 孙承磊;基于数据挖掘技术的蛋白质功能预测研究[D];上海大学;2013年
8 段谟杰;蛋白质结构预测与结构比对方法的研究[D];华中科技大学;2009年
9 徐超;结构基因组数据库构建及蛋白质主链构象的计算分析[D];中国科学技术大学;2008年
10 李林辉;小立碗藓冷胁迫下表达序列标签分析及其相关基因Cor166的功能初探[D];首都师范大学;2005年
中国硕士学位论文全文数据库 前10条
1 李希;基于序列特征的蛋白质功能类预测方法研究[D];湖南大学;2010年
2 邓小龙;基于随机游走的蛋白质功能预测方法的研究[D];吉林大学;2012年
3 王博;基于频繁功能模式的蛋白质功能预测[D];吉林大学;2012年
4 贾元丰;基于复杂网络社团结构与贝叶斯网络模型的蛋白质功能预测[D];山西大学;2013年
5 蔡娟;基于蛋白质相互作用网络及聚类算法的蛋白质功能预测方法研究[D];中南大学;2012年
6 胡伟凤;基于不确定网络的蛋白质功能模块挖掘算法研究[D];湖南大学;2013年
7 刘钦锋;蛋白质序列编码与功能预测[D];湖南大学;2011年
8 黄淑云;基于序列的蛋白质功能预测研究[D];南昌大学;2012年
9 呙中美;基于融合特征的蛋白质亚细胞定位预测[D];湖南大学;2012年
10 龚小龙;SAPs对蛋白质功能影响特征分析及性能评估[D];华中科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026