收藏本站
《南京理工大学》 2016年
收藏 | 手机打开
二维码
手机客户端打开本文

蛋白质相互作用位点预测方法研究

魏志森  
【摘要】:蛋白质是生命活动的物质基础,蛋白质的相互作用广泛存在于生命细胞的活动周期内并发挥重要的作用。蛋白质的相互作用是通过部分残基的相互作用实现的,这些残基被称为蛋白质相互作用位点。识别参与这些相互作用的残基有助于对分子机制的理解。同样,由于某些疾病的发生与特定蛋白质的相互作用密切相关,识别其中涉及的残基也可以促进治疗药物的研发。通过生物实验方法识别蛋白质相互作用位点存在高人力成本和时间周期长的问题,因此,迫切需要一种简单有效的计算方法对蛋白质相互作用位点进行预测。于是,蛋白质相互作用位点的预测成为了计算生物学研究的一个热点。由于蛋白质相互作用的复杂性与多样性,蛋白质相互作用位点的预测仍然是一个挑战性的问题,特别是从蛋白质序列直接进行的预测。在以上背景下,本文对机器学习的方法在蛋白质相互作用位点预测中的应用进行了研究,并将重点放在基于序列的作用位点预测。本文在总结已有方法的基础上,从机器学习的角度提出了需要解决的关键科学问题,即类不平衡问题。针对该问题,提出了三种分类方法,并用于基于序列的蛋白质相互作用位点的预测。本文的主要工作可以归纳如下:(1)回顾了蛋白质相互作用位点的计算方法预测的进展,总结了基于机器学习的蛋白质相互作用位点预测的一般过程。针对残基的特征表示,介绍了经常使用的特征属性,并给出现有工作所验证的比较有鉴别性的特征。根据特征的来源不同,将方法分成基于序列的和基于结构的分别介绍,总结了提高预测性能的一般策略。最后,提出了蛋白质相互作用位点预测器的训练中经常碰到的类不平衡的问题,这也是机器学习的方法需要解决的问题。(2)提出了一种级联的随机森林集成方法。针对类不平衡问题,提出了一种级联结构的样本采样与分类器集成的结合方案。在这个方案中,样本采样与分类器学习依次交替进行,先通过样本采样得到平衡的训练集用于训练随机森林模型,再用这个训练好的模型对所有样本进行评估,削减一部分容易的多数类样本,然后再在剩余的样本集上重复以上的样本采样、模型训练和样本削减过程,直至剩下平衡的样本集。最后,以一种级联的结构将训练好的多个随机森林模型集成起来。在基准数据集上详尽的比较实验证明了提出的方法处理类不平衡问题的有效性,也证明了提出的预测器的性能战胜了当前的领先水平。另外,从特征的重要性分析中发现了溶剂可及性是所使用的特征中最有鉴别力的。(3)提出了一种支持向量机与样本加权的随机森林的集成方法。该方法结合代价敏感学习和分类器集成,用以缓解类不平衡问题,提升蛋白质相互作用位点预测性能。基于预先训练的支持向量机模型的评估,赋予每个样本不同的代价权重,在此过程中保持两类的样本权重和的大致相等;再将这个权重用于训练样本加权的随机森林。该方法用这个策略一方面保证了学习的模型避免了类不平衡的问题,另一方面提升了两个分类器的集成效果。另外,提出了一种新的特征表示方法,该方法用更低维数的向量有效地表示残基。基准数据集上的实验结果证明了提出的方法有效地缓解了类不平衡的问题,并在蛋白质相互作用位点的预测上取得了显著的性能提升。特征的重要性分析实验证明了提出的特征表示方法的有效性,同时也验证了溶剂可及性的较其它特征显著的鉴别力。(4)基于前面研究工作得出的溶剂可及性鉴别力的结论,提出了一种基于溶剂可及性采样的集成方法。针对随机采样可能造成的信息损失,该方法基于样本的溶剂可及性的分布,用一种简单的方法将样本按照溶剂可及性分成多个子集,再在每个子集内分别采样。通过这个策略,缓解了采样造成的在溶剂可及性这个最有鉴别力的特征上的信息损失。然后,结合其它特征在采样的子集上训练随机森林分类器。为进一步提升性能,基于多次采样的结果训练多个模型进行分类器集成。基准数据集上的实验结果证明了提出的采样方法对于随机采样的性能提升,也验证了训练的预测器的性能改善。
【学位授予单位】:南京理工大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:Q51;TP181

【相似文献】
中国期刊全文数据库 前10条
1 王吉村,药立波;从蛋白质相互作用研究方法的发展看人们认识事物的过程[J];医学与哲学;2000年05期
2 梁琳慧,韩忠朝;蛋白质相互作用的研究方法[J];生命的化学;2005年03期
3 唐泽耀,戴淑芳,陈华,林原;蛋白质相互作用研究的哲学思考[J];医学与哲学;2005年01期
4 曹建平,马义才,李亦学,石铁流;计算方法在蛋白质相互作用研究中的应用[J];生命科学;2005年01期
5 谢江;张武;梅健;顾知立;吴继宗;李辉;张律文;;一种新的计算预测alpha-synuclein蛋白质相互作用网络的方法(英文)[J];Journal of Shanghai University(English Edition);2008年06期
6 余鑫煜;许正平;;蛋白质相互作用数据库及其应用[J];中国生物化学与分子生物学报;2008年03期
7 刘中扬;李栋;朱云平;贺福初;;蛋白质相互作用网络进化分析研究进展[J];生物化学与生物物理进展;2009年01期
8 王正华;董蕴源;王勇献;;蛋白质相互作用网络的几种聚类方法综述[J];国防科技大学学报;2009年04期
9 陆林英;魏雅卓;崔颖;孙平平;马雅楠;马志强;;基于支持向量机的蛋白质相互作用识别[J];生物信息学;2009年04期
10 王建新;蔡钊;李敏;;一种基于极大团的蛋白质相互作用预测方法[J];高技术通讯;2009年01期
中国重要会议论文全文数据库 前10条
1 刘珍;孙景春;谢锦云;李亦学;梁宋平;石铁流;;蛋白质相互作用网络中的生物途径分析[A];中国蛋白质组学第二届学术大会论文摘要论文集[C];2004年
2 李占潮;周漩;戴宗;邹小勇;;基于一级结构信息预测蛋白质与蛋白质相互作用[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
3 王存新;马晓慧;陈慰祖;;构象熵对蛋白质-蛋白质相互作用及结合自由能的贡献[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
4 程钢;吴松锋;陈廷贵;万平;朱云平;贺福初;;22周孕龄胎肝蛋白质相互作用网络的构建[A];中国蛋白质组学首届学术大会论文摘要集[C];2003年
5 杨晓明;王建;许望翔;虞东辉;杨永升;刘琼明;周颖;张翠莉;吴志豪;张万巧;刘涛;唐刘君;原艳芝;郝峰;金超智;贺福初;;人类肝脏重要蛋白质相互作用连锁图研究进展[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
6 吴俊;邓宏钟;朱大智;谭跃进;;蛋白质相互作用网络的度秩函数与度分布[A];2006全国复杂网络学术会议论文集[C];2006年
7 李令东;田瑞军;唐伟;邹汉法;赵宗保;;携异戊烯链小分子与蛋白质相互作用的研究[A];第六届全国化学生物学学术会议论文摘要集[C];2009年
8 李立;肖奕;孙之荣;;酵母蛋白质相互作用网络的模块进化[A];第十一次中国生物物理学术大会暨第九届全国会员代表大会摘要集[C];2009年
9 陈慰祖;庄彦;王存新;;用分子模拟方法研究胰岛素二聚体的相互作用和识别[A];第三届全国现代生物物理技术学术讨论会论文摘要汇编[C];2000年
10 马文;刘艳清;郭琼;邓玉林;;生物功能化色谱法研究胰岛素及其受体间的相互作用[A];第十五次全国色谱学术报告会文集(上册)[C];2005年
中国重要报纸全文数据库 前10条
1 记者 常丽君;科学家绘制出迄今最详细蛋白质相互作用图[N];科技日报;2011年
2 胡德荣;蛋白质相互作用网络预测新方法被发现[N];健康报;2007年
3 通讯员 甄蓓 特约记者 吴志军;肝脏蛋白质相互作用图绘出[N];健康报;2011年
4 甄蓓;我科学家成功绘制人类肝脏蛋白质相互作用网络连锁图[N];科技日报;2011年
5 甄蓓;人类肝脏蛋白质“关系网络图”绘成[N];中国医药报;2011年
6 毛黎;美开发细胞内蛋白质相互作用标识技术[N];科技日报;2007年
7 张佳星;人类为何如此与众不同[N];科技日报;2008年
8 白毅;我国计算生物学研究取得重要进展[N];中国医药报;2007年
9 余志平 编译;PCAs给我们带来了什么?[N];中国医药报;2007年
10 欣文;蛋白质相互作用导致疑难病症[N];医药经济报;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026