收藏本站
《西安电子科技大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于支持向量机的蛋白质结构类预测及蛋白质相互作用网络拓扑结构分析

王晶  
【摘要】:随着蛋白质与基因测序技术的进一步发展,尤其是基因组计划的启动使得有关蛋白质的生物序列飞速增长。生物序列的海量产生、收集,造成已知蛋白质序列和已知蛋白质结构、功能之间的数量差距越来越大。开发具有一定智能、可以自动识别蛋白质结构、功能等生物信息的自动系统或模式识别方法成为了现实地、迫切地需求。基于机器学习和人工智能方法的蛋白质结构、功能预测一直是生物信息学研究的重点问题同时也是生物信息学面临的重大挑战。大量的文献报道和研究结果表明模式识别方法在蛋白质二级结构预测中取得了巨大的成功,同时产生了大量鲁棒性的方法,一些方法对蛋质二级结构地预测准确率可以达到75%以上。在高效、快捷地实验室蛋白质结构与功能测定技术出现前,通过综合应用计算机技术、数学方法和分子生物学理论从大量的蛋白质一级序列数据中获取蛋白质结构功能等生物意义是生物信息学的首要任务和重点研究对象之一。本文的主要工作就是从生物序列出发,应用支持向量机(SVM)和蛋白质序列融合表征方法进行蛋白质结构类预测研究。蛋白质结构类预测是蛋白质结构预测的一个重要组成部分,使得人们从大体上把握蛋白质的折叠情况成为现实。蛋白质结构类型预测可以对二级结构的预测提供重要的信息。Levitt和Chothia于1976年定义了蛋白质的四种结构类型:全α蛋白质(主要由α螺旋组成的蛋白质);全β类蛋白质(主要由β折叠组成的蛋白质);α/β类(由α螺旋和β折叠交替排列组成的蛋白质);α+β类(由分开的α螺旋和β折叠组成,其中β折叠一般为平行结构)。蛋白质结构类预测地方法主要有通过光谱数据的实验室预测方法和模式识别预测方法,本文完成了蛋白质结构类预测的工作:基于多分类支持向量机(Multi-Class SVM)和融合特征表征方法地蛋白质结构类预测(第二章)、蛋白质相互作用网络拓扑结构分析的工作(第三到第四章)。(1)首先从RCSB pdb数据库随机提取3类(α类、β类、α+β类)蛋白质数据的序列信息,经过Blast处理后,共有90条数据;其次,使用Haffman编码、PseAAc(伪氨基酸)、Haffman编码与PseAAc组合、字符概率与PseAAc组合四种替代模型用于氨基酸序列数字表征。“one against one”和“one against rest”分解策略用于替代模型训练多分类支持向量机。实验结果表明:Haffman编码替代模型分类器的准确率较低,说明模型表征蛋白质结构类信息能力低;采用PseAAc替代模型分类器的准确率较Haffman编码替代模型高;Haffman编码在一定程度上能体现出编码的序列特性,把Haffman编码与PseAAc组合替代模型,分类器的准确率较PseAAc替代模型低;采用字符概率与PseAAc组合替代模型的分类器准确率较高;再次,4种替代模型在“one against rest”分解策略中遇到了预测偏置问题,对正样本为α+β类蛋白质的预测精度低于30%,为了提高模型稳定性,通过对正样本惩罚系数加权,得到的结果表明在PseAAc、字符概率与PseAAc组合两种替代模型中能有效解决偏置问题;然后比较了两种分解策略之间分类器的稳定性,得到“one against rest”分解策略中的分类器经过偏置调整后,更具有推广能力;最后得出结论,在字符概率与PseAAc组合替代模型中使用“one against rest”分解策略训练分类器最优。(2)用复杂网络的概念表达DIP数据库中Giot2003a数据集中涵盖的蛋白质互作网络,计算了基于静态蛋白质互作网络的参数主要有度中心性、介数中心性、子图中心性、特征路径聚集系数等网络拓扑特征。然后根据计算结果,发现蛋白质互作网络具有幂律度分布、无标度、小世界等特性。猜想蛋白质互作网络中有可能包含大量四面体结构,由此提出了一种基于四面体结构的网络模型:底质为层次四面体结构,由底质添加捷径进而形成一组四面体复杂网络簇。再由简单C代码得到不同概率加边的边表,写入R软件得到不同的网络,因为添加捷径时都是由高层向底层加边,所以会形成结点度分布不均匀的现象,计算四面体网络簇的拓扑参数,验证四面体簇为复杂网络,然后将得到的拓扑参数同蛋白质互作网络的极大连通子图的拓扑参数比较,发现度,聚集系数,特征路径等拓扑参数相近,且度分布符合幂律分布。得出结论:由四面体模型得到的复杂网络簇可以仿真蛋白质相互作用网络。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP181;Q811.4

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 王建;;蛋白质相互作用数据库[J];中国生物化学与分子生物学报;2017年08期
2 陈心浩;胡俭;;基于多特征融合预测蛋白质相互作用界面[J];中南民族大学学报(自然科学版);2017年03期
3 谭从娥;黄祥云;;基于蛋白质相互作用网络分析右归丸治疗肾阳虚证的疗效机制[J];中国中医药信息杂志;2016年02期
4 杨晓敏;李英伦;;基于蛋白质相互作用“热点”区域的小分子药物设计研究进展[J];生物物理学报;2015年02期
5 冯舒玥;;蛋白质相互作用的研究方法及进展分析[J];文理导航(中旬);2018年01期
6 任页玫;张蕾;石亚伟;;双分子荧光互补在蛋白质相互作用中的应用[J];湖北医药学院学报;2014年02期
7 商立民;贺福初;王建;;大规模蛋白质相互作用组实验技术及其应用[J];生命的化学;2013年05期
8 骆嘉伟;梁成;宋丹;李光辉;;蛋白质相互作用网络演化模型研究进展[J];计算机应用;2013年03期
9 李敏;武学鸿;王建新;潘毅;;蛋白质相互作用网络分析的图聚类方法研究进展[J];计算机工程与科学;2012年01期
10 王宏;蔡欣;白波;陈京;;荧光共振能量转移动态检测蛋白质相互作用的研究进展[J];济宁医学院学报;2012年01期
中国重要会议论文全文数据库 前10条
1 李占潮;周漩;戴宗;邹小勇;;基于一级结构信息预测蛋白质与蛋白质相互作用[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
2 代旭;敬闰宇;董永成;李梦龙;郭延之;;基于序列和结构信息预测蛋白质-蛋白质相互作用可药性[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
3 程钢;吴松锋;陈廷贵;万平;朱云平;贺福初;;22周孕龄胎肝蛋白质相互作用网络的构建[A];中国蛋白质组学首届学术大会论文摘要集[C];2003年
4 刘珍;孙景春;谢锦云;李亦学;梁宋平;石铁流;;蛋白质相互作用网络中的生物途径分析[A];中国蛋白质组学第二届学术大会论文摘要论文集[C];2004年
5 杨晓明;王建;许望翔;虞东辉;杨永升;刘琼明;周颖;张翠莉;吴志豪;张万巧;刘涛;唐刘君;原艳芝;郝峰;金超智;贺福初;;人类肝脏重要蛋白质相互作用连锁图研究进展[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
6 吴俊;邓宏钟;朱大智;谭跃进;;蛋白质相互作用网络的度秩函数与度分布[A];2006全国复杂网络学术会议论文集[C];2006年
7 李令东;田瑞军;唐伟;邹汉法;赵宗保;;携异戊烯链小分子与蛋白质相互作用的研究[A];第六届全国化学生物学学术会议论文摘要集[C];2009年
8 李立;肖奕;孙之荣;;酵母蛋白质相互作用网络的模块进化[A];第十一次中国生物物理学术大会暨第九届全国会员代表大会摘要集[C];2009年
9 龙勉;;蛋白质相互作用的生物力学及其应用[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(上册)[C];2007年
10 蔡浩洋;闵明玮;胡函;张义正;李校;;拟南芥蛋白质相互作用网络的性质研究及其预测[A];中国遗传学会第八次代表大会暨学术讨论会论文摘要汇编(2004-2008)[C];2008年
中国重要报纸全文数据库 前10条
1 潘锋 甄蓓;人类肝脏蛋白质相互作用网络连锁图绘就[N];科学时报;2011年
2 记者 常丽君;科学家绘制出迄今最详细蛋白质相互作用图[N];科技日报;2011年
3 通讯员 甄蓓 特约记者 吴志军;肝脏蛋白质相互作用图绘出[N];健康报;2011年
4 甄蓓;我科学家成功绘制人类肝脏蛋白质相互作用网络连锁图[N];科技日报;2011年
5 欣文;蛋白质相互作用导致疑难病症[N];医药经济报;2002年
6 ;日本发现蛋白质相互作用导致疑难病症[N];中国高新技术产业导报;2002年
7 胡德荣;蛋白质相互作用网络预测新方法被发现[N];健康报;2007年
8 余志平 编译;PCAs给我们带来了什么?[N];中国医药报;2007年
9 甄蓓;人类肝脏蛋白质“关系网络图”绘成[N];中国医药报;2011年
10 毛黎;美开发细胞内蛋白质相互作用标识技术[N];科技日报;2007年
中国博士学位论文全文数据库 前10条
1 常继伟;一种基于深度神经网络模型及蛋白相互作用预测癌症相关蛋白及蛋白组合的新方法[D];华中农业大学;2018年
2 熊玉锋;基于均相免疫分析技术检测蛋白质相互作用的方法建立及其在新药研发中的应用[D];南方医科大学;2018年
3 曹步文;蛋白质相互作用网络中复合物识别算法研究[D];湖南大学;2016年
4 骆斯伟;细胞内蛋白质相互作用组定量研究新方法的建立及其应用[D];中国科学技术大学;2019年
5 魏志森;蛋白质相互作用位点预测方法研究[D];南京理工大学;2016年
6 刘光徽;蛋白质相互作用位点及亚细胞定位预测研究[D];南京理工大学;2017年
7 姚恒;基于机器学习方法预测拟南芥功能关联互作组和基于网络驱动的组学数据分析系统[D];浙江大学;2018年
8 李宏;植物蛋白质相互作用组的整合分析[D];中国农业大学;2018年
9 安计勇;基于相关向量机的蛋白质相互作用预测研究[D];中国矿业大学;2018年
10 王芬;猪miRNA调控蛋白质相互作用“双色网络”预测及呼吸道病毒病系统生物学分子机制分析[D];西北农林科技大学;2014年
中国硕士学位论文全文数据库 前10条
1 王晶;基于支持向量机的蛋白质结构类预测及蛋白质相互作用网络拓扑结构分析[D];西安电子科技大学;2018年
2 曾建沧;基于机器学习的蛋白质相互作用预测研究[D];厦门大学;2017年
3 温玉婷;基于多模态特征融合的蛋白质相互作用预测[D];深圳大学;2018年
4 沈彤;基于序列分段近邻编码的蛋白质热点残基预测方法研究[D];安徽大学;2019年
5 刘全亚;蛋白质突变位点数据库的构建及位点预测研究[D];安徽大学;2019年
6 李迎宾;咪唑类离子液体表面活性剂的性能及与蛋白质相互作用研究[D];郑州轻工业大学;2019年
7 胥晓莎;蛋白质相互作用时序网络模型及动态性质研究[D];湖南理工学院;2018年
8 吴蔷梅;基于蛋白质相互作用网络的分析算法的研究[D];扬州大学;2018年
9 汪媛媛;蛋白质相互作用位点的预测方法研究[D];安徽工业大学;2018年
10 张添翼;基于矩阵分解算法的长非编码RNA-蛋白质相互作用预测研究[D];中国科学技术大学;2018年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026