收藏本站
《湖南大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

基于GO语义相似性的蛋白质亚细胞定位预测研究

张向亮  
【摘要】:人类基因组测序完成使得蛋白质序列信息呈指数级增长,大规模蛋白质序列涌入生物学数据库,过快的发展速度导致序列已知的蛋白质与功能已知的蛋白质之间的差距越来越大,这种失衡局面将严重制约蛋白质组研究以及新药物开发。蛋白质功能与蛋白质所属的亚细胞位置关系相当密切,蛋白质只有被运送到正确的亚细胞中,才能发挥其正常的功能,否则,就会给生物体内带来严重的后果。因此,蛋白质亚细胞定位信息有助于蛋白质功能预测,在蛋白质组学中蛋白质亚细胞定位的研究越来越重要。在传统生物学观点看来,基因、蛋白质及亚细胞这三者之间关系是一个基因对应一个蛋白质,一个蛋白质对应一个亚细胞位置,所以大部分蛋白质亚细胞定位预测方法建立在这种传统观点基础上。尽管对于这种单位点蛋白亚细胞定位预测已经取得一定效果,但是仅仅研究单位点蛋白并不能满足需求,因为多位点蛋白也需要被预测,并且可能多位点蛋白具有更加重要的意义,比如多位点蛋白更容易发生定位异常,更可能是引起疾病的原因。目前人们已经开始研究多位点蛋白亚细胞定位预测,但还处于起步阶段,尚不够完善。研究表明,越全面,越具有代表性的特征将越利于提高蛋白质亚细胞定位预测的准确率,而且大量研究人员通过上述方式提高了亚细胞定位的预测准确率。比如说同时考虑GO注释信息和氨基酸疏水信息获得不错的实验效果。理论上来讲,生物信息越全面,越有利于提高实验结果。所以,如何选择更加全面更加具有代表性的特征,是一个值得人们去探讨和研究的问题,这也正是本文的研究工作。如果一组基因拥有同一生物功能,而且该组基因属于同一种调控机制,那么其GO术语就相似。目前已有文献只是简单考虑GO是否出现,而没有考虑GO术语之间的相似性,我们称这种特征向量为传统GO特征向量。传统GO特征向量通过1和0来表示GO术语的有和无,而基于GO语义相似性的新GO特征向量将前者中的0值由新计算出来的值代替,而保持1值不变,因此新的GO特征向量是对传统GO特征向量的补充,是一种更加全面的特征代表。蛋白质亚细胞定位预测的主要步骤是特征提取与分类算法实现,本文主要研究蛋白质亚细胞定位中的特征提取方法以及分类算法的设计,主要工作如下。本文提出了一个新的蛋白质亚细胞位置预测方法,即GSS-mPloc,不仅考虑GO术语是否出现,还考虑了它们之间的关系。而这通过利用GO术语之间的语义相似性来实现。给定一个蛋白,通过搜索Gene Ontology数据库来获得GO术语集合,如果该蛋白被某个GO注释,那么该GO对应的属性值为1,否则为0,据此得到该蛋白的GO特征向量(6749维),其中每一维的值为0或1。然后利用GO术语之间的语义相似性来改进原始GO特征。具体改进如下,将某个未出现的GO与所有出现GO的语义相似性值平均后,平均值作为该未出现GO的新值。据此得到新的特征向量(6749维),其中每一维的值介于0与1之间。基于多标记多分类支持向量机分类算法ML-SVM被引入来对新的特征向量进行分类。在标准人类数据集上,蛋白质亚细胞位置预测的绝对正确率为71.8%,高出目前已有分类器3.6%。实验证明,GO语义相似性特征优于传统GO特征,而且基于SVM的分类算法优于基于KNN的分类算法。
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:Q51;TP181

【参考文献】
中国期刊全文数据库 前3条
1 程昔恩;吴志诚;;一种新的蛋白质亚细胞定位预测方法[J];计算机工程与应用;2012年06期
2 张树波;赖剑煌;何建国;;一种基于最优局部信息融合的蛋白质亚细胞定位预测方法[J];中山大学学报(自然科学版);2008年06期
3 张松;夏学峰;沈金城;孙之荣;;基于序列保守性和蛋白质相互作用的真核蛋白质亚细胞定位预测[J];生物化学与生物物理进展;2008年05期
【共引文献】
中国期刊全文数据库 前8条
1 彭丹;张霞;张富春;;盐穗木功能未知蛋白(HcUKPP)的亚细胞定位[J];中国生物化学与分子生物学报;2014年12期
2 吴泽月;陈月辉;;蛋白质亚细胞定位预测研究进展[J];山东师范大学学报(自然科学版);2012年04期
3 王丰青;魏荷;童治军;吴为人;;水稻中介体亚基OsMed6的表达及进化分析[J];福建农林大学学报(自然科学版);2011年05期
4 王伟;郑小琪;窦永超;刘太岗;赵娟;王军;;基于最优分割位点的蛋白质亚细胞位点预测方法[J];生物信息学;2011年02期
5 张艳;孙慈;项新媛;左永春;李前忠;;氨基酸约化分类对亚线粒体蛋白定位的预测[J];内蒙古大学学报(自然科学版);2011年03期
6 刘立元;陈月辉;马炳先;曹毅;;利用进化模糊K近邻及其集成预测蛋白质亚核定位[J];济南大学学报(自然科学版);2010年04期
7 钱建新;董克家;;miR-29b微RNA定位序列的素数组合规律[J];海南医学院学报;2009年06期
8 马淑杰;李前忠;左永春;;全α类蛋白质超家族保守模体特征的分析[J];内蒙古大学学报(自然科学版);2009年02期
【相似文献】
中国期刊全文数据库 前10条
1 赵禹;赵巨东;姚龙;;用离散增量结合支持向量机方法预测蛋白质亚细胞定位[J];生物信息学;2010年03期
2 崔晓兵;;Akt亚型的亚细胞定位决定了其特异的生物学作用[J];生理科学进展;2010年03期
3 宋杰;;蛋白质亚细胞定位预测的最近邻算法[J];计算机应用研究;2007年11期
4 曾洁;黄凤智;李本昌;刘梦昕;黄萱;;一种根癌农杆菌介导的GFP亚细胞定位方法的优化[J];基因组学与应用生物学;2014年01期
5 赵南;张梁;薛卫;王雄飞;任守纲;;词袋模型在蛋白质亚细胞定位预测中的应用[J];食品与生物技术学报;2017年03期
6 杨红;徐慧敏;严寿江;陈静;耿丽丽;姚玉华;;基于氨基酸约化和统计特征的蛋白质亚细胞定位预测[J];生物信息学;2015年02期
7 Sakamoto K ,Briggs WR ,童哲;向光色素Phototropin 1的细胞和亚细胞定位[J];植物学通报;2002年05期
8 李凤敏;李前忠;;革兰氏阴性菌中蛋白质亚细胞定位预测[J];内蒙古大学学报(自然科学版);2007年01期
9 王建军;赵平;靳雪源;成军;卿松;赵志海;丁宁;;乙肝病毒e抗原反式激活蛋白的亚细胞定位研究[J];中华实验和临床病毒学杂志;2006年04期
10 胡莲美;朴英杰;郑文岭;;外源重组基因表达产物亚细胞定位的研究现状[J];中国临床康复;2005年35期
中国重要会议论文全文数据库 前10条
1 陈虎;孙之荣;;蛋白质亚细胞定位:数据整合和预测系统[A];第十次中国生物物理学术大会论文摘要集[C];2006年
2 赵燕;张耀洲;童富淡;;家蚕HMGA的表达差异和亚细胞定位[A];全国动物生理生化第十二次学术交流会论文摘要汇编[C];2012年
3 ;石斑鱼死亡调节相关基因GRIM-19的克隆和亚细胞定位分析[A];2010年中国水产学会学术年会论文摘要集[C];2011年
4 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 杨丹;张耀洲;;家蚕pBmHPC-21基因的克隆、表达及亚细胞定位[A];华东六省一市生物化学与分子生物学会2009年学术交流会论文摘要汇编[C];2009年
6 张松;夏学峰;沈金城;孙之荣;;基于序列保守性和蛋白质相互作用的真核蛋白质亚细胞定位预测[A];第九届全国酶学学术讨论会暨邹承鲁诞辰85周年纪念会论文摘要集[C];2008年
7 顾海科;韩玉珍;;植物类三磷酸肌醇受体蛋白的鉴定与亚细胞定位[A];中国植物生理学会第九次全国会议论文摘要汇编[C];2004年
8 王杰;贾菲菲;林煜;赵耀;汪福意;;基于二次离子质谱成像的蛋白质亚细胞定位分析方法[A];第三届全国质谱分析学术报告会摘要集-分会场5:有机/生物质谱新方法[C];2017年
9 冉昆;魏树伟;孙晓莉;王宏伟;张勇;董冉;王少敏;;杜梨转录因子基因Pb4RMYB的分离、表达及亚细胞定位分析[A];中国园艺学会2017年论文摘要集[C];2017年
10 王韻;周新;汪炳华;陈丽达;曹金秀;;MM-LDL对内皮细胞cPLA_2活性、表达及亚细胞定位的影响[A];湖北省暨武汉生物化学与分子生物学学会第八届会员代表大会和第十五次学术年会论文摘要汇编[C];2004年
中国博士学位论文全文数据库 前10条
1 乔善平;基于集成多标记学习的蛋白质亚细胞定位预测系统研究与实现[D];山东师范大学;2017年
2 梁芸芸;蛋白质结构类与亚细胞定位预测中的特征提取方法研究[D];西安电子科技大学;2017年
3 马军伟;基于机器学习方法的蛋白质亚细胞定位预测研究[D];大连理工大学;2011年
4 梅素玉;基于机器学习的蛋白亚细胞定位预测[D];复旦大学;2010年
5 陈小姣;番茄抗病蛋白Sw-5b自抑制与激活的调控机理及亚细胞定位研究[D];南京农业大学;2016年
6 曹隽喆;基于机器学习的多定位点蛋白质亚细胞定位预测方法研究[D];大连理工大学;2013年
7 陈育栋;胃癌组织中PTEN的表达及其临床意义[D];复旦大学;2013年
8 王小利;高羊茅春化和光周期调控相关基因的克隆及差异表达研究[D];四川农业大学;2010年
9 李兵;棉花(Gossypium hirsutum)膜联蛋白基因克隆鉴定及功能研究[D];华中师范大学;2012年
10 孙炳剑;小麦黄花叶病毒遗传变异及小麦品种的抗性分析[D];福建农林大学;2011年
中国硕士学位论文全文数据库 前10条
1 张向亮;基于GO语义相似性的蛋白质亚细胞定位预测研究[D];湖南大学;2015年
2 张盛勇;1型鸭甲肝病毒3A蛋白亚细胞定位及间接ELISA方法的建立[D];四川农业大学;2017年
3 徐珊珊;基于Convolutional-LSTM的蛋白质亚细胞定位研究[D];哈尔滨工业大学;2018年
4 郭铭凯;玉米高亲和钾转运体ZmHAK1的亚细胞定位及其功能研究[D];吉林大学;2018年
5 李珊;蛋白质亚细胞定位的机器学习方法及其应用研究[D];青岛科技大学;2018年
6 李晨露;水稻亚细胞定位标记系稳定遗传株系培育及其应用初探[D];福建农林大学;2017年
7 田正卫;基于序列特征的多位点亚细胞定位预测研究[D];东北师范大学;2017年
8 杨旭前;基于直推学习的蛋白质亚细胞定位预测[D];大连理工大学;2014年
9 邹怡;基于数据挖掘技术的亚细胞定位点预测算法研究[D];上海交通大学;2008年
10 蒋君宝;基于序列多信息融合的蛋白质亚细胞定位预测方法研究[D];湖南大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026