收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

机器学习方法预测蛋白质相互作用应用Logistic回归提高质谱多肽鉴定的准确度

邵晨  
【摘要】: 蛋白质组学成为后基因组时代的热点学科。生物质谱、蛋白质芯片等高通量实验技术的发明极大地推动了蛋白质组学的发展。本文致力于通过生物信息学的方法,进一步提高当前高通量实验技术的效率和精确程度,以更低的实验代价,获得更加全面、准确的实验结果。 蛋白质—蛋白质相互作用在生命过程中起着重要的作用。通过多年的生物学实验,已经积累了大量的蛋白质相互作用数据,但未知的相互作用还有很多。目前筛选蛋白质相互作用的实验方法既耗费人力物力,而且由于丰度抑制的原因而很难鉴定出低丰度的蛋白之间的相互作用。一条更简单的途径是通过生物信息学的方法首先用计算机筛选蛋白质数据库,预测出潜在的蛋白质相互作用,然后再用生物学实验进行验证。这个策略具有比实验手段高得多的通量,而且可以解决丰度抑制的问题。 在蛋白质—蛋白质相互作用的类型中,有相当一部分相互作用是通过蛋白质的某个结构域与其配体蛋白上的一段短肽相结合来实现的,这种结构域被称为多肽识别元件(Peptide recognition module,PRM)。本文的第一章通过研究PRM结合多肽的结合特性,预测了蛋白质—蛋白质之间的相互作用。 以PDZ结构域为例,结合了基于结构的和基于序列的预测方法,本文建立了一个整合的预测系统来预测结构域和配体间的相互作用。在这个系统中,我们提取了结构域和配体三维结构上相互接触的氨基酸残基来代替序列全长,利用三种新型的氨基酸编码方式,用支持向量机和人工神经网络两种机器学习算法分别建立了三个子预测系统,最后将它们的预测结果综合在一起。 用交叉验证的方法来评价,预测系统的特异性为0.99,灵敏度为0.60。然而,由于已知的一个结构域的配体通常只有几十或几百个,远远小于蛋白质数据库的上万个蛋白的规模,仅仅建立在少量数据上的交叉验证的评价结果不一定能保证预测方法在筛选数据库时的成功。为了验证这一点,本文从Swissprot人类数据库中为3个PDZ结构域筛选了配体蛋白序列,预测结果的相当一部分与高通量的体外实验(peptide SPOT array)的结果重合,证明了预测系统的泛化能力。 串联质谱技术(MS/MS)是常用的蛋白质组学研究方法。在这个方法中,蛋白质混合物首先被酶切为多肽混合物,在质谱仪中被离子化,再经过碎裂后产生大量的二级质谱图。数据库检索是常见的质谱数据处理方法。其主要思想是将实验谱图与数据库中的酶切多肽的理论谱图进行比对,通过特定的打分算法,找到匹配最佳的多肽。由于样品和实验原理的复杂性,质谱图带有很高的噪声,为后续的数据处理工作带来了很大的难度。目前已有多种算法用来优化多肽的鉴定,但阳性和阴性的多肽鉴定仍不能够被完美地区分。为了保证鉴定结果的可信,就不得采用更严格的参数限制来去除假阳性鉴定,与此同时不可避免地产生了大量的假阴性鉴定,降低了蛋白质组学研究的效率。 本文的第二章建立了一个新的参数Oscore,对实验谱图与多肽的匹配进行打分。Oscore基于logistic回归模型建立,以18个标准蛋白数据集作为学习集,可以直接地计算出谱图与多肽的匹配为正确匹配的概率。回归模型的自变量包括:SEOUEST软件输出的参数Xcorr,△Cn,Sp(preliminary score)和实验室自制的AMASS(Sun etal.Mol Cell Proteomics.2004 Dec;3(12):1194-9)软件的输出参数Rscore,Cont,Matchpct,以及多肽电荷数和漏切位点数(number of missed internal cleavage sites)。AMASS的三个参数考虑了子离子强度和b/y系列离子的连续性的信息,有助于区分阳性和阴性的多肽鉴定。由于上述的8个参数之间具有复杂的相关关系,将它们组合成Oscore可以提高鉴定的准确度。 与常用的软件PeptideProphet相比,Oscore同时在多个数据集上表现出更好的特异性(低假阳性率)和灵敏度(低假阴性率)。这些数据集包括标准蛋白混合物数据集和3个蛋白质组水平的数据集,涵盖了不同的样品复杂度、数据库规模和分离方式,在一定程度上表明了Oscore的泛化能力。通过一个同样基于logistic回归,但只采用PeptideProphet所用参数的新模型,本文探讨了Oscore具有更好的判别能力的原因。 目前的Oscore针对的是具有完全酶切的末端(即多肽的两端都是由胰酶酶切在氨基酸K或R之后产生)的多肽,提高非完全酶切的多肽的鉴定水平将是今后的工作。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 施卫萍;;生物信息学研究进展[J];安徽农学通报(下半月刊);2009年10期
2 陈龙;朱化彬;沙里金;王栋;王宗礼;程金华;郝海生;杜卫华;;蛋白质组学数据库建设的研究进展[J];畜牧与兽医;2008年08期
3 杨彩娥;匡铁吉;;蛋白质组学研究技术及进展[J];武警医学;2007年01期
4 孙青菊;焦炳华;;线粒体蛋白质组学[J];生命的化学;2008年05期
5 孙爱华;姜颖;贺福初;;线粒体蛋白质表达谱的研究进展[J];遗传;2006年10期
6 ;《基因组研究手册》——基因组学、蛋白质组学、代谢组学、生物信息学、伦理和法律问题(翻译版)[J];科学通报;2009年10期
7 ;科学出版社新书推介(2009-03)[J];微生物学报;2009年06期
8 王英超;党源;李晓艳;王兴龙;;蛋白质组学及其技术发展[J];生物技术通讯;2010年01期
9 张根连;范术丽;宋美珍;庞朝友;喻树迅;;植物蛋白质组学技术研究进展[J];生物技术通报;2011年07期
10 王阳梦;董银卯;何聪芬;;蛋白质组学核心技术研究进展[J];北京工商大学学报(自然科学版);2006年04期
11 刘东;;蛋白质组学及其研究进展[J];中山大学研究生学刊(自然科学、医学版);2007年04期
12 丁鸿;邱东萍;;蛋白质组学研究技术综述[J];江西农业学报;2008年08期
13 徐燕;田晓;;基于测序软件进行生物信息学中数据分析[J];武汉生物工程学院学报;2007年04期
14 胡绍军;;蛋白质组学数据库信息资源开发与利用[J];图书馆学研究;2006年07期
15 陶彦彬;蒋建雄;易自力;李骏智;;功能基因组学及其研究方法[J];生物技术通报;2007年05期
16 孙敏;马月辉;叶绍辉;;生物信息学研究进展[J];家畜生态学报;2006年01期
17 黄啸;;生物信息学在蛋白质组学上的应用[J];安徽农业科学;2006年23期
18 金锋;;蛋白质组学研究相关技术与应用[J];明胶科学与技术;2008年01期
19 高华;高述民;孙芳芳;;蛋白质组学及其在植物研究中的应用[J];安徽农学通报(下半月刊);2010年08期
20 葛圣雷;陈主初;肖志强;谢鼎华;;分泌性蛋白质的研究策略[J];生命的化学;2005年06期
中国重要会议论文全文数据库 前10条
1 蒋智钢;吴聪明;张万江;沈建忠;;蛋白质组学及其在细菌耐药性研究中的应用[A];中国畜牧兽医学会兽医药理毒理学分会第十次研讨会论文摘要集[C];2009年
2 葛剑徽;李成;谢迅雷;;生物信息学发展现状与前景展望[A];2008年中华临床医学工程及数字医学大会暨中华医学会医学工程学分会第九次学术年会论文集[C];2008年
3 果德安;;蛋白质组学技术在中药研究中的应用[A];中医药中青年科技创新与成果展示论坛论文集[C];2009年
4 果德安;;蛋白质组学技术在中药研究中的应用[A];自主创新与持续增长第十一届中国科协年会论文集(3)[C];2009年
5 孙瑞祥;付岩;张京芬;李德泉;王海鹏;蔡津津;王晓彪;曾嵘;贺思敏;高文;;蛋白质组质谱信息处理的关键算法研究[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
6 孙伟;李伏欣;高友鹤;;二级质谱鉴定多肽的生物信息学质量控制[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
7 洪桢;刘军;丁健青;陈生弟;;磷酸化修饰的蛋白质组学研究揭示胶质细胞源性神经营养因子下游信号分子[A];第十一届全国神经病学学术会议论文汇编[C];2008年
8 陈华;唐福林;姚志建;;运用蛋白质组学技术对Sa抗原的研究[A];第十届全国风湿病学学术会议论文集[C];2005年
9 杨松成;;质谱在蛋白质组学中的一些应用[A];中国化学会第十三届有机分析与生物分析学术会议论文集[C];2005年
10 王静;葛晓慧;郭红燕;熊光武;韩劲松;张璐芳;张小为;;早期和晚期卵巢癌蛋白质组学的初步研究[A];中华医学会第一届全球华人妇产科学术大会暨第三次全国妇产科中青年医师学术会议论文汇编[C];2007年
中国博士学位论文全文数据库 前10条
1 邵晨;机器学习方法预测蛋白质相互作用应用Logistic回归提高质谱多肽鉴定的准确度[D];中国协和医科大学;2008年
2 张晓丽;几种舌苔蛋白组学初步研究[D];湖北中医学院;2008年
3 谢江;蛋白质相互作用网络的数值研究[D];上海大学;2008年
4 李旭东;高恶性膀胱移行细胞癌与相应正常上皮比较蛋白质组学的初步研究[D];天津医科大学;2006年
5 何昆;H-Ras介导细胞转化的蛋白质组学分析[D];中国人民解放军军事医学科学院;2007年
6 缪爱珠;HSF4对HLECs蛋白表达的影响及与老年性白内障的相关性研究[D];复旦大学;2009年
7 江晓华;多烯紫杉醇对人肝癌细胞系HepG2蛋白质组影响的体外实验研究[D];中南大学;2006年
8 代景泉;糖蛋白质谱分析和过甲酸氧化用于蛋白质组学的方法学研究[D];中国人民解放军军事医学科学院;2005年
9 吴松锋;蛋白质组表达谱基本生物信息学研究及全蛋白质组等电点分布研究[D];中国人民解放军军事医学科学院;2005年
10 刘小丽;重型肝炎血清的蛋白质指纹图谱研究[D];浙江大学;2005年
中国硕士学位论文全文数据库 前10条
1 郑小莉;ONO-AE-248诱发中性粒细胞非凋亡性程序化死亡的蛋白质组学研究[D];泸州医学院;2006年
2 龙强;龙眼(Dimocarpus longan Lour.)成花逆转蛋白质组学的初步研究[D];福建农林大学;2006年
3 谢靖宇;一种基于串联质谱鉴定蛋白质突变和翻译后修饰的算法[D];湘潭大学;2006年
4 张雷;非创伤性股骨头缺血性坏死的高通量蛋白质组学研究[D];浙江大学;2009年
5 肖智权;帕金森病相关蛋白质相互作用网络的构建[D];中南大学;2008年
6 韦涌涛;应用SELDI-TOF质谱技术筛选直肠癌病人血清中特异性生物标志物[D];青岛大学;2007年
7 张红媛;儿童结核性脑膜炎脑脊液蛋白质组学的初步研究[D];中南大学;2007年
8 曹洪祥;甜菜M14品系花器官特异表达蛋白质的研究[D];黑龙江大学;2009年
9 黄江丽;苏云金杆菌三个亚种和两个工程菌株杀虫晶体蛋白的比较蛋白质组研究[D];湖南师范大学;2006年
10 王利;基于支持向量机血清蛋白质指纹图谱模型在甲状腺癌诊断中应用研究[D];郑州大学;2006年
中国重要报纸全文数据库 前10条
1 记者 吴月辉;蛋白质组学在美逐步形成市场[N];新华每日电讯;2001年
2 ;抓紧蛋白质组学的研究[N];中国医药报;2002年
3 黎明;科学新宠——蛋白质组学[N];医药经济报;2001年
4 前线;蛋白质组学产业正逐渐形成[N];中国经营报;2001年
5 麦国荣;蛋白质组学[N];中国医药报;2001年
6 王雪飞 吴志军;首建人类器官蛋白质组“蓝图”[N];健康报;2006年
7 李平平 申竹芳;蛋白质组学提速糖尿病学研究[N];中国医药报;2006年
8 特约记者 郝成涛 记者 于春光;为肿瘤疾病的防治研究开辟新途径[N];解放军报;2009年
9 本报特约记者 吴志军 郝成涛;为科学攀登搭建精神高地[N];解放军报;2010年
10 阳光;中科院大连化物所为蛋白质组学研究提供新方法[N];中国医药报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978