收藏本站
《中国人民解放军军事医学科学院》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

蛋白质组质谱数据分析平台的建立及其在大规模数据分析中的应用

李丽伟  
【摘要】:蛋白质组学是后基因组时代生命科学研究的热点之一,它研究生物体细胞、器官乃至组织的蛋白质表达规律,并阐明其生物学意义。蛋白质组学研究的重要技术之一是生物质谱技术,对着生物质谱技术的发展,促进了大规模蛋白质组研究的开展,实现高通量、高灵敏度和高分辨率的蛋白质组学研究分析平台。鸟枪法蛋白质组鉴定是蛋白质组研究最重要的研究策略:通过实验产出串联质谱数据,通过搜索蛋白质序列数据库获得可靠鉴定肽段结果,并进一步通过蛋白质的推导获得鉴定蛋白质结果。由于质谱数据的特性,生物样品多样、实验过程复杂、现有搜索算法和质量控制方法局限,尽管数据库搜索策略可以提高生物质谱数据的解析效率,但仍不能完全解决蛋白质鉴定问题。如何保证鉴定结果的正确性和完整性,是数据库搜索策略的主要问题。随着质谱仪不断发展,海量高精度质谱数据不断产出,大规模蛋白质组质谱数据研究的分析方法明显滞后。质谱数据分析的瓶颈,已经不再是实验数据的产出,而是数据的有效分析。因此建立质谱数据分析平台,实现大规模质谱数据分析自动化实现十分必要。另一方面,高精度串联质谱(MS/MS)数据所蕴含的肽段信息可为基因组解析注入新的思路,从高精度MS/MS数据出发,利用基因组数据库搜索,可进一步提高质谱数据解析率。蛋白质组基因组学的研究理念是整合串联质谱数据注释基因组蛋白质编码基因。本课题致力于基于数据库搜索策略的质谱数据分析流程的改善、平台构建及其在人类肝脏蛋白质组等大规模数据分析中的应用。首先比较谱图、肽段、蛋白质水平质量控制方法的严格性,并开发了针对Mascot搜索引擎的质量控制和蛋白质装配程序ProDistiller;然后探索了常用蛋白质序列数据库的区别及其对对鉴定结果的影响,并依据我们实验室长期的数据分析经验,整合质谱数据分析软件、构建质谱数据分析平台Mass Spectrum Data Processing Pipeline(MSPP)。基于研究发展的质控方法和数据分析平台,我们对人类染色体蛋白质组计划产出以及收集的人类肝脏蛋白质组的海量数据集展开了系统的分析。最后我们建立了基于基因组数据库和预测蛋白质组数据库挖掘新蛋白的数据分析流程,实现了海量人类蛋白质组质谱数据的深度解析。具体内容包括:蛋白质水平质控方法是较谱图水平、肽段水平质控更为严格的质量控制方法。尤其对于复杂样本数据集,整合实验数据多,蛋白质水平累积的假阳性鉴定也多。我们开发基于PepDistiller结果进行蛋白质水平质量控制和蛋白质装配的ProDistiller程序,设置图谱打分F-value,对同一个样本的图谱结果进行排序逐个组装蛋白,在蛋白水平FDR达到1%时停止组装获得卡值,蛋白质装配基于简单原则法。ProDistiller使用Perl语言编写,可以在多种平台下运行,结果中保留肽段鉴定的属性,如电荷,漏切位点数,母离子和子离子质量误差等。目前常用蛋白质组序列数据库有NCBI nr、UniProt、RefSeq、Ensembl等,这几个数据库在理论肽段构成上基本相似,差别在于存着不同可变剪接形式的蛋白质。注释较好的Uniprot和SwissProt数据库所得到的鉴定结果要比其它数据库多。另一方面Uniprot和Swiss Prot数据库大小远小于Ensembl数据库、RefSeq数据库和NCBI nr数据库,对计算所需硬件和时间需求较小。因此我们建议在常规的蛋白质组质谱鉴定的数据库搜索中,数据质量高、冗余度低的Uniprot和Swiss-Prot数据库是最佳选择,以基因为中心的研究可采用Swiss-Prot为搜索数据库。质谱数据分析平台(MSPP)有效整合并实现了多种搜索引擎搜索、多水平质控和整合、有标/无标定量等多个功能模块,并考虑了多节点调度和任务分配,能够满足海量数据处理的需求。该平台已成功地应用于中国人类蛋白质组计划、人类染色体蛋白质组计划和人类肝脏蛋白质组数据集的数据分析中,至今已累积处理超过4亿张谱图。随着蛋白质组质谱技术的高速发展,数据规模逐渐增大,大规模高通量自动化分析,高性能计算平台需要进一步优化任务调度、数据分发和结果收集,建立高通量、自动化的串联质谱数据的新蛋白质鉴定平台。MSPP成功应用于人类染色体蛋白质组计划中复杂样本的数据分析。我们对三组具有不同转移潜能人类肝癌细胞系样本Hep3B,HCC97H和HCCLM3进行转录组、翻译组和蛋白质组的深度测序分析,蛋白质组学鉴定9064个基因,是翻译组基因总数的50.2%。其中通过转录因子富集策略,鉴定到31个低丰度蛋白质,证明富集策略对低丰度蛋白鉴定的有效性。通过样本特异性数据库搜索,我们发现SAP只占总鉴定肽段数目的0.4%,这表明单一氨基酸多态性对蛋白质鉴定影响很小。为获得最完整的人类肝脏蛋白质组数据集,我们系统收集尽可能完整肝脏相关的质谱数据,记录样品状态,获得最完整的肝脏质谱数据第一版。实验数据按照样本类型分为成人肝、胎肝和肝癌细胞系三种。使用MSPP用于肝脏质谱数据重分析,构建最新版高可信的人类肝脏蛋白质组数据集,共鉴定9901个基因,鉴定结果远远高过PeptideAtlas中的现有人类肝脏数据集的数据量(4,408个蛋白质)。与SwissProt和ProteinAtlas中的肝脏组织特异性表达谱数据比较,发现仍有大量漏检蛋白质。分析其鉴定谱图的打分情况发现,很多鉴定图谱并不是打分值低被过滤,而是具有较好打分,导致鉴定结果存在大量的假阴性。我们建立了基于基因组数据库的数据分析流程,初步实现了海量人类蛋白质组质谱数据的深度解析。使用高精度质谱数据搜索基因组数据库(理论外显子连接体数据库)和预测蛋白质AceView数据库,我们发现了一些图谱高可信的候选结果,包括5条可能是新AS的肽段和3条新蛋白肽段。虽然结果仍需要进一步实验验证,但此次试验证明了基于质谱数据注释基因组的可行性,确定了分析方法。
【学位授予单位】:中国人民解放军军事医学科学院
【学位级别】:博士
【学位授予年份】:2017
【分类号】:Q51;Q811.4

【相似文献】
中国期刊全文数据库 前10条
1 李义峰;刘毅慧;;基于模拟退火算法的高分辨率蛋白质质谱数据特征选择[J];生物信息学;2009年02期
2 马海滨;张纪阳;刘辉;孙汉昌;谢红卫;;蛋白质组学中质谱数据标准研究进展[J];质谱学报;2011年03期
3 王昭鑫;刘毅慧;;主元余像集主成分分析在蛋白质质谱数据中的应用[J];生物信息学;2009年03期
4 王尧佳;祝磊;韩斌;厉力华;郑智国;牟瀚舟;;基于递归零空间线性判别分析算法的蛋白质质谱数据特征选择[J];航天医学与医学工程;2010年05期
5 邹修明;罗楠;孙怀江;;基于T检验与支持向量机的蛋白质质谱数据分析[J];淮阴师范学院学报(自然科学版);2011年05期
6 杨兵,应万涛,董鸿晔,钱小红;规模化蛋白质鉴定中的串联质谱数据评价方法[J];生命的化学;2005年05期
7 张蓉;冯斌;孙俊;;基于QPSO-SVM算法的SELDI-TOF质谱数据分析[J];计算机应用与软件;2011年01期
8 盛泉虎,解涛,丁达夫;串联质谱数据的从头解析与蛋白质的数据库搜索鉴定[J];生物化学与生物物理学报;2000年06期
9 厉欣;徐松云;张宇;邹汉法;;基于保留时间和质荷比匹配的液相色谱-质谱联用技术用于非标记肽段的差异分析[J];分析化学;2008年07期
10 刘海军;陈克平;;利用EST序列构建Mascot本地数据库[J];生命的化学;2012年03期
中国重要会议论文全文数据库 前1条
1 孙瑞祥;付岩;张京芬;李德泉;王海鹏;蔡津津;王晓彪;曾嵘;贺思敏;高文;;蛋白质组质谱信息处理的关键算法研究[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
中国博士学位论文全文数据库 前3条
1 李丽伟;蛋白质组质谱数据分析平台的建立及其在大规模数据分析中的应用[D];中国人民解放军军事医学科学院;2017年
2 牛明;海量质谱数据深度解析新方法及其应用[D];中国人民解放军军事医学科学院;2012年
3 徐承建;质谱数据发掘与联用色谱分析方法及其在中药分析中的应用研究[D];中南大学;2003年
中国硕士学位论文全文数据库 前10条
1 潘超;面向复杂蛋白质组的非标记定量分析方法研究及其应用[D];浙江大学;2015年
2 杨秀忠;高维蛋白质质谱数据的分类方法对比研究[D];西南交通大学;2015年
3 崔丽丽;卵巢癌蛋白质质谱数据分析模型研究[D];山东大学;2016年
4 赵杰;基于实验质谱数据的新蛋白发现算法研究[D];重庆邮电大学;2016年
5 马海滨;质谱数据结构化存储及压缩问题研究[D];国防科学技术大学;2010年
6 杨冲;面向质谱数据的蛋白质直接鉴定系统设计与实现[D];湖南大学;2013年
7 杨锦瑜;质谱数据挖掘及中药色谱指纹图谱评价新方法[D];中南大学;2005年
8 贺权泽;动物毒素数据库的建立与质谱数据提取方法研究[D];湖南师范大学;2011年
9 柯激情;基于稀疏表示的蛋白质质谱数据分析[D];杭州电子科技大学;2012年
10 马婷婷;某些肿瘤蛋白组质谱数据的分析模型及其应用[D];浙江理工大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026