收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于贝叶斯的质谱数据分析方法

尹康平  
【摘要】:伴随着人类基因组计划发展起来的基因组学为人类探索生命的原理起来划时代的重要作用。但是在其发展的同时,人们慢慢认识到只从基因水平上去探索生命的本质是完全不够的,需要从更根本的本质上去研究揭示生命现象,这样蛋白质组学应运而生。质谱作为一种有效的工具为科学家们研究蛋白质提供了很大的帮助。 本文首先介绍了目前主流的基于质谱的蛋白质分析流程和技术,并介绍了一些常用的基于质谱的蛋白质的算法,包括SEQUEST、MASCOT、X! Tandom中的算法。总结了蛋白质定量分析的两种策略同位素标记方法和无标记定量技术,并分析了他们的区别和各自的优点,介绍了目前基于质谱的蛋白质翻译后修饰发现与鉴定的常用算法。 现有的基于质谱的蛋白质鉴定算法各有千秋,各有各的优点。我们尝试利用机器学习并结合朴素贝叶斯理论对现有的算法进行整合。选取的机器学习方法包括SVM、LDA、logistic回归、KNN、贝叶斯置信网络、人工神经网络等方法。选取的分类特征包括SEQUEST算法中提供的多种参数。训练数据来自于18组已知的混合蛋白的质谱数据。通过机器学习的方法得到分类器的分界面,并计算阴阳极样本在分类器分类函数作用下的条件分布。利用阴阳极的条件分布和新样本在分类器下的特征得分,在均匀先验的条件下通过朴素贝叶斯的方法就可以计算出蛋白质鉴定结果的后验概率。通过交叉验证的结果表明我们的算法的正确率在80%-90%,同时可以保证召回率达到40%-50%,具有加好的实用价值。 蛋白质翻译后修饰的鉴定一直是蛋白质组研究里面一个重要的领域。通常的基于质谱的蛋白质翻译后修饰的鉴定的方法是机器学习和直接与已知数据库对比。与已知数据库对比的算法时间复杂度较高,同时因为比对的次数很多算法的假阳性率较高。我们尝试利用基于投影距离的聚类算法来对质谱数据先进行聚类分析,然后再在此基础上进行翻译后修饰的识别,这样不仅降低了算法的时间复杂度,而且也提高了精度。投影方向是利用已知样本基于LDA和SVM计算出来的,使得在投影方向上类内距离尽可能的小,类间的距离尽可能大。得到投影方向之后在通过对未知样本两两之间进行投影距离的计算得到距离矩阵。通过利用距离矩阵和常用的聚类算法对数据直接进行聚类分析。得到的聚类结果中的每一个类可能就是同一肽段的不同的翻译后修饰的实例,通过比较同一类内的结果可以快速高效的发现可能存在的翻译后修饰。在已知数据的交叉验证下算法的正确率和召回率都在70%左右 自从Google提出了云计算的概念,各种基于云计算应用层出不穷,蛋白质质谱数据分析具有高通量和可并行化的特点,可以方便的部署到云计算平台上。我们提出了两种部署策略并比较了两种策略的优点和不足。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈云慧;王燕;张昱;叶晓;李仕进;蒋永光;周训伦;;基于贝叶斯方法的方证相应研究[J];辽宁中医杂志;2008年03期
2 杨俊峰;温宁;梁晓峰;崔钢;于竞进;;试用贝叶斯法估计非脊髓灰质炎急性弛缓性麻痹标准化发病比[J];中国卫生统计;2007年01期
3 张建国;;贝叶斯方法及其问题浅识[J];医学与哲学(人文社会医学版);1988年11期
4 陆才奇;郑浩然;张敏;周宏;;面向生物医学文献挖掘的一种改进的贝叶斯算法[J];中国生物医学工程学报;2009年02期
5 ;遗传性疾病[J];国外科技资料目录(医药卫生);2000年03期
6 赵翔;黄卡玛;陈星;闫丽萍;;先验信息的贝叶斯描述及M CM C方法在微波成像中的应用研究[J];生物医学工程学杂志;2005年06期
7 尉洁;宋娇娇;赵晋芳;萨建;刘桂芬;;基于贝叶斯估计的诊断试验ROC曲线回归模型[J];中国卫生统计;2010年02期
8 刘丹红,郭秀娥,徐勇勇;关于生物等效性的t检验与贝叶斯方法——教育部面向21世纪课程教材《医学统计学》评介之三[J];中国卫生统计;2001年06期
9 曹红艳;刘桂芬;曾平;张爱莲;;预测性伪似然法和贝叶斯法广义线性混合模型估计[J];中国药物与临床;2008年11期
10 韩可勤;双单侧检验方法的功效计算问题[J];数理医药学杂志;1995年01期
11 闫岩;华琳;张建;;贝叶斯多变量统计模型在数据挖掘中的应用[J];中国卫生统计;2008年03期
12 邓睿芬;刘秉瀚;;一个基于粒子群算法的淋巴瘤形态参数分类器[J];福州大学学报(自然科学版);2007年06期
13 贺江南;张新佶;谢之辉;吴美京;贺佳;;正态分布资料等效性评价的传统假设检验方法与贝叶斯方法比较[J];中国卫生统计;2009年04期
14 杨海银,刘祥红,陈榜军;基于肤色模型和神经网络的人脸检测算法[J];湖南科技学院学报;2005年11期
15 高虹;张建富;鲍旭东;;外周血白细胞自动识别分类系统的研制[J];医疗卫生装备;2006年06期
16 林其忠;余建国;陈亚青;王威琪;王怡;;乳腺肿瘤超声图像识别模式分类方法的比较研究[J];上海医学影像;2006年02期
17 林其忠;余建国;赵暖;王威琪;王怡;陈亚青;;乳腺肿瘤超声图像的特征分析[J];仪器仪表学报;2006年S1期
18 李丹婷;程存归;杜正雄;何佑秋;孔黎春;;基于FTIR-SVM的西洋参与籽播参的分类研究[J];光谱学与光谱分析;2006年12期
19 顾志伟;吴秀清;荆浩;尹东;王艺元;;一种基于特征选择的医学图像检索方法[J];中国生物医学工程学报;2007年01期
20 游顶云;李康;;贝叶斯网络方法在基因调控研究中的应用[J];中国卫生统计;2009年01期
中国重要会议论文全文数据库 前10条
1 David Z.D'Argenio;;贝叶斯方法在实验室研究向临床的转化以及辨识隐含亚群体中的应用(英文)[A];中国药理学会临床药理学专业委员会会议暨第十次全国临床药理学学术会议论文集[C];2007年
2 蒋富勤;赵航芳;;运动目标状态序贯贝叶斯滤波[A];浙江省信号处理学会2011学术年会论文集[C];2011年
3 方敬;肖扬;;超声波图像边界抽取的贝叶斯方法及其在图像分割中的应用[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
4 张志斌;施水才;吕学强;;基于贝叶斯方法的中文垃圾邮件过滤技术综述[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
5 周立兵;柳景超;;贝叶斯理论在垃圾邮件过滤中的应用分析[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年
6 唐健;张建慧;傅敏;;宽带网络流量矩阵估计的自适应正则贝叶斯方法ARBM[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
7 朱春华;陈桂景;;两步设计中的渐近最优设计[A];2003中国现场统计研究会第十一届学术年会论文集(下)[C];2003年
8 李亮平;林清;周成昀;刘泽宇;罗道荣;陈小佳;张谢东;;预应力混凝土梁施工的挠度预控研究[A];第二届全国公路科技创新高层论坛论文集(上卷)[C];2004年
9 卢文锋;;基于贝叶斯方法的超声波图像边界检测[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
10 郑建国;张苏民;吴世明;;桩基承载力概率分析的贝叶斯方法[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
中国博士学位论文全文数据库 前10条
1 江敏;贝叶斯优化算法的若干问题研究及应用[D];上海大学;2012年
2 曲彦文;贝叶斯滤波若干问题研究[D];南京理工大学;2010年
3 刘伟;基于贝叶斯方法的有限混合模型选择[D];东北师范大学;2010年
4 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
5 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
6 曾惠芳;基于MCMC算法的贝叶斯分位回归计量模型及应用研究[D];湖南大学;2011年
7 陈斌;瘦肉型猪的场内遗传评估及遗传分析研究[D];湖南农业大学;2005年
8 雷菊阳;复杂环境下动态系统结构学习[D];上海交通大学;2009年
9 张洪刚;贝叶斯概率水文预报系统及其应用研究[D];武汉大学;2005年
10 陈晓林;基于动态代价敏感的机器学习研究[D];华中科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 尹康平;基于贝叶斯的质谱数据分析方法[D];华东师范大学;2012年
2 张龙;网络蠕虫检测与控制技术的研究[D];大连海事大学;2007年
3 张兆中;WEB文本挖掘的聚类分析[D];山东科技大学;2005年
4 王丽丽;转变点问题的统计推断及应用[D];华中科技大学;2005年
5 刘海芳;既有结构恒荷载和材料强度的统计推断[D];西安建筑科技大学;2006年
6 马达;基于贝叶斯的判别理论及其算法实现[D];中国地质大学(北京);2011年
7 赵雷;社会科学中的贝叶斯方法研究[D];山西大学;2012年
8 何建乐;贝叶斯方法在大型电站锅炉优化运行中的应用[D];浙江大学;2011年
9 丁进;VaR模型方法的研究[D];北京化工大学;2005年
10 洪宁;计量经济学中两种估计方法的实例应用[D];华中科技大学;2006年
中国重要报纸全文数据库 前10条
1 本版编辑紫箕 王海峰 一二;药物试验“偏心”要不得[N];医药经济报;2007年
2 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
3 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
4 张晓兵;四阶段演绎反垃圾邮件进程[N];中国计算机报;2007年
5 广发期货发展研究中心 许江山 编译;投资冲击与经济周期[N];期货日报;2010年
6 黄明;精子分类器决定生男生女[N];广东科技报;2000年
7 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
8 记者 何边;网络化激活人工智能[N];计算机世界;2001年
9 郭之虞 马宏骥;如何看待与使用系列样品■年代校正方法[N];中国文物报;2002年
10 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978