收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

蛋白质亚细胞定位预测相关问题研究

高青斌  
【摘要】: 蛋白质组学研究的一个重要任务是在细胞水平上研究探讨蛋白质执行完成、控制生命活动的内在规律,分析蛋白质功能与亚细胞定位、环境的关系,从而更加清楚地认识蛋白质参与生命活动的内在特点。由于蛋白质亚细胞定位预测可以为了解蛋白质功能提供重要线索,目前已成为生物信息学研究的热点问题之一。本文主要以蛋白质亚细胞定位预测为主题,针对蛋白质序列的编码方法、特征选择技术、分类算法以及分泌蛋白信号肽剪切位点识别等几个方面问题进行了研究,其主要内容和创新之处包括: (1)蛋白质序列编码方法研究。 蛋白质序列编码是计算机算法分析的基础,也是决定系统预测性能的重要因素,具有重要的生物学意义。经过多年的探索,研究人员提出了各种不同的序列编码方法,其中大部分侧重于多信息资源的综合利用。然而,到目前为止人们还没有找到一种非常有效的方法。为此,本文从序列编码方法入手,利用自相关函数和氨基酸残基的10种生物化学性质,并结合蛋白质序列的氨基酸组成特征和二肽组成特征,构建了一个编码蛋白质序列的混合特征集,提出了一种基于AAindex的蛋白质亚细胞定位方法。自相关函数是一种基于氨基酸索引(amino acid index,AAindex)的特征描述方法,它不仅考虑了氨基酸残基之间的耦合作用,也包含了序列的长度信息,在一定程度上弥补了氨基酸组成和二肽组成所丢失的部分有用信息。基于本文提出的序列编码方法,论文利用最近邻算法对蛋白质亚细胞定位数据进行了测试,取得了良好的预测性能。与同类其它方法相比,本文方法具有一定的优势,说明该方法是可行的。 (2)蛋白质特征选择技术研究。 无论是分类器的训练过程,还是分类器的识别过程,都要利用样本的特征。而在设计分类系统时,一般情况下可利用的特征集的维数往往很大。如果将这些特征不加分析地全部作为分类特征,识别过程将会有很大的工作量,分类效果也不一定好,甚至会导致特征维数灾难。所以,在数据分析之前进行特征选择过程就显得尤为重要。本文利用特征选择技术对蛋白质亚细胞定位预测问题和G-蛋白耦联受体(G-protein coupled receptors,GPCRs)识别问题进行了探索性研究,分别构建了基于支持向量机的过滤特征选择方法和封装特征选择方法,并利用选出的特征集对蛋白质进行了分类研究。蛋白质特征选择的目的是通过摒弃那些不相关的的或冗余的蛋白质特征,构建更为紧凑的蛋白质序列特征描述方法,以增强识别结果的可理解性和可用性。实验研究表明,利用选择的特征子集不仅可以加快系统的识别速度,而且还有可能提高系统的分类性能,这也证实了特征选择方法的有效性。 (3)蛋白质分类算法研究。 算法研究一直是生物信息学研究的重点内容,涉及生物信息学的各个领域。对于同样的生物学数据和特征集,选择不同的算法可能会对系统性能产生较大影响。基于实例的学习,典型的如最近邻算法,是机器学习中一种常用的方法。然而在实际的生物信息学问题中,由于训练样本的数量往往是非常有限的,使得最近邻方法的分类性能受到一定限制。因此,本文在最近邻方法的基础上介绍了两类新的模式分类方法,最近特征线和可调近邻方法,并将它们用于蛋白质亚细胞定位预测研究,取得了优于最近邻方法的识别精度。这两类方法在未能获取更多训练样本的情况下,能够通过扩展现有样本描述能力的方式提高系统的分类性能,尤其适合于对小样本数据的识别。 上述方法的一个主要缺点是计算量大,不太适合大样本数据的识别。为了缩短运算时间,本文在最近特征线方法的基础上提出了一种称为中心最近邻的模式分类方法。与最近特征线方法相比,这种方法不仅可以大大降低计算的复杂度,而且识别精度也不会明显降低。通过对实际蛋白质数据的分析,中心最近邻方法同样取得了优于最近邻方法的识别精度,证明了该方法的有效性。 (4)信号肽剪切位点识别方法研究。 无论是在原核生物还是在真核生物中,信号肽都控制着几乎所有蛋白质到分泌通路的入口。它们位于氨基酸序列的N端,在蛋白质转运到细胞膜时被剪切掉。由于数据库中存在大量未经处理的蛋白质数据,信号肽及其剪切位点的识别引起了人们浓厚的兴趣。本文利用隐Markov模型(HMM)研究了模式生物大肠杆菌信号肽剪切位点的识别问题。在整个识别过程中,论文考虑了序列数据的统计特性和信号肽剪切位点附近氨基酸残基之间的耦合规则,将这些生物学知识与隐Markov模型相结合,加入了一个筛选过程,以进一步提高系统的识别精度。本文使用LOOCV方法对系统性能进行了评估,其预测准确率达到了85.6%,取得了理想的识别效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈龙;朱化彬;沙里金;王栋;王宗礼;程金华;郝海生;杜卫华;;蛋白质组学数据库建设的研究进展[J];畜牧与兽医;2008年08期
2 杨彩娥;匡铁吉;;蛋白质组学研究技术及进展[J];武警医学;2007年01期
3 李昕;马利;王金甲;赵春;;特征选择(FS)算法在生物信息学中的应用[J];生物医学工程学杂志;2011年02期
4 孙青菊;焦炳华;;线粒体蛋白质组学[J];生命的化学;2008年05期
5 李虹;谢鹭;;预测和鉴定蛋白质翻译后修饰的生物信息方法[J];现代生物医学进展;2008年09期
6 孙爱华;姜颖;贺福初;;线粒体蛋白质表达谱的研究进展[J];遗传;2006年10期
7 ;《基因组研究手册》——基因组学、蛋白质组学、代谢组学、生物信息学、伦理和法律问题(翻译版)[J];科学通报;2009年10期
8 ;科学出版社新书推介(2009-03)[J];微生物学报;2009年06期
9 王英超;党源;李晓艳;王兴龙;;蛋白质组学及其技术发展[J];生物技术通讯;2010年01期
10 张根连;范术丽;宋美珍;庞朝友;喻树迅;;植物蛋白质组学技术研究进展[J];生物技术通报;2011年07期
11 王阳梦;董银卯;何聪芬;;蛋白质组学核心技术研究进展[J];北京工商大学学报(自然科学版);2006年04期
12 刘东;;蛋白质组学及其研究进展[J];中山大学研究生学刊(自然科学、医学版);2007年04期
13 丁鸿;邱东萍;;蛋白质组学研究技术综述[J];江西农业学报;2008年08期
14 吴亚丹;;植物蛋白质组学的研究策略[J];现代农业科学;2009年05期
15 徐燕;田晓;;基于测序软件进行生物信息学中数据分析[J];武汉生物工程学院学报;2007年04期
16 刘国平,姚莉秀,杨杰,王猛;基于加权支持向量机的膜蛋白类型预测中不平衡问题处理[J];上海交通大学学报;2005年10期
17 胡绍军;;蛋白质组学数据库信息资源开发与利用[J];图书馆学研究;2006年07期
18 接标,刘冠晓,冯乔生;统计模式识别的研究[J];云南师范大学学报(自然科学版);2005年06期
19 陶彦彬;蒋建雄;易自力;李骏智;;功能基因组学及其研究方法[J];生物技术通报;2007年05期
20 邹淑雪;黄艳新;李艳文;周春光;;一种基于支持向量机的蛋白质结构域边界预测方法[J];吉林大学学报(理学版);2008年05期
中国重要会议论文全文数据库 前10条
1 蒋智钢;吴聪明;张万江;沈建忠;;蛋白质组学及其在细菌耐药性研究中的应用[A];中国畜牧兽医学会兽医药理毒理学分会第十次研讨会论文摘要集[C];2009年
2 葛剑徽;李成;谢迅雷;;生物信息学发展现状与前景展望[A];2008年中华临床医学工程及数字医学大会暨中华医学会医学工程学分会第九次学术年会论文集[C];2008年
3 李占潮;陈超;周喜斌;邹小勇;;基于遗传算法和支持向量机预测蛋白质结构类[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
4 果德安;;蛋白质组学技术在中药研究中的应用[A];中医药中青年科技创新与成果展示论坛论文集[C];2009年
5 果德安;;蛋白质组学技术在中药研究中的应用[A];自主创新与持续增长第十一届中国科协年会论文集(3)[C];2009年
6 王浩畅;赵铁军;刘延力;于浩;;生物医学文本中命名实体识别的智能化方法[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
7 孙瑞祥;付岩;张京芬;李德泉;王海鹏;蔡津津;王晓彪;曾嵘;贺思敏;高文;;蛋白质组质谱信息处理的关键算法研究[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
8 程国建;蔡磊;潘华贤;;核向量机在大规模机器学习中的应用[A];第十一届中国青年信息与管理学者大会论文集[C];2009年
9 王静;葛晓慧;郭红燕;熊光武;韩劲松;张璐芳;张小为;;早期和晚期卵巢癌蛋白质组学的初步研究[A];中华医学会第一届全球华人妇产科学术大会暨第三次全国妇产科中青年医师学术会议论文汇编[C];2007年
10 李占潮;周漩;戴宗;邹小勇;;基于一级结构信息预测蛋白质与蛋白质相互作用[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
中国博士学位论文全文数据库 前10条
1 高青斌;蛋白质亚细胞定位预测相关问题研究[D];国防科学技术大学;2006年
2 张晓丽;几种舌苔蛋白组学初步研究[D];湖北中医学院;2008年
3 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
4 谢江;蛋白质相互作用网络的数值研究[D];上海大学;2008年
5 杜伟;机器学习及数据挖掘在生物信息学中的应用研究[D];吉林大学;2011年
6 李旭东;高恶性膀胱移行细胞癌与相应正常上皮比较蛋白质组学的初步研究[D];天津医科大学;2006年
7 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
8 陈祖云;煤与瓦斯突出前兆的非线性预测及支持向量机识别研究[D];中国矿业大学;2009年
9 晏春;基因剪接的信号序列分析和相关特征研究[D];国防科学技术大学;2006年
10 余捷凯;蛋白质质谱高通量分析平台的建立及其在消化道肿瘤中的应用性研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 詹超;支持向量机在基因表达数据分类中的研究[D];武汉理工大学;2006年
2 张海霞;蛋白质二级结构预测方法研究[D];大连理工大学;2004年
3 郑小莉;ONO-AE-248诱发中性粒细胞非凋亡性程序化死亡的蛋白质组学研究[D];泸州医学院;2006年
4 王燕;语音隐写分析技术研究[D];华北电力大学(河北);2009年
5 闵瑞隽;基于支持向量机的在全基因组范围内建立预测调控网络的研究[D];上海师范大学;2009年
6 高永岗;医学图像的语义标注技术研究与应用[D];西北大学;2009年
7 杜圣东;基于多类支持向量机的文本分类研究[D];重庆大学;2007年
8 付建文;小波域语音隐藏信息检测方法研究[D];华北电力大学(河北);2008年
9 宋羚;基于多目标遗传算法和SVM的特征选择方法[D];华中科技大学;2007年
10 马宏伟;基于SVM的中文文本分类系统的建模与实现[D];大连理工大学;2006年
中国重要报纸全文数据库 前10条
1 记者 吴月辉;蛋白质组学在美逐步形成市场[N];新华每日电讯;2001年
2 ;抓紧蛋白质组学的研究[N];中国医药报;2002年
3 黎明;科学新宠——蛋白质组学[N];医药经济报;2001年
4 前线;蛋白质组学产业正逐渐形成[N];中国经营报;2001年
5 李平平 申竹芳;蛋白质组学提速糖尿病学研究[N];中国医药报;2006年
6 麦国荣;蛋白质组学[N];中国医药报;2001年
7 王雪飞 吴志军;首建人类器官蛋白质组“蓝图”[N];健康报;2006年
8 特约记者 郝成涛 记者 于春光;为肿瘤疾病的防治研究开辟新途径[N];解放军报;2009年
9 本报特约记者 吴志军 郝成涛;为科学攀登搭建精神高地[N];解放军报;2010年
10 阳光;中科院大连化物所为蛋白质组学研究提供新方法[N];中国医药报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978