收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

蛋白质分类问题的特征提取算法研究

张振慧  
【摘要】: 人类基因组计划的实施带来了蛋白质数据库中海量的序列信息,而对蛋白质高级结构和功能的认识却远远落后于序列信息。面对浩瀚的蛋白质序列数据,探索理论与计算的方法研究蛋白质结构和功能具有重要意义,也是后基因组时代生物信息学的核心问题之一。 由于蛋白质结构和功能的复杂性,人们很难抓住其整体特征用简单的方法对所有蛋白质进行分类。而在蛋白质研究中存在许多专业分类方法,每一种分类准则在一定领域内都有很重要的实用价值。因此蛋白质分类问题作为蛋白质组学研究的一个分支,近年来受到研究者们越来越多的关注。蛋白质分类研究是全面掌握蛋白质结构与功能的前提和基础,在分子生物学、细胞生物学、药理学和医学中扮演着非常重要的角色。 蛋白质序列的特征提取是基于计算的蛋白质分类研究中最为基本的问题,也是决定分类质量的关键问题。本文对此进行了深入的分析和研究,针对蛋白质分类研究中的四类基本问题,提出和实现了四种不同的特征提取算法,并在标准数据集上进行了测试验证和比较分析。本文的主要工作和创新之处概括如下: (1)蛋白质的结构型可以为蛋白质空间结构预测提供重要的信息。对于一个结构未知的蛋白质,如果能够准确地知道其结构型,不仅可以提高二级结构分类精度,而且能够大大缩小三级结构预测中构象搜索的范围。此外,结构型与蛋白质的某些功能也具有密切联系。本文基于离散量的概念构造了一种新的蛋白质序列特征提取算法——k -子串离散源方法。结合k -子串离散源和最小离散增量算法,构建了一种新的蛋白质结构型分类模型SS+Diver。该模型从蛋白质的序列出发,不需引入其它任何信息,计算简单、分类精度高。针对标准数据集T359,SS+Diver模型的Jackknife检验总体分类精度达到97.49%,比目前已有的分类模型提高了1.67~56.27个百分点。实验结果表明,与已有分类模型相比,本文提出的SS+Diver模型具有较强的自适应、泛化和推广应用能力。 (2)四级结构是蛋白质一级结构、二级结构和三级结构的延伸,是指寡聚蛋白质中亚基的种类、数目、空间排布以及亚基之间的相互作用。寡聚蛋白质广泛地参与物质代谢、信号传导、染色体复制等各种生命活动,对寡聚蛋白质四级结构的研究有着重要的生物学意义。本文提出了三种不同的组合特征提取算法,并采用最近邻居算法对二聚体与非二聚体蛋白以及七类同源寡聚体蛋白的分类问题进行了探讨。实验结果表明,三种组合特征提取算法中基于DPC_ACF的模型计算简单、分类性能好;针对标准数据集RG1639,该模型的Jackknife检验总体分类精度达到90.2%,比目前已有的分类模型提高了2.7~31.3个百分点;针对标准数据集CC3174,该模型的Jackknife检验总体分类精度达到91.18%,比目前已有的分类模型提高了12.68~22.78个百分点。 (3)细胞凋亡蛋白质在生物体的生长发育和动态平衡中起重要作用,这些蛋白质对于了解细胞程序性死亡的机制非常重要。而细胞凋亡蛋白质的亚细胞定位与其在细胞中行使的功能有着密切的关系。本文基于“粗粒化”和“分组”的思想,提出了一种新的蛋白质序列特征提取算法——分组重量编码方法。并分别结合组分耦合算法、最近邻居算法和支持向量机构建了EBGW+CCA、EBGW+NNA和EBGW+SVM三个分类模型。实验结果表明,针对相同的数据集,采用相同的分类算法,分组重量编码方法综合考虑氨基酸的多种物理化学特性,能比氨基酸组成和非稳定性指标等特征提取算法更加有效地揭示出蕴含在字母序列中的结构与功能信息,且计算简单;在标准数据集上与现有的工作相比,本文提出的EBGW+SVM模型分类效果较好,总体分类精度、各类的敏感性和Matthews相关系数都有较大幅度的提高。 (4)膜蛋白质在细胞中占有重要的地位。国际上已有成功的方法区分膜蛋白质与非膜蛋白质。如果人们能够从理论上预测膜蛋白质的类型及其与磷酸双脂层的结合方式,对于了解新测序的膜蛋白质的功能有十分重要的意义。本文引入亚字母集(sub-alphabet)的概念,并进一步提出了基于亚字母集的亚多肽组成特征提取算法。该方法不仅能够提取蛋白质序列中蕴含的细胞特征信息,有效改善分类模型的性能;而且大大降低计算复杂性,解决了传统多肽组成方法特征提取能力强,但是计算复杂、应用受限的现状。针对标准数据集CE2059,提出的基于AAC_S6P2的模型的总体分类精度比基于氨基酸组成和二肽组成组合方法的模型提高了0.1%,而运算时间仅为后者的11.75%。与已有的分类模型相比,该模型的总体分类精度提高了1.02~25.16个百分点。 (5)最后,本文还对分类模型的分类性能与数据集特性之间的关系进行了初步探讨。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王印;李昕然;姜雪梅;徐志文;;猪圆环病毒Ⅱ型rep蛋白的亚细胞定位生物信息学析[J];西南农业学报;2009年04期
2 马翔;王明会;李骜;谢丹;冯焕清;;基于加权模糊k近邻方法的蛋白质亚细胞位点预测[J];中国生物医学工程学报;2006年01期
3 王明会;李骜;谢丹;冯焕清;;蛋白亚细胞定位的预测方法研究[J];北京生物医学工程;2006年06期
4 罗林波;陈绮;;氨基酸序列特征提取方法研究[J];计算机技术与发展;2010年02期
5 王晓波;解天然;潘陈陈;华宿南;;大豆质膜内在水孔蛋白的生物学功能预测[J];安徽农业科学;2010年34期
6 张剑清;苏国中;郑顺义;钟良;;基于线扩散函数的高精度轮廓特征提取算法[J];武汉大学学报(信息科学版);2006年02期
7 陈乐;王年;苏亮亮;王蕊平;;基于邻接矩阵分解的肿瘤亚型特征提取方法[J];生物学杂志;2011年02期
8 孙爱华;姜颖;贺福初;;线粒体蛋白质表达谱的研究进展[J];遗传;2006年10期
9 任仙文;李北平;王月兰;岳俊杰;梁龙;;蛋白质相互作用的生物信息学研究进展[J];生物技术通讯;2006年06期
10 纪兆华;赵洁茹;于静红;;基于模式识别技术的基因谱表达数据分析初探[J];科技资讯;2010年36期
11 ;2004北京“植物分子生物学与生物信息学国际学术研讨会”论文摘要[J];遗传学报;2004年09期
12 孙涌栋;罗未蓉;李贞霞;;黄瓜CsEXP10蛋白的结构构建和分析[J];生物技术通报;2008年02期
13 黄国华;;基于相对高度的曲线特征提取算法[J];邵阳学院学报(自然科学版);2011年01期
14 官云兰;张红军;刘向美;;点特征提取算法探讨[J];东华理工学院学报;2007年01期
15 周金鑫;宁祖林;田云;胡新文;;ERF转录因子StERF1的生物信息学分析[J];热带农业科学;2007年03期
16 郭丽华,王大成,丁士圻;水下目标特征提取方法研究[J];声学技术;2005年03期
17 刘珍;张丽军;谢锦云;梁宋平;;小鼠肝质膜蛋白质的生物信息学研究[J];生命科学研究;2005年04期
18 李文瑞;姜颖;贺福初;;线粒体蛋白质组分离鉴定策略及数据诠释[J];军事医学科学院院刊;2006年01期
19 袁华强;叶阳东;邓见光;柴晓光;李勇;;一种基于Bezier曲线曲率的指纹特征提取算法[J];自然科学进展;2007年08期
20 呼声波;刘希玉;;网页分类中特征提取方法的比较与改进[J];山东师范大学学报(自然科学版);2008年03期
中国重要会议论文全文数据库 前10条
1 张伟;张建勋;郭锐;;一种新的基于TLLE的特征提取算法[A];2010振动与噪声测试峰会论文集[C];2010年
2 朱云平;刘湘军;魏丽萍;李亦学;;肝脏蛋白质组的生物信息学研究[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
3 付鹏;裘正定;;一种新颖的手形特征提取算法[A];第十一届全国信号处理学术年会(CCSP-2003)论文集[C];2003年
4 王艳丰;李钢虎;林关成;;水下目标特征的分形维提取算法改进[A];2009年中国东西部声学学术交流会论文集[C];2009年
5 邱洁;周晓玉;程锐;张敏;张春梅;季晨博;高春林;郭锡熔;;人类肥胖相关新基因LYRM1的生物信息学分析及TA克隆载体的构建[A];第六届江浙沪儿科学术会议暨儿科学基础与临床研究进展学术班论文汇编[C];2009年
6 翟来娟;许小剑;;基于sinc模型的目标散射中心峰值特征提取算法[A];全国第十届信号与信息处理、第四届DSP应用技术联合学术会议论文集[C];2006年
7 黄旭;朱艳琴;罗喜召;;重复串特征提取算法在不良信息检测中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 周浩;张学杰;余鹏飞;;基于Gabor滤波器的掌纹图像特征提取[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
9 周鸣;李小玲;徐晓杰;周后德;刘华英;何佳瑾;武明花;沈守荣;曹莉;王蓉;唐珂;李桂源;;BRD7核定位信号的结构分析和功能鉴定[A];第四届中国肿瘤学术大会暨第五届海峡两岸肿瘤学术会议论文集[C];2006年
10 马良;张耀洲;;家蚕中BmIBP基因的表达分析和亚细胞定位[A];华东六省一市生物化学与分子生物学会2009年学术交流会论文摘要汇编[C];2009年
中国博士学位论文全文数据库 前10条
1 张振慧;蛋白质分类问题的特征提取算法研究[D];国防科学技术大学;2006年
2 王立鹏;特征提取及分类算法在膜蛋白分类预测问题中的应用[D];兰州理工大学;2010年
3 赵武锋;人脸识别中特征提取方法的研究[D];浙江大学;2009年
4 刘太岗;机器学习方法在生物信息学中的应用[D];大连理工大学;2010年
5 张敏;生物信息学中多序列比对等算法的研究[D];大连理工大学;2005年
6 曾智勇;猪呼肠孤病毒SC-A株的分离鉴定及全基因组cDNA文库的构建和分子遗传特征分析[D];四川农业大学;2006年
7 肖庆;硬粒小麦硒蛋白的生物信息学研究[D];华中科技大学;2008年
8 张旗;基于属性的图像分类研究[D];大连海事大学;2005年
9 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年
10 张革新;α-淀粉酶性能与结构关系的生物信息学研究[D];江南大学;2005年
中国硕士学位论文全文数据库 前10条
1 刘燕兵;基于方向可调滤波器的车道线识别方法研究[D];电子科技大学;2009年
2 吕海霞;自动图像配准技术研究[D];西北工业大学;2007年
3 曾锐;印章特征提取算法研究[D];浙江大学;2007年
4 邓军国;三维模型检索中几种特征提取方法实现研究[D];西北大学;2009年
5 贾伟峰;蛋白质序列特征提取及其在功能预测中的应用[D];湖南大学;2010年
6 王利强;立体视频影像自动处理中的匹配技术[D];北京建筑工程学院;2010年
7 王震婷;基于内容的图像检索技术研究[D];昆明理工大学;2006年
8 孙雯玉;人脸表情识别算法研究[D];北京交通大学;2006年
9 王慧;计算机笔迹鉴定算法研究与实验[D];吉林大学;2007年
10 陈舒婷;基于判别分析的植物poly(A)位点识别研究[D];厦门大学;2007年
中国重要报纸全文数据库 前10条
1 本报记者 李恩青;生物信息学:促动BT与IT双赢[N];中国高新技术产业导报;2001年
2 刘义;生物信息学产业浮出水面[N];中国高新技术产业导报;2000年
3 记者 王雪飞;我国科学家向政府建议——加强生物信息学学科建设[N];健康报;2000年
4 英潮;生物信息学演绎“变脸”[N];中药报;2002年
5 中科院院士 强伯勤;生物信息学蕴有巨大效益[N];光明日报;2002年
6 白毅;加强生物信息学建设推动人类基因组研究[N];中国医药报;2002年
7 周颖;李梢:生物信息学为证候研究提供新视角[N];中国中医药报;2006年
8 中国科学院院士 张春霆 郝柏林;生物信息学孕育大产业[N];经济日报;2000年
9 刘丽丽;高性能计算为生物信息学加速[N];计算机世界;2007年
10 严飞;生物信息学 新世纪的新科学[N];大众科技报;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978