收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

生物序列分析算法的研究及其应用

赵裕众  
【摘要】: 随着人类基因组计划的完成,人们获得了大量的生物学数据。在对这些生物数据进行处理和分析的过程中,涌现出了大量的数学问题。这些数学问题亟需通过有效的计算手段进行解决。 DNA和蛋白质研究是分子生物学中两项核心的研究课题,我们针对DNA和蛋白质序列分析中出现的一些数学问题进行研究。单体型是一些特定的DNA位点组成的序列。单体型分析可以帮助我们了解基因与疾病之间的关联,这在遗传疾病的研究方面具有重要意义。模体是一些保守的DNA片段,模体发现对基因转录及其调控的研究很有帮助。蛋白质的空间结构决定了它的功能,基于蛋白质序列,我们可以对蛋白质的结构进行预测,从而为病毒检测以及生物制药等研究提供帮助。本文围绕单体分型、模体发现和蛋白质结构预测等问题展开研究,主要的研究内容包括: (1)提出一种群体数据集上的单体分型算法由于成本的限制,单体型难以通过实验手段大量获得。但是单体型可以利用基因型数据通过计算手段进行求解,其中分块-合并策略被广泛地应用于多个算法中,用以提高算法的效率。在传统的分块-合并策略中,分块是均匀的,但很多研究表明单体型具有特有的块结构,分块并不均匀。基于此我们统计不同位点间的关联强度,并使用动态规划算法设计了更合理的分块策略,利用贪心算法对相邻分块进行合并,我们将新的分块-合并策略其应用于EM单体分型算法中。 (2)提出一种家系数据集上的单体分型算法近来,通过一些新的生物实验手段,可以获得一种新类型的数据一异或基因型。基于异或基因型的单体分型成为一项新的研究课题。研究者们对群体数据集上基于异或基因型的单体分型算法做了很多研究,但基于家系数据的研究还很少。基于完美进化树模型,我们将家系上的异或基因型分型问题转化为图论中的图实现问题进行求解,家系结构为问题求解提供了更多的约束,使得问题有更大的概率获得唯一解。 (3)提出一种序列模体发现算法模体在转录因子绑定及蛋白质间相互作用中起着重要作用,对它的发现会有助于我们了解基因的功能。植入(l, d)模体发现是其中一类经典的问题,但不幸的是,这一问题是NP难解的。研究者们提出了很多算法。由于问题的NP难解性,精确算法难以在有效时间内对其进行求解。结合哈希表和剪枝策略,我们提出一种更有效的序列模体发现精确算法。 (4)提出一种蛋白质二级结构预测算法蛋白质结构的确定对我们了解蛋白质的功能至关重要。以往的蛋白质结构预测算法大多是基于序列以及数据库比较的。我们结合化学位移信息和蛋白质序列来对蛋白质的二级结构进行预测。通过NMR实验,我们可以获得蛋白质中每个氨基酸对应原子的化学位移信息。利用这些化学位移信息,我们提出一种新的蛋白质二级结构预测算法。算法首先使用KNN方法对蛋白质二级结构进行初步预测,之后在利用BCJR算法对预测结果进行平滑。 按照研究内容分类,本文的贡献和创新之处在于: (1)群体数据集单体分型根据单体型固有的块结构,提出了一种更合理的单体型分块-合并算法,并将其应用于群体数据集单体分型中,提高了分型的准确性。 (2)家系数据集单体分型基于一种新型的异或基因型数据,结合家系信息,提出一个多项式时间的算法对单体型进行求解。和群体数据集相比,家系数据集有更大概率获得唯一解。 (3)序列模体发现提出了一种新的序列模体发现算法,设计了一个完美哈希函数,对解空间进行哈希,并在计算的过程中对不可能的解进行剪枝,和已有的算法相比,该算法取得了更高的效率。 (4)蛋白质二级结构预测基于化学位移数据和蛋白质序列,利用KNN方法对蛋白质二级结构进行预测,并使用BCJR算法对结果进行平滑,和已有的算法相比,该算法取得了较高的预测准确性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李晓琴,罗辽复,刘次全;同义密码子的反常蛋白质二级结构偏好性[J];中国生物化学与分子生物学报;2003年04期
2 冯晶,周怀北,刘娟;大肠杆菌密码子与蛋白质二级结构的关系[J];武汉大学学报(理学版);2004年04期
3 ;DNA分子结构模型 蛋白质二级结构模型开始批量生产[J];生物学通报;1981年06期
4 王化军,陈润生,倪向善,石秀凡,凌伦奖;预测蛋白质二级结构的人工神经元网络方法[J];生物物理学报;1989年04期
5 林应章,周筠梅;振动光谱与蛋白质二级结构[J];生物物理学报;1989年04期
6 罗辽复;;蛋白质二级结构的统计力学研究[J];内蒙古大学学报(自然科学版);1993年01期
7 沈虹;;基于Spiking神经网络的蛋白质二级结构学习预测模型[J];电脑知识与技术(学术交流);2007年21期
8 邵帅;曲晓波;;蛋白质提取分离和结构鉴定技术[J];长春中医药大学学报;2006年02期
9 吴健生,敖世洲;酵母PHO81蛋白的结构预测和功能分析[J];生物化学与生物物理学报;1994年03期
10 丁晓岚;高红旗;;圆二色光谱技术应用和实验方法[J];实验技术与管理;2008年10期
11 胡秀珍,肖奕;蛋白质二级结构中同义密码子与氨基酸上下文关联的偏好型[J];内蒙古大学学报(自然科学版);2003年06期
12 胡秀珍,肖奕;密码子前后双碱基关联与蛋白质二级结构的关系[J];内蒙古工业大学学报(自然科学版);2003年03期
13 梁圻,张极震,杨景文,孙素琴,高鸿锦,邳艳英;付里叶变换红外光谱法研究胰岛素的二级结构[J];生物物理学报;1992年02期
14 李晓琴;罗辽复;;由氨基酸序列预测蛋白质二级结构的进一步研究[J];内蒙古大学学报(自然科学版);1992年04期
15 李沐阳;翁曼丽;童克忠;;大肠杆菌核糖体蛋白质L24基因(rplX)的一个新的点突变[J];科学通报;1993年22期
16 贾孟文,罗辽复,刘次全;蛋白质的二级结构和mRNA的二级结构的相关性研究[J];内蒙古大学学报(自然科学版);2004年01期
17 李炜疆,宋江宁;同义密码子携带多少蛋白质二级结构信息[J];生物物理学报;2003年01期
18 史晓红;刘向荣;罗亮;刘文斌;许进;;基于氨基酸分类的基本氨基酸秩序的研究[J];生物数学学报;2005年04期
19 梁刚锋;谢涛;王勇献;;蛋白质二级结构预测的系统误差[J];生物信息学;2005年04期
20 胡秀珍,黄延昭,肖奕;密码子上下文关联与蛋白质二级结构[J];内蒙古大学学报(自然科学版);2004年04期
中国重要会议论文全文数据库 前10条
1 王守源;李晓琴;罗辽复;;氨基酸分类与蛋白质二级结构相关性[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
2 宋亮;张剑;王先明;温继敏;陈海波;姚端正;蒋昌忠;;人工神经网络预测蛋白质结构的探讨[A];湖北省物理学会、武汉物理学会成立70周年庆典暨2002年学术年会论文集[C];2002年
3 杨惠云;田心;;神经网络预测蛋白质二级结构的研究[A];天津市生物医学工程学会2007年学术年会论文摘要集[C];2007年
4 罗三华;黄建华;邱建丁;;小波支持向量机在蛋白质二级结构分类预测中应用[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
5 孙海军;阮晓钢;;氨基酸序列编码对蛋白质二级结构预测的影响[A];第二十二届中国控制会议论文集(下)[C];2003年
6 张付利;敬永升;;曲克芦丁对牛血清白蛋白溶液二级结构影响的研究[A];中国成人医药教育论坛[2010(3)][C];2010年
7 李晓琴;;蛋白质综合信息数据库构建及统计分析研究[A];中国科协2005年学术年会生物物理与重大疾病分会论文摘要集[C];2005年
8 杨惠云;田心;;应用BP神经网络预测蛋白质的二级结构[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
9 孙衍华;刘继凤;迟学斌;;GridMol:基于网格的分子可视化建模软件[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
10 孙衍华;刘继凤;汪文英;金钟;陆忠华;迟学斌;;GridMol:基于网格的分子可视化建模应用系统[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
中国博士学位论文全文数据库 前6条
1 张胜利;蛋白质与RNA中的若干问题研究[D];大连理工大学;2011年
2 贺平安;DNA序列及蛋白质序列的分析与比较[D];大连理工大学;2003年
3 孟旭;方便豆腐粉微结构及其蛋白质溶解、凝胶机理的研究[D];江南大学;2006年
4 高荣莲;成纤维细胞生长因子-10对激光角膜烧伤的实验治疗及分子机制研究[D];中国人民解放军军事医学科学院;2011年
5 赵裕众;生物序列分析算法的研究及其应用[D];中国科学技术大学;2010年
6 吴黎明;蜂王浆新鲜度指标和评价方法研究[D];浙江大学;2008年
中国硕士学位论文全文数据库 前10条
1 马寿勇;序列上下文与其蛋白质二级结构的关系[D];陕西科技大学;2012年
2 林锦华;基于隐马尔可夫模型的蛋白质二级结构预测[D];福建农林大学;2012年
3 高铮亚;水溶液中蛋白质二级结构红外分析方法的建立及cAMP受体蛋白构象研究[D];复旦大学;2012年
4 武利;蛋白质二级结构类预测中的信息提取与预测方法研究[D];杭州电子科技大学;2012年
5 高爱民;空肠弯曲菌铁相关受体基因序列的分析研究[D];河北医科大学;2011年
6 黄霞;野生大麦HinA基因的生态遗传分析[D];四川农业大学;2009年
7 陆克中;基于机器学习的多聚脯氨酸二型结构预测[D];江南大学;2005年
8 郭爱红;基于神经网络的马铃薯蛋白质二级结构预测的研究[D];昆明理工大学;2007年
9 杨霞;依赖于pH的光系统I的光合特性[D];安徽农业大学;2005年
10 闫蓬勃;蛋白质二级结构预测准确率影响因素探讨[D];河北大学;2009年
中国重要报纸全文数据库 前2条
1 魏中文;生物信息学是开启后基因组时代的“金钥匙”[N];北京科技报;2002年
2 ;精子载体法转基因杂交水牛的研究[N];科技日报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978