生物序列分析中若干概率模型研究及应用
【摘要】:在人类基因组计划的推动下以及现代基因组测序技术的发展,有关核酸、蛋白质序列数据呈指数式增长。面临海量的生物数据,如何对其进行科学有效地管理、分析、存储、解释为生物科学、计算机科学及数学学科开辟了新的研究方向。一门新兴的充满活力的交叉学科一计算生物学(Computational Biology)应运而生。计算生物学具体说就是从核酸或蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物序列分析是计算生物学研究的核心内容,传统的分析方法主要是以序列比对方法为主,随着“后基因组”时代的到来,基于比对的序列分析方法由于序列数据量的巨大增加使得计算非常困难,因此产生了一些非比对的生物序列分析方法。基于非比对的生物序列分析方法作为基于比对方法的补充和发展,已逐渐成为计算生物学研究中的一个新的热点问题。本文以该领域中的若干概率模型为研究对象,主要成果有:
第二章在生物序列的马尔可夫链模型下,提出了一种新的距离度量—加权相对熵。由于马尔可夫链模型中的一切性质和特征都可以由其转移概率矩阵和初始分布得出,因此基于马尔可夫链模型的转移概率矩阵和初始分布的加权相对熵可以尽可能多地蕴含生物序列的信息,而且也大大降低了生物序列比较中的时间复杂度。为了检验加权相对熵的有效性,将加权相对熵应用到序列的相似性搜索中,结果表明加权相对熵可以很有效地描述相近序列的相似性及相异序列的差异性。另外也将加权相对熵应用到进化分析中,进化分析的结果也显示加权相对熵的有效性。
第三章在DNA序列相同碱基间隔序列的几何分布的基础上,提出了DNA序列的条件多项式分布模型。首先通过间隔序列几何分布的特点,构造出固定间隔中的条件多项式分布模型,再计算条件多项式分布模型中某个具体模式在DNA序列与随机序列之间的偏差,利用此偏差提出一种新的基因签名方法—-k阶多项式成份向量(κ-MCV).在k阶多项式成份向量基础上,提出了条件多项式完全成份向量,最后把条件多项式完全成份向量用于进化分析,结果显示条件多项式完全成份向量可以有效的描述基因组序列。
第四章在蛋白质序列间公共子串长度的调和分布模型基础上,提出了一个新的距离用于构建进化树。直观上,两条生物序列共有的片断越多,共有的片断越长,两序列的相似度就越高。蛋白质序列间公共子串长度的调和分布模型就是基于所有的公共子串的长度构建的。为了衡量公共子串长度的调和分布模型提取蛋白质序列蕴含生物信息的能力,把基于公共子串长度的调和分布模型的调和测度应用到转铁蛋白的进化分析中,实验表明公共子串长度的调和分布模型能更有效地提高模型抽取信息的能力。
|
|
|
|
1 |
杜世平;隐马尔可夫模型在生物信息学中的应用[J];大学数学;2004年05期 |
2 |
厉则治;复合统计假设的临界区域——多项式分布[J];厦门大学学报(自然科学版);1979年04期 |
3 |
顾燕红,史定华,王翼飞;隐马氏模型在生物序列分析中的应用[J];自然杂志;2001年05期 |
4 |
;生物序列分析(生物信息学数据分析丛书)[J];遗传;2010年10期 |
5 |
晏春;王正志;;基于支持向量机的生物序列分析[J];计算机仿真;2006年09期 |
6 |
涂俐兰,王能超,梅启鹏,陈莹;基于快速沃尔什变换的分子子序列识别[J];生命科学研究;2003年03期 |
7 |
谢惠民;生物序列分析中的若干数学方法[J];高校应用数学学报A辑(中文版);2005年04期 |
8 |
马杭;郭钊;秦庆华;;二维多项式本征应变边界积分方程及其数值验证[J];应用数学和力学;2011年05期 |
9 |
杨晶;高韡;谷小萱;张向宇;魏雪丽;田心;;生物序列的聚类分析[J];生物信息学;2009年01期 |
10 |
刘宏德;吴建盛;谢建明;杨锡南;徐自祥;孙啸;;信号处理技术在生物分子序列分析中的应用[J];生物信息学;2008年04期 |
11 |
;科学出版社生命科学分社新书推介 2010-08[J];中国生物化学与分子生物学报;2010年10期 |
12 |
花文秀;;广义超几何分布的极限定理[J];曲阜师范大学学报(自然科学版);1982年04期 |
13 |
T.P.Speed,史定华
,王斌宾
,顾燕红;生物序列分析[J];自然杂志;2002年05期 |
14 |
喻祖国,Vo Anh,刘家成;迭代函数系统模型在生物序列分析中的应用[J];湘潭大学自然科学学报;2003年03期 |
15 |
符维娟,汪源源,卢大儒;无比对的生物分子序列比较方法[J];生物医学工程学杂志;2005年03期 |
16 |
;科学出版社生物分社新书推介[J];作物学报;2010年10期 |
17 |
范俊清;高斯分布扩散光波导折射率分布的多项式近似[J];光学学报;1983年01期 |
18 |
张新琴;夏秀文;;月球撞击坑的动力学研究[J];地球物理学进展;2008年06期 |
19 |
丁俊君,戴生泉;多项式分布滞后模型阶数的确定及其应用[J];统计与决策;2004年10期 |
20 |
张永光;Almon回归及其应用(续)[J];数理统计与管理;1991年06期 |
|