收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

生物序列分析中若干概率模型研究及应用

常桂松  
【摘要】:在人类基因组计划的推动下以及现代基因组测序技术的发展,有关核酸、蛋白质序列数据呈指数式增长。面临海量的生物数据,如何对其进行科学有效地管理、分析、存储、解释为生物科学、计算机科学及数学学科开辟了新的研究方向。一门新兴的充满活力的交叉学科一计算生物学(Computational Biology)应运而生。计算生物学具体说就是从核酸或蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物序列分析是计算生物学研究的核心内容,传统的分析方法主要是以序列比对方法为主,随着“后基因组”时代的到来,基于比对的序列分析方法由于序列数据量的巨大增加使得计算非常困难,因此产生了一些非比对的生物序列分析方法。基于非比对的生物序列分析方法作为基于比对方法的补充和发展,已逐渐成为计算生物学研究中的一个新的热点问题。本文以该领域中的若干概率模型为研究对象,主要成果有: 第二章在生物序列的马尔可夫链模型下,提出了一种新的距离度量—加权相对熵。由于马尔可夫链模型中的一切性质和特征都可以由其转移概率矩阵和初始分布得出,因此基于马尔可夫链模型的转移概率矩阵和初始分布的加权相对熵可以尽可能多地蕴含生物序列的信息,而且也大大降低了生物序列比较中的时间复杂度。为了检验加权相对熵的有效性,将加权相对熵应用到序列的相似性搜索中,结果表明加权相对熵可以很有效地描述相近序列的相似性及相异序列的差异性。另外也将加权相对熵应用到进化分析中,进化分析的结果也显示加权相对熵的有效性。 第三章在DNA序列相同碱基间隔序列的几何分布的基础上,提出了DNA序列的条件多项式分布模型。首先通过间隔序列几何分布的特点,构造出固定间隔中的条件多项式分布模型,再计算条件多项式分布模型中某个具体模式在DNA序列与随机序列之间的偏差,利用此偏差提出一种新的基因签名方法—-k阶多项式成份向量(κ-MCV).在k阶多项式成份向量基础上,提出了条件多项式完全成份向量,最后把条件多项式完全成份向量用于进化分析,结果显示条件多项式完全成份向量可以有效的描述基因组序列。 第四章在蛋白质序列间公共子串长度的调和分布模型基础上,提出了一个新的距离用于构建进化树。直观上,两条生物序列共有的片断越多,共有的片断越长,两序列的相似度就越高。蛋白质序列间公共子串长度的调和分布模型就是基于所有的公共子串的长度构建的。为了衡量公共子串长度的调和分布模型提取蛋白质序列蕴含生物信息的能力,把基于公共子串长度的调和分布模型的调和测度应用到转铁蛋白的进化分析中,实验表明公共子串长度的调和分布模型能更有效地提高模型抽取信息的能力。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杜世平;隐马尔可夫模型在生物信息学中的应用[J];大学数学;2004年05期
2 厉则治;复合统计假设的临界区域——多项式分布[J];厦门大学学报(自然科学版);1979年04期
3 顾燕红,史定华,王翼飞;隐马氏模型在生物序列分析中的应用[J];自然杂志;2001年05期
4 ;生物序列分析(生物信息学数据分析丛书)[J];遗传;2010年10期
5 晏春;王正志;;基于支持向量机的生物序列分析[J];计算机仿真;2006年09期
6 涂俐兰,王能超,梅启鹏,陈莹;基于快速沃尔什变换的分子子序列识别[J];生命科学研究;2003年03期
7 谢惠民;生物序列分析中的若干数学方法[J];高校应用数学学报A辑(中文版);2005年04期
8 马杭;郭钊;秦庆华;;二维多项式本征应变边界积分方程及其数值验证[J];应用数学和力学;2011年05期
9 杨晶;高韡;谷小萱;张向宇;魏雪丽;田心;;生物序列的聚类分析[J];生物信息学;2009年01期
10 刘宏德;吴建盛;谢建明;杨锡南;徐自祥;孙啸;;信号处理技术在生物分子序列分析中的应用[J];生物信息学;2008年04期
11 ;科学出版社生命科学分社新书推介 2010-08[J];中国生物化学与分子生物学报;2010年10期
12 花文秀;;广义超几何分布的极限定理[J];曲阜师范大学学报(自然科学版);1982年04期
13 T.P.Speed,史定华 ,王斌宾 ,顾燕红;生物序列分析[J];自然杂志;2002年05期
14 喻祖国,Vo Anh,刘家成;迭代函数系统模型在生物序列分析中的应用[J];湘潭大学自然科学学报;2003年03期
15 符维娟,汪源源,卢大儒;无比对的生物分子序列比较方法[J];生物医学工程学杂志;2005年03期
16 ;科学出版社生物分社新书推介[J];作物学报;2010年10期
17 范俊清;高斯分布扩散光波导折射率分布的多项式近似[J];光学学报;1983年01期
18 张新琴;夏秀文;;月球撞击坑的动力学研究[J];地球物理学进展;2008年06期
19 丁俊君,戴生泉;多项式分布滞后模型阶数的确定及其应用[J];统计与决策;2004年10期
20 张永光;Almon回归及其应用(续)[J];数理统计与管理;1991年06期
中国重要会议论文全文数据库 前7条
1 路晶;马少平;;基于多例学习的web图像聚类[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 仲政;;功能梯度材料结构的变形与断裂分析[A];中国力学学会学术大会'2009论文摘要集[C];2009年
3 陶夏新;;地震区划方法的发展[A];中国地震学会第三次全国地震科学学术讨论会论文摘要汇编[C];1986年
4 李刚;童頫;谷晓锋;;有向图模型的模型解释[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 王镝;王国仁;吴青泉;陈白尘;赵毅;毛克明;;DNA序列中基于后继数组索引的LPR查找算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 马杭;郭钊;秦庆华;;二维多项式本征应变边界积分方程及其数值验证[A];第十二届现代数学和力学会议论文集[C];2010年
7 贺亮;李芳;;基于话题模型的科技文献话题发现和趋势分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前4条
1 常桂松;生物序列分析中若干概率模型研究及应用[D];大连理工大学;2011年
2 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
3 杨凡;生物序列分析中若干问题的研究[D];电子科技大学;2011年
4 张玉宏;双序统计显著性评估的高性能算法研究[D];电子科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 温爱明;基于排序的作者—话题模型算法研究[D];华中科技大学;2012年
2 陈建宏;磁化尘埃等离子体中波的不稳定性研究[D];西北师范大学;2007年
3 张阳;面向生物序列分析的算法加速器关键技术研究[D];国防科学技术大学;2008年
4 贺亮;基于话题模型的科技文献话题发现与趋势分析[D];上海交通大学;2012年
5 郭佳骋;监督学习的话题模型[D];上海交通大学;2010年
6 杨丽;无序分类反应变量多水平多项式Logistic模型的应用研究[D];重庆医科大学;2012年
7 李响;可转换债券定价模型研究[D];西南财经大学;2011年
8 薛维;基于非对称先验的作者主题模型[D];浙江大学;2011年
9 徐桂彬;基于相关主题模型的音乐分类方法研究[D];苏州大学;2012年
10 徐瑢;不完全信息下的公交客流OD推算方法的研究[D];北京交通大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978