收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

生物序列分析中若干概率模型研究及应用

常桂松  
【摘要】:在人类基因组计划的推动下以及现代基因组测序技术的发展,有关核酸、蛋白质序列数据呈指数式增长。面临海量的生物数据,如何对其进行科学有效地管理、分析、存储、解释为生物科学、计算机科学及数学学科开辟了新的研究方向。一门新兴的充满活力的交叉学科一计算生物学(Computational Biology)应运而生。计算生物学具体说就是从核酸或蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物序列分析是计算生物学研究的核心内容,传统的分析方法主要是以序列比对方法为主,随着“后基因组”时代的到来,基于比对的序列分析方法由于序列数据量的巨大增加使得计算非常困难,因此产生了一些非比对的生物序列分析方法。基于非比对的生物序列分析方法作为基于比对方法的补充和发展,已逐渐成为计算生物学研究中的一个新的热点问题。本文以该领域中的若干概率模型为研究对象,主要成果有: 第二章在生物序列的马尔可夫链模型下,提出了一种新的距离度量—加权相对熵。由于马尔可夫链模型中的一切性质和特征都可以由其转移概率矩阵和初始分布得出,因此基于马尔可夫链模型的转移概率矩阵和初始分布的加权相对熵可以尽可能多地蕴含生物序列的信息,而且也大大降低了生物序列比较中的时间复杂度。为了检验加权相对熵的有效性,将加权相对熵应用到序列的相似性搜索中,结果表明加权相对熵可以很有效地描述相近序列的相似性及相异序列的差异性。另外也将加权相对熵应用到进化分析中,进化分析的结果也显示加权相对熵的有效性。 第三章在DNA序列相同碱基间隔序列的几何分布的基础上,提出了DNA序列的条件多项式分布模型。首先通过间隔序列几何分布的特点,构造出固定间隔中的条件多项式分布模型,再计算条件多项式分布模型中某个具体模式在DNA序列与随机序列之间的偏差,利用此偏差提出一种新的基因签名方法—-k阶多项式成份向量(κ-MCV).在k阶多项式成份向量基础上,提出了条件多项式完全成份向量,最后把条件多项式完全成份向量用于进化分析,结果显示条件多项式完全成份向量可以有效的描述基因组序列。 第四章在蛋白质序列间公共子串长度的调和分布模型基础上,提出了一个新的距离用于构建进化树。直观上,两条生物序列共有的片断越多,共有的片断越长,两序列的相似度就越高。蛋白质序列间公共子串长度的调和分布模型就是基于所有的公共子串的长度构建的。为了衡量公共子串长度的调和分布模型提取蛋白质序列蕴含生物信息的能力,把基于公共子串长度的调和分布模型的调和测度应用到转铁蛋白的进化分析中,实验表明公共子串长度的调和分布模型能更有效地提高模型抽取信息的能力。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张少宏,戴宪华;基于对齐的生物序列相似性分析[J];生物信息学;2005年02期
2 沈世镒;生物序列的语义分析与第二密码规则的探索[J];工程数学学报;2004年05期
3 黄永莲,孙世军;两个生物序列最短公共超序列的动态规划算法[J];湘潭师范学院学报(自然科学版);2005年03期
4 沈世镒,余涛,开波,阮吉寿;生物序列的语义分析与第二密码规则的探索(续)[J];工程数学学报;2004年06期
5 李玉鑑;生物序列的邻位约束比较方法[J];北京工业大学学报;2005年05期
6 杨洁;刘海;;生物序列比对算法的研究现状[J];中国科技信息;2011年09期
7 郑珩,王非,吴梧桐,杨欣,张玉彬;生物序列集成式分析平台的研制及其应用[J];生物技术通报;2002年05期
8 郭卫斌,施保昌,王能超;多重生物序列对准及其算法综述[J];高技术通讯;2001年06期
9 洪作民;杨雅君;黄镇福;刘效良;;辽东半岛南部晚先寒武纪宏体生物序列[J];国土资源;1991年03期
10 邵西群;巴恒星;李志鹏;章秀婷;杨福合;;生物软件在序列分析过程中的运用[J];生物信息学;2010年04期
11 陈有君;蒙美莲;陈炀;;分段位序比对法揭示两个序列之间关系[J];内蒙古农业大学学报(自然科学版);2010年01期
12 李小妹,王能超;生物序列比对算法的简述[J];云南民族大学学报(自然科学版);2004年01期
13 郑珂晖;宁正元;王健;;基于正则表达式的生物序列检索方法[J];莆田学院学报;2009年05期
14 钟诚,宋彬;生物序列比对算法分析与比较[J];广西大学学报(自然科学版);2004年03期
15 毛军军,郑婷婷,张铃;基于商空间理论的生物序列比较模型[J];计算机工程与应用;2004年34期
16 秦洪,王攻本;求最佳生物序列并置排列的算法和程序[J];北京大学学报(自然科学版);1991年01期
17 侯凤成;刘弘;;基于Q学习的生物序列比对方法[J];信息技术与信息化;2007年02期
18 白凤兰;廖波;王天明;;拓扑指数在生物序列相似性比较中的应用[J];生物数学学报;2006年04期
19 朱清新;杨凡;;生物序列模体发现的最优化模型[J];成都大学学报(自然科学版);2008年01期
20 黄占兴,李孝全,周祖仁;广西二叠纪菊石生物地层学研究进展[J];古生物学报;1991年01期
中国重要会议论文全文数据库 前10条
1 李永光;王镝;王国仁;马宜菲;;基于块排序索引的生物序列局部比对查询技术(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
2 邹小勇;李占潮;周漩;戴宗;;基于生物序列信息的功能预测研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
3 武作兵;;生物序列的复杂性分析——DNA序列的度规表示[A];“力学2000”学术大会论文集[C];2000年
4 刘维;陈崚;;基于剪枝跳跃技术的最长公共子序列算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
5 张锐;熊赟;陈越;朱扬勇;;MS-BioSM:一个基于多支持度生物序列模式挖掘算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
6 涂四利;方伟武;蔡旭;;线粒体基因组中最长保守序列的分析及其意义[A];中国运筹学会第七届学术交流会论文集(中卷)[C];2004年
7 廖顺和;乐嘉锦;;一种类K-means算法的高效近似查询方法研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
8 丁轲;程安春;汪铭书;;短小乳杆菌S-层蛋白信号肽基因的克隆及特性分析[A];河南省畜牧兽医学会第七届理事会第二次会议暨2008年学术研讨会论文集[C];2008年
9 朱扬勇;邓绪斌;;生物信息数据处理系统研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 陈婷婷;郭婷婷;李林;安冬;;基于生物信息学的功能蛋白基因序列分类研究[A];2011年全国通信安全学术会议论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 王世元;基于信号处理技术的生物序列相似性分析与基因识别[D];重庆大学;2011年
2 杨连平;生物序列的相对特征分析及Burrows-Wheeler方法[D];大连理工大学;2011年
3 夏飞;生物序列分析算法硬件加速器关键技术研究[D];国防科学技术大学;2011年
4 黄玉娟;基于k词的DNA序列分析的模型研究及应用[D];大连理工大学;2012年
5 代琦;生物序列、结构比较中若干数学模型研究及应用[D];大连理工大学;2009年
6 杨旸;基于机器学习方法的生物序列分类研究[D];上海交通大学;2009年
7 熊赟;生物序列模式挖掘与聚类研究[D];复旦大学;2007年
8 杨希武;DNA序列比较的K-词非频率模型研究及应用[D];大连理工大学;2013年
9 肖绚;基于粗粒化元胞自动机在生物序列与动力学的模型研究[D];东华大学;2006年
10 梁桂兆;生物序列表征体系构建及结构与功能关系研究[D];重庆大学;2007年
中国硕士学位论文全文数据库 前10条
1 郭晓冬;生物序列比较算法的研究[D];杭州电子科技大学;2012年
2 闫兆方;生物序列相似性分析方法研究及应用[D];浙江理工大学;2014年
3 刘倩;数学模型在生物序列结构比较中的研究及其应用[D];燕山大学;2013年
4 赵斐;SVM与ESOM在生物序列对比与预测中的应用研究[D];西安石油大学;2010年
5 唐南南;生物序列的图形表示及系统发生分析[D];大连理工大学;2006年
6 郭顺;生物序列模式挖掘方法研究及其应用[D];厦门大学;2009年
7 张任文;生物序列索引结构的研究与实现[D];哈尔滨工业大学;2006年
8 邱伯仁;生物序列的索引研究及其应用[D];复旦大学;2009年
9 万文;生物序列分析算法的CPU+GPU异构并行优化关键技术研究[D];国防科学技术大学;2012年
10 郑元荣;生物序列及其索引的压缩存储技术的研究与实现[D];哈尔滨工业大学;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978