收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

生物信息学中多序列比对等算法的研究

张敏  
【摘要】:“海量”的生物数据为生命科学研究提供了广阔前景,同时也对现有的生物数据处理能力提出了严峻挑战。如何从浩如烟海的生物序列数据中挖掘出有价值的生物信息,以获取基因、蛋白质结构、功能和进化等理性知识是生物信息学研究的主要目的。多序列比对和系统发育分析是生物信息学的重要研究领域,而提高分歧较大序列的多序列比对准确率和重构合理的全基因组系统发育树是该领域的主要研究课题,本文对此进行了深入研究和探讨,主要研究成果如下: 本文深入、细致地研究了当今国际上各种多序列比对算法,系统地阐述了最具代表性的渐进比对算法ClustalW、T-Coffee和DiAlign,以及迭代比对算法Prrp、MultAlin和Muscle,并具体地分析了各算法的优缺点。 ClustalW是目前国际上使用最为广泛且有效的多序列比对程序,但存在着对分歧较大且进化距离非均匀的多序列比对准确率低的问题。针对上述问题,本文借鉴了MultAlign算法,综合了迭代比对和渐进比对策略的优点,提出了一种新的迭代渐进多序列比对算法IPMSA。并以国际通用的多序列比对基准数据库BAliBASE中一千多条蛋白质序列构成的142组参考多序列比对数据集为测试数据,将本算法同ClustalW和MulAlign进行了比较研究。研究结果表明,本算法能有效地提高多序列比对的准确性,其准确率分别比MultAlin和ClustalW高出19.6%和3.1%。 针对以往渐进比对算法中距离矩阵基于两序列比对来构建,而存在着无法反映序列间的结构信息差异,以及人为设定参数,难以客观、有效地反映序列间进化距离的问题,本文引入一种新的计算序列间进化距离的信息理论方法——FDOD方法。该方法通过序列中相邻子序列分布(完全信息集CIS)来描述序列,充分考虑到序列中相邻字符的相关性,从序列中可以提取有关组分以及结构等更多信息;同时,以子序列分布差异度量函数FDOD计算序列距离,该函数计算简单、快速,且不需要人为设置参数,因此,能够更客观、有效地计算序列间的进化距离。此外,利用动态规划比对算法计算距离矩阵的时间复杂度为O(N~2L~2),而利用信息差异度量函数计算距离矩阵的时间复杂度为O(N~2L),所以采用信息差异度量方法计算距离矩阵可以降低相应比对算法的时间复杂度。 本文首次将利用信息熵度量序列间进化距离的FDOD方法引入到多序列比对算法研究中,提出一种新的基于IPMSA和信息差异度量的多序列比对算法MSAID。该算法包含两部分:基于信息差异度量的渐进多序列比对算法MSAID-1和迭代渐进多序列比对算法MSAID。以基准多序列比对数据库BAliBASE中142组参考比对作为测试数据集,与当前国际上著名的多序列比对算法ClustalW、Dialign、Prrp、T-Coffee


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 徐丽;康瑞华;;生物信息学中的多序列比对算法[J];中国水运(理论版);2006年06期
2 贺向敏;周根宝;;基于遗传算法的多序列比对算法研究[J];内蒙古农业大学学报(自然科学版);2010年03期
3 程灏;;一种针对多序列比对问题的混合遗传算法求解[J];郑州轻工业学院学报(自然科学版);2009年06期
4 张永;王瑞;;生物信息学中的序列比对算法[J];电脑知识与技术;2008年01期
5 胡桂武,郑启伦,彭宏;一种求解MSA问题的自适应遗传算法[J];计算机工程;2004年13期
6 张永;李其申;江泽涛;蔡虹;;基于序列结构信息的多序列比对算法[J];微计算机信息;2007年21期
7 刘帅;马志强;刘清雪;陆林英;;基于自适应免疫遗传算法的多序列比对[J];信息技术;2007年02期
8 司徒浩臻;赵聚雪;许龙飞;;基于遗传算法的多序列比对算法研究[J];微计算机信息;2006年17期
9 刘立芳,霍红卫,王宝树;HGA-COFFEE:多序列比对问题的混合遗传算法求解[J];四川大学学报(工程科学版);2005年04期
10 刘立芳;霍红卫;王宝树;;PHGA-COFFEE:多序列比对问题的并行混合遗传算法求解[J];计算机学报;2006年05期
11 张琎;张远;;基于GC-GM的多序列比对穷举遗传算法[J];计算机应用;2010年01期
12 邹权;郭茂祖;王晓凯;张涛涛;;基于关键字树的DNA多序列星比对算法[J];电子学报;2009年08期
13 李镍岚;李其申;张永;;一种基于动态规划的全局双序列比对优化算法[J];电脑知识与技术(学术交流);2007年06期
14 李方洁;刘希玉;;基于渐进蚁群算法的DNA多序列比对[J];网络安全技术与应用;2010年09期
15 陈丹;刘月兰;;生物信息学数据库系统的设计与应用研究[J];北京工商大学学报(自然科学版);2006年06期
16 张浩;崔雷;方辉云;;基于Web of Science数据的生物信息学同被引聚类分析[J];中华医学图书情报杂志;2009年06期
17 陈娟;陈崚;;多重序列比对的蚁群算法[J];计算机应用;2006年S1期
18 陈娟;陈崚;;求解多重序列比对问题的蚁群算法[J];计算机应用研究;2007年01期
19 徐燕;田晓;;基于测序软件进行生物信息学中数据分析[J];武汉生物工程学院学报;2007年04期
20 王非,郑珩,辛皓;基于JavaScript的生物信息学分析系统的优化和扩展[J];计算机与应用化学;2003年Z1期
中国重要会议论文全文数据库 前10条
1 冯文龙;赵清杰;;基于遗传算法的DNA多序列比对问题[A];2007年中国智能自动化会议论文集[C];2007年
2 康晓东;;生物信息学及其研究对象[A];2003年全国医学影像技术学术会议论文汇编[C];2003年
3 符稳群;;稻瘟病菌组蛋白脱乙酰化酶RPD3/HDA1家族成员的生物信息学分析[A];中国植物病理学会2008年学术年会论文集[C];2008年
4 李媛;崔尚金;李建伟;于康震;;分子生态学与生物信息学[A];中国畜牧兽医学会禽病学分会第十一次学术研讨会论文集[C];2002年
5 陆文聪;钮冰;;基于数据挖掘的生物信息学研究进展[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
6 陈婷婷;郭婷婷;李林;安冬;;基于生物信息学的功能蛋白基因序列分类研究[A];2011年全国通信安全学术会议论文集[C];2011年
7 卢学春;杨波;朱宏丽;姚善谦;;采用生物信息学方法优化依硫磷酸联合方案治疗MDS的应用研究[A];中国科协海峡两岸学术研讨会——2008血液肿瘤论坛会议会编[C];2008年
8 阮林;何颖;邹泽红;傅意玲;陈惠芳;陶爱林;;外源蛋白过敏原性生物信息学评价[A];中华医学会2010年全国变态反应学术会议暨中欧变态反应高峰论坛参会指南/论文汇编[C];2010年
9 王智宇;童强松;曾甫清;刘媛;顾朝辉;郑丽端;蔡嘉斌;蒋国松;;小鼠睾丸特异性基因TSEG-4的克隆及表达分析[A];第十五届全国泌尿外科学术会议论文集[C];2008年
10 朱云平;刘湘军;魏丽萍;李亦学;;肝脏蛋白质组的生物信息学研究[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
中国博士学位论文全文数据库 前10条
1 张敏;生物信息学中多序列比对等算法的研究[D];大连理工大学;2005年
2 刘立芳;生物信息学中的多序列比对与模体识别问题研究[D];西安电子科技大学;2006年
3 唐玉荣;生物信息学中的序列比对算法研究[D];中国农业大学;2004年
4 曾智勇;猪呼肠孤病毒SC-A株的分离鉴定及全基因组cDNA文库的构建和分子遗传特征分析[D];四川农业大学;2006年
5 肖庆;硬粒小麦硒蛋白的生物信息学研究[D];华中科技大学;2008年
6 张革新;α-淀粉酶性能与结构关系的生物信息学研究[D];江南大学;2005年
7 李艳芸;HLA-DRB1基因编码区SNPs的分析及其与宫颈癌的相关性研究[D];天津医科大学;2006年
8 童庆;面向基因预测的信息处理方法研究[D];中国科学技术大学;2006年
9 郭雨珍;蛋白质结构预测和比较的优化研究[D];大连理工大学;2007年
10 熊赟;生物序列模式挖掘与聚类研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 方义;基于A-Star和DiAlign算法的多序列比对[D];西安电子科技大学;2007年
2 刘帅;基于自适应免疫遗传算法的多序列比对方法研究[D];东北师范大学;2007年
3 张忆;基于遗传退火的生物信息学多序列比对算法研究[D];电子科技大学;2009年
4 司徒浩臻;基于遗传算法的多序列比对算法研究[D];暨南大学;2006年
5 靳新;基于迭代策略的多序列比对算法研究[D];国防科学技术大学;2007年
6 吕艳萍;生物序列比对问题的研究[D];福州大学;2005年
7 何万双;双序列比对算法研究[D];国防科学技术大学;2006年
8 刘嘉怡;生物多序列比对研究算法[D];电子科技大学;2009年
9 詹超;支持向量机在基因表达数据分类中的研究[D];武汉理工大学;2006年
10 陈义群;基于密码子替代矩阵的序列比对[D];华中科技大学;2006年
中国重要报纸全文数据库 前10条
1 本报记者 李恩青;生物信息学:促动BT与IT双赢[N];中国高新技术产业导报;2001年
2 刘义;生物信息学产业浮出水面[N];中国高新技术产业导报;2000年
3 英潮;生物信息学演绎“变脸”[N];中药报;2002年
4 中科院院士 强伯勤;生物信息学蕴有巨大效益[N];光明日报;2002年
5 白毅;加强生物信息学建设推动人类基因组研究[N];中国医药报;2002年
6 周颖;李梢:生物信息学为证候研究提供新视角[N];中国中医药报;2006年
7 中国科学院院士 张春霆 郝柏林;生物信息学孕育大产业[N];经济日报;2000年
8 刘丽丽;高性能计算为生物信息学加速[N];计算机世界;2007年
9 严飞;生物信息学 新世纪的新科学[N];大众科技报;2002年
10 张亚东;“交点”上的舞蹈[N];计算机世界;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978