收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

生物序列的索引研究及其应用

邱伯仁  
【摘要】: 在生物领域研究中,在巨量生物数据库中进行生物序列相似性查询是一项经常性的工作,在探索生物学知识和生命活动规律的过程中扮演着重要角色。然而在大型的长序列数据库中用朴素的完全搜索方法来进行相似性查询,其效率是非常低下的。因此,研究者开始研究各种优化方式来提高查询效率。查询优化的关键技术之一就是建立索引。索引结构用一定的存储空间作为代价换取查询时的快速响应。良好的索引结构能有效组织生物序列数据,显著提高检索的速度。然而现有的方法存在一些问题,针对这些问题提出新的方法以提高查询效率是当前研究的热点。 本文分析了当前的生物序列相似性查询的索引研究的现状,针对现有查询算法的不足,提出了新的基于索引的生物序列相似性查询算法BioIndex方法和SSQ MF算法,设计实现了转录调控序列数据挖掘系统ITREP。本文取得的主要研究成果如下: (1)提出了BioIndex索引结构及基于此结构的查询算法 针对生物序列的最近邻查询问题,BioIndex索引结构及基于此的查询算法提供了一种有效的解决方式。该方法是在生物序列集中的序列模式挖掘的基础上建立索引,能有效控制索引结构的大小,使之能存储在内存中进行快速查询。实验结果表明,基于BioIndex的查询算法提高了生物序列查询的效率。 (2)提出了基于多重索引结构进行过滤的序列相似性查询算法SSQ MF 针对生物序列的范围查询问题,SSQ_MF算法通过建立三种不同的索引结构,形成三种过滤器进行过滤,使得算法过滤能力较基于单一过滤器算法进一步增强。SSQ_MF算法有效估计了各过滤器的过滤集大小,并构建了一个由过滤集大小确定的最优过滤顺序模型,大大降低了算法的过滤代价。实验结果表明,算法SSQ_MF的查询性能优于单一过滤器算法和随机过滤顺序的多过滤器算法。 (3)设计实现了转录调控序列数据挖掘系统ITREP 转录调控是后基因组时代研究的热点之一。本文将上述方法应用于顺式调控元件(转录因子结合位点)的查询中,提高了查询的效率。为生物学家进行转录调控规律研究提供了良好的生物信息学工具。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 司徒浩臻;赵聚雪;许龙飞;;基于遗传算法的多序列比对算法研究[J];微计算机信息;2006年17期
2 董萍;;序列模式挖掘算法在生物序列的应用研究[J];长春师范学院学报(自然科学版);2008年02期
3 李永光;王镝;王国仁;马宜菲;;基于块排序索引的生物序列局部比对查询技术[J];计算机科学;2005年12期
4 杨心宁;网络免费生物序列数据库在专利查新中的应用[J];现代图书情报技术;2004年S1期
5 唐四薪;李义兵;何红波;;基于BioJava的生物序列分析软件的设计[J];河南科技大学学报(自然科学版);2005年06期
6 张白妮,骆嘉伟,汤德佑;基于比对相似度动态矩阵聚类算法在基因序列中的应用[J];计算机应用;2004年08期
7 常磊玲;朱春鹤;;一种新的生物序列模式挖掘算法[J];电脑知识与技术;2010年19期
8 乔百友,葛健,王国仁,韩东红;并行后缀树的构造及查询算法[J];东北大学学报(自然科学版);2004年03期
9 孙艳玲;Internet免费生物序列信息源及其在专利审查检索中的利用[J];知识产权;2000年04期
10 李小妹,王能超;生物序列比对算法的简述[J];云南民族大学学报(自然科学版);2004年01期
11 唐玉荣,张彦娥;一种优化的生物序列比对算法[J];计算机工程与设计;2004年11期
12 许颖,李亦学,孔祥银;GNU PATTERN:基于SPLASH算法的开源生物序列模式识别程序[J];中国医学科学院学报;2005年03期
13 王淼;尚学群;薛贺;;基于相邻模式段组合的生物序列模式挖掘算法[J];计算机工程与应用;2008年02期
14 戈晓斐,黄竞伟,胡磊;改进的KMP算法在生物序列模式自动识别中的应用[J];计算机工程;2004年10期
15 毛军军,郑婷婷,张铃;基于商空间理论的生物序列比较模型[J];计算机工程与应用;2004年34期
16 秦洪,王攻本;求最佳生物序列并置排列的算法和程序[J];北京大学学报(自然科学版);1991年01期
17 张瑜;王继东;;基于前缀计算的序列比对研究[J];自动化技术与应用;2010年02期
18 陈光,郑影;生物序列比对算法的研究[J];福建电脑;2003年12期
19 陈伟;魏志强;赵东旭;;基于图形表示的LCS问题[J];计算技术与自动化;2006年02期
20 侯凤成;刘弘;;基于Q学习的生物序列比对方法[J];信息技术与信息化;2007年02期
中国重要会议论文全文数据库 前10条
1 李永光;王镝;王国仁;马宜菲;;基于块排序索引的生物序列局部比对查询技术(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
2 邹小勇;李占潮;周漩;戴宗;;基于生物序列信息的功能预测研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
3 武作兵;;生物序列的复杂性分析——DNA序列的度规表示[A];“力学2000”学术大会论文集[C];2000年
4 刘维;陈崚;;基于剪枝跳跃技术的最长公共子序列算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
5 张锐;熊赟;陈越;朱扬勇;;MS-BioSM:一个基于多支持度生物序列模式挖掘算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
6 廖顺和;乐嘉锦;;一种类K-means算法的高效近似查询方法研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 涂四利;方伟武;蔡旭;;线粒体基因组中最长保守序列的分析及其意义[A];中国运筹学会第七届学术交流会论文集(中卷)[C];2004年
8 丁轲;程安春;汪铭书;;短小乳杆菌S-层蛋白信号肽基因的克隆及特性分析[A];河南省畜牧兽医学会第七届理事会第二次会议暨2008年学术研讨会论文集[C];2008年
9 田莉;杨钧国;;在中国纳西族家系中确定了一个长QT综合征的新致病基因[A];中华医学会心电生理和起搏分会第八次全国学术年会论文集[C];2008年
10 朱扬勇;邓绪斌;;生物信息数据处理系统研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 王世元;基于信号处理技术的生物序列相似性分析与基因识别[D];重庆大学;2011年
2 杨连平;生物序列的相对特征分析及Burrows-Wheeler方法[D];大连理工大学;2011年
3 夏飞;生物序列分析算法硬件加速器关键技术研究[D];国防科学技术大学;2011年
4 黄玉娟;基于k词的DNA序列分析的模型研究及应用[D];大连理工大学;2012年
5 代琦;生物序列、结构比较中若干数学模型研究及应用[D];大连理工大学;2009年
6 杨旸;基于机器学习方法的生物序列分类研究[D];上海交通大学;2009年
7 熊赟;生物序列模式挖掘与聚类研究[D];复旦大学;2007年
8 杨希武;DNA序列比较的K-词非频率模型研究及应用[D];大连理工大学;2013年
9 肖绚;基于粗粒化元胞自动机在生物序列与动力学的模型研究[D];东华大学;2006年
10 梁桂兆;生物序列表征体系构建及结构与功能关系研究[D];重庆大学;2007年
中国硕士学位论文全文数据库 前10条
1 郭晓冬;生物序列比较算法的研究[D];杭州电子科技大学;2012年
2 闫兆方;生物序列相似性分析方法研究及应用[D];浙江理工大学;2014年
3 刘倩;数学模型在生物序列结构比较中的研究及其应用[D];燕山大学;2013年
4 赵斐;SVM与ESOM在生物序列对比与预测中的应用研究[D];西安石油大学;2010年
5 唐南南;生物序列的图形表示及系统发生分析[D];大连理工大学;2006年
6 郭顺;生物序列模式挖掘方法研究及其应用[D];厦门大学;2009年
7 张任文;生物序列索引结构的研究与实现[D];哈尔滨工业大学;2006年
8 邱伯仁;生物序列的索引研究及其应用[D];复旦大学;2009年
9 万文;生物序列分析算法的CPU+GPU异构并行优化关键技术研究[D];国防科学技术大学;2012年
10 郑元荣;生物序列及其索引的压缩存储技术的研究与实现[D];哈尔滨工业大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978