收藏本站
《南京航空航天大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

生物序列模式挖掘与识别算法的研究

刘维  
【摘要】:生物信息学是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科,它是整个生命科学发展的重要组成部分,已成为生命科学研究的前沿。生物信息学的核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解释,即以计算机、网络为工具,用数学等科学理论、方法和技术研究生物大分子,主要包括脱氧核糖核酸(DNA)和蛋白质(Protein)的序列、结构和功能。基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能,这对于人类疾病基因发现、基因与蛋白质的表达与功能研究、合理化药物设计等方面都有着重要的意义。为了能达到上述目的,生物序列模式挖掘和识别是其重要的两个关键技术。 本文针对生物序列模式挖掘和识别研究中的关键问题,主要研究了生物单序列、双序列频繁模式挖掘的研究和算法设计;生物数据的嵌入式频繁子树挖掘研究和算法设计;基因调控元件的识别以及CpG岛的位置识别等问题。取得的研究成果如下: (1)提出了生物单序列及多序列频繁模式的快速挖掘算法。针对传统生物序列频繁模式挖掘算法会在挖掘过程中大量构建投影数据库并产生大量短的模式而导致的挖掘效率低下的问题,本文分别提出了基于基本模式前缀树的生物单序列频繁模式挖掘算法SSPM和多序列频繁模式挖掘算法MSPM。算法挖掘时能从基本模式长度开始,避免了产生大量的短的生物序列模式,同时运用基本频繁模式前缀树进行模式扩展,避免了不相关模式的干扰,实验结果证实这两个算法不仅明显提高了挖掘效率,并能得到有效的挖掘结果。 (2)提出了一种基于嵌入式子树结构的生物数据挖掘算法,应用嵌入式频繁子树算法挖掘RNA分子的公共拓扑模式。针对目前生物数据挖掘过程中存在的生物数据量大、序列模式相似度高等问题,本文提出了一种快速高效的频繁嵌入式子树挖掘算法IRTM。该算法采用垂直方式挖掘,引入了独特的字符串编码方法表示树,同时利用域表(Scope-List)进行子串扩增和频繁性测试,加以优越的剪枝技术极大地压缩了搜索空间,加快了运行速度。通过与经典的Patternmatcher算法以及TreeMiner算法的对比实验表明本文算法极大提高了挖掘效率,具有更加优越的性能。 (3)提出了一种基于蚁群优化的基因调控元件识别算法。针对已有的算法大都存在容易过早陷入局部最优以及时间复杂度过高等问题,本文提出了一种识别基因调控的新型优化算法ACRR(ant-colony-regulatory-recognition)。该算法利用蚁群优化算法能够较快求解复杂优化问题的优越性来解决此问题,不仅提高了解的质量,而且大大的降低了算法的时间复杂度。实验结果表明,与其他类似算法相比,本文算法所得结果的准确性更高,具有更快的识别速度。 (4)提出了一种基于条件随机场模型的CpG岛的位置识别新方法。为克服已有模型的标注偏差、需要独立假设等缺点,本文提出了用条件随机场(CRFs)模型来识别CpG岛的位置的新方法。该方法将识别CpG岛的位置的问题转化为序列标记问题,根据CpG岛的位置的性质设计了相应的特征函数,通过对样本集的训练,得到样本序列和标签序列的联合概率中各个特征函数式的权重参数。然后根据所得到的分布模型,对于输入序列确定最有可能的标注序列,从而识别CpG岛的位置。通过对标准数据库数据测试,本文算法是可行的、高效的,比HMM方法有更高的准确率。
【学位授予单位】:南京航空航天大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 吴海燕;朱靖君;高国柱;程志锐;;基于改进的AprioriAll算法的Web序列模式挖掘研究[J];计算机工程与设计;2010年05期
2 刘立军;崔杰;梅红岩;;GSP与PrefixSpan算法的比较与分析[J];辽宁工学院学报;2006年05期
3 李永忠;孙彦;罗军生;;WINEPI挖掘算法在入侵检测中的应用[J];计算机工程;2006年23期
4 刘俊侠;;使用有向图挖掘时间间隔序列模式[J];计算机科学与探索;2008年06期
5 黄小红;陈丽华;王倩;戴昕;;多属性约束事件序列的关联规则挖掘方法[J];微计算机信息;2009年03期
6 师鸣若;;基于邻接序列模式挖掘的网络流量分析[J];电脑开发与应用;2010年10期
7 周晔,杨天奇;一种基于置信度的异常检测模型与设计[J];计算机仿真;2005年01期
8 陶再平;俞瑞钊;;序列模式增量式更新的快速算法[J];计算机应用;2006年S2期
9 倪志伟;叶红云;曹欢欢;;基于均值约束满足度剪枝策略的高效序列模式挖掘算法[J];中国科学技术大学学报;2007年02期
10 吴楠;胡学钢;;基于PrefixSpan序列模式挖掘的一种改进算法[J];电脑知识与技术(学术交流);2007年20期
中国重要会议论文全文数据库 前10条
1 李润恒;贾焰;金鑫;;一种面向网络安全的序列模式挖掘方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 李晟;姜青山;郭顺;王备战;;一种优化的蛋白质序列模式挖掘方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 朱辉生;李存华;;序列模式挖掘的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 任家东;解玉洁;何海涛;张爱国;;基于改进前缀树PStree的最大序列模式挖掘[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 赵畅;杨冬青;唐世渭;郭迎春;;Web日志序列模式挖掘工具SPMiner的设计[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 牛兴雯;杨冬青;唐世渭;王腾蛟;;OSAF-tree——可迭代的移动序列模式挖掘及增量更新方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 武庆圆;饶洋辉;;新话题监测算法的理论与方法研究进展[A];Proceedings of 2010 International Conference on Broadcast Technology and Multimedia Communication(Volume 4)[C];2010年
8 窦赫男;刘正捷;夏季;;序列模式挖掘在网站可用性分析研究上的应用[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国人机交互学术会议(CHCI'06)论文集[C];2006年
9 许爱芬;杨胜奎;王鹏;黄勇;钱继锋;;C功能刀具半径补偿的优化算法[A];先进制造技术论坛暨第五届制造业自动化与信息化技术交流会论文集[C];2006年
10 覃喜庆;韩韬;彭春萍;;非制冷红外热像仪实用图像增强技术研究[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(下册)[C];2006年
中国重要报纸全文数据库 前6条
1 四川省畜牧科学研究院 易礼胜;饲料配方软件的算法[N];中国畜牧兽医报;2008年
2 黄慧琴 陈松;阿尔戈马钢铁厂转炉工艺的改进措施[N];世界金属导报;2007年
3 记者 胡亚 通讯员 孟晋宝;我国陆表遥感产品验证实验完成[N];中国气象报;2008年
4 易水;IEEE 802.11i 提升无线网的安全[N];计算机世界;2003年
5 惠琳;数据挖掘 提升核心竞争力[N];首都建设报;2009年
6 本报记者 于翔;搜索整合前路漫漫[N];网络世界;2010年
中国博士学位论文全文数据库 前10条
1 刘维;生物序列模式挖掘与识别算法的研究[D];南京航空航天大学;2010年
2 兰秋军;金融时间序列隐含模式挖掘方法及其应用研究[D];湖南大学;2005年
3 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
4 宋世杰;基于序列模式挖掘的误用入侵检测系统及其关键技术研究[D];国防科学技术大学;2005年
5 金阳;基于概念格模型的序列模式挖掘算法研究[D];吉林大学;2007年
6 熊赟;生物序列模式挖掘与聚类研究[D];复旦大学;2007年
7 叶红云;面向金融营销问题的个性化推荐方法研究[D];合肥工业大学;2011年
8 单莘;基于知识发现的告警相关性分析关键问题研究[D];北京邮电大学;2006年
9 陆介平;描述性规则挖掘若干关键技术研究[D];东南大学;2006年
10 刘光远;基于数据挖掘的移动通信用户流失研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 管恩政;序列模式挖掘算法研究[D];吉林大学;2005年
2 仇大伟;基于序列数据库的数据挖掘系统的设计和研究[D];山东科技大学;2005年
3 郭跃斌;基于序列模式的正负关联规则挖掘技术[D];山东轻工业学院;2008年
4 刘磊;基于序列模式挖掘的入侵检测算法的研究[D];中国科学技术大学;2009年
5 王丽娜;基于序列模式挖掘算法的恶意代码检测[D];中国科学技术大学;2009年
6 李亭枫;面向网络用户行为模式发现的数据挖掘技术探索[D];电子科技大学;2010年
7 李亭枫;面向网络用户行为模式发现的数据挖掘技术探索[D];电子科技大学;2010年
8 罗程;基于核聚类和序列分析的网络入侵检测方法的研究[D];广西大学;2005年
9 张圆圆;序列模式发现模型的研究[D];合肥工业大学;2007年
10 李春媚;基于序列模式挖掘的入侵检测研究及应用[D];长沙理工大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026