收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

生物序列模式挖掘与聚类研究

熊赟  
【摘要】: 生物信息学是一门综合运用数学、计算机科学和生物学等方法研究生物数据所包含生物学意义的交叉学科,是当前的研究热点。数据挖掘是从大量数据中寻找其规律的技术,是目前最强有力的计算机数据分析技术之一,也是生物信息学采用的主要数据分析技术。生物序列数据是最重要的一类生物数据,生物序列数掘挖掘技术的研究和应用也是生物信息学最活跃的研究方向之一。当前生物序列数据挖掘研究的关键在于如何设计有效的挖掘算法,主要涉及两个方面:一方面,由于没有根据领域知识设计专门的挖掘算法,造成挖掘结果难以给出生物学解释,无法满足生物学研究要求;另一方面,由于生物序列数据的特殊性,使得现有的序列数据挖掘算法无法直接在大规模生物序列数据中高效实现。 生物序列数据挖掘的主要目的是识别序列中的功能元素、研究序列间的相互关系等等。生物序列模式挖掘和生物序列聚类是生物序列数据挖掘中重要的两个研究内容。生物序列模式挖掘是识别功能元素进而了解序列功能等的关键技术,序列模式还能够描述序列特征,作为生物序列聚类相似性度量设计的依据;生物序列模式挖掘也是生物序列关联分析的基础。生物序列聚类是研究序列间相互关系进而解释进化关系等的主要手段,其结果是具有共同特征的序列簇;另外在这样的簇中挖掘序列模式能进一步提高序列模式挖掘结果的准确率,从而更好的指导功能元素的识别;生物序列聚类也可作为分类、异常挖掘等的预处理步骤。生物序列模式挖掘与生物序列聚类在整个生物序列数据挖掘研究中起着重要作用。 为改善生物序列模式挖掘和聚类的性能和效果,本文对算法的可用性、效率等关键问题进行了探索和研究。针对存在的问题,提出了有效的挖掘度量和具有较好性能的挖掘算法。并且从生物序列数据的表达和存储方面,对生物序列数据处理效率问题进行了进一步讨论和研究,给出了新的生物序列数据模型。最后将这些方法应用于转录调控序列数据挖掘系统中。本文取得的主要研究成果如下: (1).提出了生物序列模式挖掘的多支持度度量并设计了相应的挖掘算法 目前序列模式挖掘算法将支持度定义为包含模式的序列数(或百分比),而不考虑模式在各条序列中的重复出现,其挖掘结果是包含在足够多序列中的模式,丢失了部分在生物学上看来是有意义的序列模式。本文研究了生物序列模式挖掘的问题,提出了生物序列模式挖掘的度量——多支持度,包括分布、局部和总体支持度,给出了多支持度序列模式挖掘框架,在此基础上设计了一个挖掘算法BioPM,实现了依据上述支持度的各种组合进行序列模式挖掘。BioPM挖掘得到的结果更好的符合生物学研究的多种需求,包括保守序列模式、重复序列模式和两者结合的序列模式的挖掘等,是对基于单一支持度度量挖掘方法的补充和完善。实验验证了BioPM算法不仅提高了挖掘的效率,并能得到更为有效的结果。 (2).提出了一个蛋白质序列的相似性度量函数并设计了相应的聚类算法 生物序列模式能够描述序列特征,作为序列聚类相似性度量设计的依掘之一。目前依据序列模式设计相似性度量的方法没有考虑序列的全局和局部特征,影响聚类结果质量。本文研究了蛋白质序列聚类问题,根据多支持度序列模式提出了一个蛋白质序列相似性度量函数Bio_Sim(),在此基础上设计了一个聚类算法ProFaM。ProFaM采用多支持度序列模式挖掘方法来抽取描述蛋白质序列特征(全局和局部)的序列模式,然后根据这些模式构造相似性度量函数Bio_sim()。ProFaM聚类过程使用共享最近邻方法。不同于基于同源片断邻接保守假设的相似性度量,ProFaM算法考虑了序列的全局和局部特征,能够表达序列遗传重组问题,聚类结果能更好地指导蛋白质家族特征的解释。实验表明相对依据单一支持度序列模式的相似性度量,ProFaM在蛋白质家族分析上取得更为有效的结果。 (3).提出了一个基因序列的相似性度量并设计了相应的聚类算法 基因序列和蛋白质序列有着不同的特征,其上的聚类需求也不相同。近年来生物学实验表明“序列相似不一定功能相似”,仅从序列本身出发的聚类方法在挖掘功能相似的基因序列时可能失效。本文研究了共表达基因序列聚类的问题,根据基因序列的共表达特征提出了一个基因序列的相似性度量“N-同维趋势相似”,并在此基础上设计了一个聚类算法Gen-Cluster。Gen-Cluster算法根据N-同维趋势相似对基因序列进行聚类得到“N-同维趋势簇”,即为共表达基因序列簇。相对于仅从序列本身出发进行基因序列聚类的方法,“N-同维趋势簇”能够更好的指导基因序列功能的解释。此外在N-同维趋势簇中挖掘保守模式将进一步提高序列模式挖掘结果的准确率。用实验验证了算法性能和挖掘结果的有效性。 (4).提出了一个新的生物序列数据模型BioSeg 生物序列数据的表达和存储方式是生物序列数据访问和处理的关键。现有的生物序列数据文本类型存储方式是影响生物序列数据高效处理的主要原因之一。本文研究了生物序列数据管理和查询的问题,提出了一个新的生物序列数据模型BioSeg,并给出了实现生物序列数据查询的代数操作。相对于生物序列数据的文本存储方式,BioSeg模型提供的数据查询具有更高的效率和灵活性。 (5).设计实现了转录调控序列数据挖掘系统TBMiner 转录调控是后基因组时代研究的热点之一。序列模式挖掘和聚类是预测顺式调控元件(转录因子结合位点)的重要方法。本文将上述方法应用于顺式调控元件的预测,设计实现了转录调控序列数据挖掘系统TBMiner。为生物学家进行转录调控规律研究提供了良好的生物信息学工具。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 徐涛;;带兴趣度的序列概念格的最大模式挖掘[J];科技信息;2010年14期
2 宁朝波;秦亮曦;张恺;;多序列环境下的序列模式挖掘算法[J];微计算机信息;2010年36期
3 吴楠;胡学钢;;基于PrefixSpan序列模式挖掘的一种改进算法[J];电脑知识与技术(学术交流);2007年20期
4 邹翔,张巍,刘洋,蔡庆生;分布式序列模式发现算法的研究[J];软件学报;2005年07期
5 胡学钢;张圆圆;;一种挖掘带时间约束序列模式的改进算法[J];智能系统学报;2007年02期
6 张长海;胡孔法;陈崚;宋爱波;;一种高效的基于位图序列模式挖掘算法[J];高技术通讯;2010年02期
7 王翠青;陈未如;张静;;数据源特性对序列模式挖掘结果的影响[J];计算机系统应用;2010年05期
8 师鸣若;;一种网络流量的序列模式挖掘方法[J];微计算机信息;2011年03期
9 常鹏;陈耿;朱玉全;;一种分布式序列模式挖掘算法[J];计算机应用;2008年11期
10 赵峰;李庆华;赵彦斌;;一种基于贝叶斯方法的序列模式挖掘算法[J];计算机工程;2006年14期
11 刘健;;一种基于Web资源相似性的序列模式度量方法[J];科技情报开发与经济;2008年20期
12 李云;徐涛;田素方;李拓;;带兴趣度的序列概念格模型及其构造[J];计算机应用;2008年03期
13 胡枫;;频繁序列模式挖掘算法Apriori的分析及改进[J];青海师范大学学报(自然科学版);2009年03期
14 谢华;;关联规则挖掘下的序列模式再挖掘[J];军事通信技术;2005年S1期
15 王宇;周丽娟;段录平;;基于概念的序列模式挖掘研究[J];自动化技术与应用;2007年07期
16 吴永俊;郑诚;孔令成;;一种有效的序列模式增量式更新方法[J];计算机工程与应用;2011年09期
17 蒋栋栋;孙志挥;;基于投影数据集的序列模式增量挖掘算法[J];计算机工程与应用;2006年26期
18 任家东;周晓磊;;一种挖掘序列模式的增量式更新算法[J];燕山大学学报;2007年06期
19 叶和平;尚敏;;一种面向入侵检测的数据挖掘算法研究[J];计算机技术与发展;2008年11期
20 陈春颖;熊拥军;;基于序列模式挖掘的读者借阅行为分析[J];图书情报知识;2011年04期
中国重要会议论文全文数据库 前10条
1 佘晓华;单汨源;任斌;;基于数据挖掘的项目族工作分解结构模型构建研究[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
2 窦赫男;刘正捷;夏季;;序列模式挖掘在网站可用性分析研究上的应用[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国人机交互学术会议(CHCI'06)论文集[C];2006年
3 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
4 沈勇;颜建军;王忆勤;许朝霞;刘国萍;夏春明;李福凤;燕海霞;郭睿;;基于数据挖掘的中医信息处理方法研究概述[A];中华中医药学会中医诊断学分会第十次学术研讨会论文集[C];2009年
5 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
6 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
7 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
8 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
9 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
10 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国博士学位论文全文数据库 前10条
1 熊赟;生物序列模式挖掘与聚类研究[D];复旦大学;2007年
2 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
3 金阳;基于概念格模型的序列模式挖掘算法研究[D];吉林大学;2007年
4 宋世杰;基于序列模式挖掘的误用入侵检测系统及其关键技术研究[D];国防科学技术大学;2005年
5 郝占刚;基于遗传算法等技术的数据与文本聚分类研究[D];天津大学;2006年
6 刘文;几类特殊的安全多方计算问题的研究[D];北京邮电大学;2009年
7 刘维;生物序列模式挖掘与识别算法的研究[D];南京航空航天大学;2010年
8 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
9 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
10 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
中国硕士学位论文全文数据库 前10条
1 祝效普;WEB用户访问序列模式挖掘[D];天津大学;2005年
2 陈晓;基于模糊集的序列模式挖掘研究[D];天津大学;2007年
3 杨清莲;Web日志中序列模式挖掘及其应用[D];南京工业大学;2005年
4 常鹏;基于隐私保护的分布式序列模式挖掘算法研究[D];江苏大学;2008年
5 宗俊省;基于约束的序列模式挖掘算法的研究[D];燕山大学;2006年
6 李国宇;基于J2EE的数据挖掘系统的构建及聚类技术研究[D];天津大学;2007年
7 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
8 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
9 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
10 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978