收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

生物序列模式挖掘与聚类研究

熊赟  
【摘要】: 生物信息学是一门综合运用数学、计算机科学和生物学等方法研究生物数据所包含生物学意义的交叉学科,是当前的研究热点。数据挖掘是从大量数据中寻找其规律的技术,是目前最强有力的计算机数据分析技术之一,也是生物信息学采用的主要数据分析技术。生物序列数据是最重要的一类生物数据,生物序列数掘挖掘技术的研究和应用也是生物信息学最活跃的研究方向之一。当前生物序列数据挖掘研究的关键在于如何设计有效的挖掘算法,主要涉及两个方面:一方面,由于没有根据领域知识设计专门的挖掘算法,造成挖掘结果难以给出生物学解释,无法满足生物学研究要求;另一方面,由于生物序列数据的特殊性,使得现有的序列数据挖掘算法无法直接在大规模生物序列数据中高效实现。 生物序列数据挖掘的主要目的是识别序列中的功能元素、研究序列间的相互关系等等。生物序列模式挖掘和生物序列聚类是生物序列数据挖掘中重要的两个研究内容。生物序列模式挖掘是识别功能元素进而了解序列功能等的关键技术,序列模式还能够描述序列特征,作为生物序列聚类相似性度量设计的依据;生物序列模式挖掘也是生物序列关联分析的基础。生物序列聚类是研究序列间相互关系进而解释进化关系等的主要手段,其结果是具有共同特征的序列簇;另外在这样的簇中挖掘序列模式能进一步提高序列模式挖掘结果的准确率,从而更好的指导功能元素的识别;生物序列聚类也可作为分类、异常挖掘等的预处理步骤。生物序列模式挖掘与生物序列聚类在整个生物序列数据挖掘研究中起着重要作用。 为改善生物序列模式挖掘和聚类的性能和效果,本文对算法的可用性、效率等关键问题进行了探索和研究。针对存在的问题,提出了有效的挖掘度量和具有较好性能的挖掘算法。并且从生物序列数据的表达和存储方面,对生物序列数据处理效率问题进行了进一步讨论和研究,给出了新的生物序列数据模型。最后将这些方法应用于转录调控序列数据挖掘系统中。本文取得的主要研究成果如下: (1).提出了生物序列模式挖掘的多支持度度量并设计了相应的挖掘算法 目前序列模式挖掘算法将支持度定义为包含模式的序列数(或百分比),而不考虑模式在各条序列中的重复出现,其挖掘结果是包含在足够多序列中的模式,丢失了部分在生物学上看来是有意义的序列模式。本文研究了生物序列模式挖掘的问题,提出了生物序列模式挖掘的度量——多支持度,包括分布、局部和总体支持度,给出了多支持度序列模式挖掘框架,在此基础上设计了一个挖掘算法BioPM,实现了依据上述支持度的各种组合进行序列模式挖掘。BioPM挖掘得到的结果更好的符合生物学研究的多种需求,包括保守序列模式、重复序列模式和两者结合的序列模式的挖掘等,是对基于单一支持度度量挖掘方法的补充和完善。实验验证了BioPM算法不仅提高了挖掘的效率,并能得到更为有效的结果。 (2).提出了一个蛋白质序列的相似性度量函数并设计了相应的聚类算法 生物序列模式能够描述序列特征,作为序列聚类相似性度量设计的依掘之一。目前依据序列模式设计相似性度量的方法没有考虑序列的全局和局部特征,影响聚类结果质量。本文研究了蛋白质序列聚类问题,根据多支持度序列模式提出了一个蛋白质序列相似性度量函数Bio_Sim(),在此基础上设计了一个聚类算法ProFaM。ProFaM采用多支持度序列模式挖掘方法来抽取描述蛋白质序列特征(全局和局部)的序列模式,然后根据这些模式构造相似性度量函数Bio_sim()。ProFaM聚类过程使用共享最近邻方法。不同于基于同源片断邻接保守假设的相似性度量,ProFaM算法考虑了序列的全局和局部特征,能够表达序列遗传重组问题,聚类结果能更好地指导蛋白质家族特征的解释。实验表明相对依据单一支持度序列模式的相似性度量,ProFaM在蛋白质家族分析上取得更为有效的结果。 (3).提出了一个基因序列的相似性度量并设计了相应的聚类算法 基因序列和蛋白质序列有着不同的特征,其上的聚类需求也不相同。近年来生物学实验表明“序列相似不一定功能相似”,仅从序列本身出发的聚类方法在挖掘功能相似的基因序列时可能失效。本文研究了共表达基因序列聚类的问题,根据基因序列的共表达特征提出了一个基因序列的相似性度量“N-同维趋势相似”,并在此基础上设计了一个聚类算法Gen-Cluster。Gen-Cluster算法根据N-同维趋势相似对基因序列进行聚类得到“N-同维趋势簇”,即为共表达基因序列簇。相对于仅从序列本身出发进行基因序列聚类的方法,“N-同维趋势簇”能够更好的指导基因序列功能的解释。此外在N-同维趋势簇中挖掘保守模式将进一步提高序列模式挖掘结果的准确率。用实验验证了算法性能和挖掘结果的有效性。 (4).提出了一个新的生物序列数据模型BioSeg 生物序列数据的表达和存储方式是生物序列数据访问和处理的关键。现有的生物序列数据文本类型存储方式是影响生物序列数据高效处理的主要原因之一。本文研究了生物序列数据管理和查询的问题,提出了一个新的生物序列数据模型BioSeg,并给出了实现生物序列数据查询的代数操作。相对于生物序列数据的文本存储方式,BioSeg模型提供的数据查询具有更高的效率和灵活性。 (5).设计实现了转录调控序列数据挖掘系统TBMiner 转录调控是后基因组时代研究的热点之一。序列模式挖掘和聚类是预测顺式调控元件(转录因子结合位点)的重要方法。本文将上述方法应用于顺式调控元件的预测,设计实现了转录调控序列数据挖掘系统TBMiner。为生物学家进行转录调控规律研究提供了良好的生物信息学工具。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘俊侠;;使用有向图挖掘时间间隔序列模式[J];计算机科学与探索;2008年06期
2 黄小红;陈丽华;王倩;戴昕;;多属性约束事件序列的关联规则挖掘方法[J];微计算机信息;2009年03期
3 师鸣若;;基于邻接序列模式挖掘的网络流量分析[J];电脑开发与应用;2010年10期
4 汪永旗;张军;;序列模式挖掘在旅游行程分析中的应用研究[J];微计算机信息;2011年03期
5 周晔,杨天奇;一种基于置信度的异常检测模型与设计[J];计算机仿真;2005年01期
6 陶再平;俞瑞钊;;序列模式增量式更新的快速算法[J];计算机应用;2006年S2期
7 倪志伟;叶红云;曹欢欢;;基于均值约束满足度剪枝策略的高效序列模式挖掘算法[J];中国科学技术大学学报;2007年02期
8 吴楠;胡学钢;;基于PrefixSpan序列模式挖掘的一种改进算法[J];电脑知识与技术(学术交流);2007年20期
9 俞单庆;吉根林;;基于数据流的序列模式挖掘算法[J];江南大学学报(自然科学版);2007年06期
10 李锡娟;刘锋;闫娜娜;徐杰;耿波;;PrefixSpan算法与CloSpan算法的分析与研究[J];计算机技术与发展;2008年01期
11 马传香;宋建华;;IDSG:一种新的频繁序列挖掘算法[J];湖北大学学报(自然科学版);2008年01期
12 汪林林;范军;;基于PrefixSpan的序列模式挖掘改进算法[J];计算机工程;2009年23期
13 徐涛;;带兴趣度的序列概念格的最大模式挖掘[J];科技信息;2010年14期
14 宁朝波;秦亮曦;张恺;;多序列环境下的序列模式挖掘算法[J];微计算机信息;2010年36期
15 马帅,唐世渭,杨冬青,王腾蛟,高军;移动环境中的最大移动序列模式挖掘(英文)[J];北京大学学报(自然科学版);2004年03期
16 祝效普,梁洪峻;序列模式挖掘在网络业务流分析中的应用[J];计算机应用;2004年08期
17 邹翔,张巍,刘洋,蔡庆生;分布式序列模式发现算法的研究[J];软件学报;2005年07期
18 庄军;郭平;周杨;周劲;蔡日旭;;路由器日志序列模式挖掘[J];计算机科学;2005年11期
19 陈恩红;李铜舒;王舒;;一种基于Max Gap约束的高效序列模式挖掘算法[J];计算机工程与科学;2006年10期
20 胡学钢;张圆圆;;一种挖掘带时间约束序列模式的改进算法[J];智能系统学报;2007年02期
中国重要会议论文全文数据库 前10条
1 李润恒;贾焰;金鑫;;一种面向网络安全的序列模式挖掘方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 李晟;姜青山;郭顺;王备战;;一种优化的蛋白质序列模式挖掘方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 朱辉生;李存华;;序列模式挖掘的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 赵畅;杨冬青;唐世渭;郭迎春;;Web日志序列模式挖掘工具SPMiner的设计[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 牛兴雯;杨冬青;唐世渭;王腾蛟;;OSAF-tree——可迭代的移动序列模式挖掘及增量更新方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 任家东;解玉洁;何海涛;张爱国;;基于改进前缀树PStree的最大序列模式挖掘[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 刘琪;牛文静;顾兆军;;基于API调用序列的恶意代码动态分析方法研究[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
8 窦赫男;刘正捷;夏季;;序列模式挖掘在网站可用性分析研究上的应用[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国人机交互学术会议(CHCI'06)论文集[C];2006年
9 何星星;谢伙生;;流数据中一种高效剪枝的频繁序列挖掘算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 周涛;;基于数据挖掘的入侵检测日志分析技术研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年
中国博士学位论文全文数据库 前10条
1 谢飞;带有通配符的序列模式挖掘研究[D];合肥工业大学;2011年
2 杨钤雯;序列模式挖掘方法及Web使用挖掘研究[D];天津大学;2010年
3 刘维;生物序列模式挖掘与识别算法的研究[D];南京航空航天大学;2010年
4 兰秋军;金融时间序列隐含模式挖掘方法及其应用研究[D];湖南大学;2005年
5 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
6 金阳;基于概念格模型的序列模式挖掘算法研究[D];吉林大学;2007年
7 宋世杰;基于序列模式挖掘的误用入侵检测系统及其关键技术研究[D];国防科学技术大学;2005年
8 熊赟;生物序列模式挖掘与聚类研究[D];复旦大学;2007年
9 叶红云;面向金融营销问题的个性化推荐方法研究[D];合肥工业大学;2011年
10 陆介平;描述性规则挖掘若干关键技术研究[D];东南大学;2006年
中国硕士学位论文全文数据库 前10条
1 王永强;基于DF2Ls的序列模式挖掘研究[D];兰州大学;2011年
2 任芳;时间序列数据挖掘研究[D];辽宁师范大学;2010年
3 魏龙;GML时空序列模式挖掘研究[D];江西理工大学;2011年
4 窦赫男;序列模式挖掘在网站可用性分析研究上的应用[D];大连海事大学;2006年
5 祝效普;WEB用户访问序列模式挖掘[D];天津大学;2005年
6 梁伟;Web使用挖掘在电子商务推荐系统中的应用研究[D];天津大学;2004年
7 管恩政;序列模式挖掘算法研究[D];吉林大学;2005年
8 仇大伟;基于序列数据库的数据挖掘系统的设计和研究[D];山东科技大学;2005年
9 郭跃斌;基于序列模式的正负关联规则挖掘技术[D];山东轻工业学院;2008年
10 刘磊;基于序列模式挖掘的入侵检测算法的研究[D];中国科学技术大学;2009年
中国重要报纸全文数据库 前1条
1 惠琳;数据挖掘 提升核心竞争力[N];首都建设报;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978