收藏本站
《复旦大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

生物序列模式挖掘与聚类研究

熊赟  
【摘要】: 生物信息学是一门综合运用数学、计算机科学和生物学等方法研究生物数据所包含生物学意义的交叉学科,是当前的研究热点。数据挖掘是从大量数据中寻找其规律的技术,是目前最强有力的计算机数据分析技术之一,也是生物信息学采用的主要数据分析技术。生物序列数据是最重要的一类生物数据,生物序列数掘挖掘技术的研究和应用也是生物信息学最活跃的研究方向之一。当前生物序列数据挖掘研究的关键在于如何设计有效的挖掘算法,主要涉及两个方面:一方面,由于没有根据领域知识设计专门的挖掘算法,造成挖掘结果难以给出生物学解释,无法满足生物学研究要求;另一方面,由于生物序列数据的特殊性,使得现有的序列数据挖掘算法无法直接在大规模生物序列数据中高效实现。 生物序列数据挖掘的主要目的是识别序列中的功能元素、研究序列间的相互关系等等。生物序列模式挖掘和生物序列聚类是生物序列数据挖掘中重要的两个研究内容。生物序列模式挖掘是识别功能元素进而了解序列功能等的关键技术,序列模式还能够描述序列特征,作为生物序列聚类相似性度量设计的依据;生物序列模式挖掘也是生物序列关联分析的基础。生物序列聚类是研究序列间相互关系进而解释进化关系等的主要手段,其结果是具有共同特征的序列簇;另外在这样的簇中挖掘序列模式能进一步提高序列模式挖掘结果的准确率,从而更好的指导功能元素的识别;生物序列聚类也可作为分类、异常挖掘等的预处理步骤。生物序列模式挖掘与生物序列聚类在整个生物序列数据挖掘研究中起着重要作用。 为改善生物序列模式挖掘和聚类的性能和效果,本文对算法的可用性、效率等关键问题进行了探索和研究。针对存在的问题,提出了有效的挖掘度量和具有较好性能的挖掘算法。并且从生物序列数据的表达和存储方面,对生物序列数据处理效率问题进行了进一步讨论和研究,给出了新的生物序列数据模型。最后将这些方法应用于转录调控序列数据挖掘系统中。本文取得的主要研究成果如下: (1).提出了生物序列模式挖掘的多支持度度量并设计了相应的挖掘算法 目前序列模式挖掘算法将支持度定义为包含模式的序列数(或百分比),而不考虑模式在各条序列中的重复出现,其挖掘结果是包含在足够多序列中的模式,丢失了部分在生物学上看来是有意义的序列模式。本文研究了生物序列模式挖掘的问题,提出了生物序列模式挖掘的度量——多支持度,包括分布、局部和总体支持度,给出了多支持度序列模式挖掘框架,在此基础上设计了一个挖掘算法BioPM,实现了依据上述支持度的各种组合进行序列模式挖掘。BioPM挖掘得到的结果更好的符合生物学研究的多种需求,包括保守序列模式、重复序列模式和两者结合的序列模式的挖掘等,是对基于单一支持度度量挖掘方法的补充和完善。实验验证了BioPM算法不仅提高了挖掘的效率,并能得到更为有效的结果。 (2).提出了一个蛋白质序列的相似性度量函数并设计了相应的聚类算法 生物序列模式能够描述序列特征,作为序列聚类相似性度量设计的依掘之一。目前依据序列模式设计相似性度量的方法没有考虑序列的全局和局部特征,影响聚类结果质量。本文研究了蛋白质序列聚类问题,根据多支持度序列模式提出了一个蛋白质序列相似性度量函数Bio_Sim(),在此基础上设计了一个聚类算法ProFaM。ProFaM采用多支持度序列模式挖掘方法来抽取描述蛋白质序列特征(全局和局部)的序列模式,然后根据这些模式构造相似性度量函数Bio_sim()。ProFaM聚类过程使用共享最近邻方法。不同于基于同源片断邻接保守假设的相似性度量,ProFaM算法考虑了序列的全局和局部特征,能够表达序列遗传重组问题,聚类结果能更好地指导蛋白质家族特征的解释。实验表明相对依据单一支持度序列模式的相似性度量,ProFaM在蛋白质家族分析上取得更为有效的结果。 (3).提出了一个基因序列的相似性度量并设计了相应的聚类算法 基因序列和蛋白质序列有着不同的特征,其上的聚类需求也不相同。近年来生物学实验表明“序列相似不一定功能相似”,仅从序列本身出发的聚类方法在挖掘功能相似的基因序列时可能失效。本文研究了共表达基因序列聚类的问题,根据基因序列的共表达特征提出了一个基因序列的相似性度量“N-同维趋势相似”,并在此基础上设计了一个聚类算法Gen-Cluster。Gen-Cluster算法根据N-同维趋势相似对基因序列进行聚类得到“N-同维趋势簇”,即为共表达基因序列簇。相对于仅从序列本身出发进行基因序列聚类的方法,“N-同维趋势簇”能够更好的指导基因序列功能的解释。此外在N-同维趋势簇中挖掘保守模式将进一步提高序列模式挖掘结果的准确率。用实验验证了算法性能和挖掘结果的有效性。 (4).提出了一个新的生物序列数据模型BioSeg 生物序列数据的表达和存储方式是生物序列数据访问和处理的关键。现有的生物序列数据文本类型存储方式是影响生物序列数据高效处理的主要原因之一。本文研究了生物序列数据管理和查询的问题,提出了一个新的生物序列数据模型BioSeg,并给出了实现生物序列数据查询的代数操作。相对于生物序列数据的文本存储方式,BioSeg模型提供的数据查询具有更高的效率和灵活性。 (5).设计实现了转录调控序列数据挖掘系统TBMiner 转录调控是后基因组时代研究的热点之一。序列模式挖掘和聚类是预测顺式调控元件(转录因子结合位点)的重要方法。本文将上述方法应用于顺式调控元件的预测,设计实现了转录调控序列数据挖掘系统TBMiner。为生物学家进行转录调控规律研究提供了良好的生物信息学工具。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP311.13

【引证文献】
中国期刊全文数据库 前1条
1 张丽萍;刘呈龙;刘东升;;基于AST的多语言代码抄袭检测方法研究[J];内蒙古师范大学学报(自然科学汉文版);2012年04期
中国硕士学位论文全文数据库 前2条
1 刘莹霞;链码技术和聚类分析在基因序列中的应用[D];华南理工大学;2012年
2 刘呈龙;基于AST的多语言代码抄袭检测研究[D];内蒙古师范大学;2012年
【参考文献】
中国期刊全文数据库 前6条
1 王镝;赵毅;陈白尘;王国仁;;DNA序列中基于后继数组索引的SATR查找算法[J];东北大学学报(自然科学版);2007年02期
2 季星来,孙之荣;基于结构的丝氨酸蛋白酶超家族进化分析[J];电子学报;2001年S1期
3 张坤;朱扬勇;;无重复投影数据库扫描的序列模式挖掘算法[J];计算机研究与发展;2007年01期
4 印莹;赵宇海;张斌;王国仁;;时序微阵列数据中的同步和异步共调控基因聚类[J];计算机学报;2007年08期
5 朱扬勇;熊赟;;DNA序列数据挖掘技术[J];软件学报;2007年11期
6 符维娟,汪源源,卢大儒;无比对的生物分子序列比较方法[J];生物医学工程学杂志;2005年03期
【共引文献】
中国期刊全文数据库 前10条
1 王勇;陈克平;姚勤;;系统发生分析软件PAUP和TreePuzzle使用方法介绍[J];安徽农业科学;2008年02期
2 王勇;陈克平;姚勤;;系统发生分析程序MrBayes 3.1使用方法介绍[J];安徽农业科学;2009年33期
3 王雯雯;武栓虎;;基于DNA双链特征的启动子预测方法[J];北京交通大学学报;2009年06期
4 秦洋;王立宏;武栓虎;宋宜斌;;基于拉普拉斯矩阵的DNA序列集相似性分析[J];北京交通大学学报;2009年06期
5 马帅,唐世渭,杨冬青,王腾蛟,高军;移动环境中的最大移动序列模式挖掘(英文)[J];北京大学学报(自然科学版);2004年03期
6 石鸥燕;杨文万;;生物信息数据库及其利用[J];包头医学院学报;2006年03期
7 向浏欣;谭军;;浅谈系统发生树构建方法[J];才智;2009年20期
8 秦晓薇;刘燕;;序列模式挖掘算法的分析[J];赤峰学院学报(自然科学版);2012年01期
9 董辉;方晓;方跃胜;;一种时序关联规则挖掘算法的研究与实现[J];长春工程学院学报(自然科学版);2012年01期
10 舒飞跃;闾国年;陆婧;;土地管理空间数据知识与规则体系框架研究[J];测绘工程;2010年05期
中国重要会议论文全文数据库 前10条
1 胡扬;桂卫华;;人工代谢技术在医药领域中的应用研究[A];第二十九届中国控制会议论文集[C];2010年
2 姚伟力;王锡禄;宋俊德;;基于序列模式挖掘的告警相关性分析算法[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
3 徐仁干;吴共庆;李海光;胡学钢;吴信东;;基于Web的频繁分子结构挖掘系统[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
4 单莘;;一种网络告警的增量式情景规则挖掘方法[A];中国通信学会第五届学术年会论文集[C];2008年
5 潘瑾;严勇;王晨;方晨;汪卫;施伯乐;;Chopper:一个高效的有序标号树频繁结构的挖掘算法[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
6 吴先荣;杨冬青;唐世渭;王腾蛟;;基于序列树的告警相关性分析[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
7 吕静;陈未如;刘俊;Osei Adjei;;并发分支模式挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 吴铁峰;彭宏;张东娜;;一种网络告警的增量挖掘算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 朱永泰;王晨;洪铭胜;汪卫;施伯乐;;ESPM——频繁子树挖掘算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 牛兴雯;杨冬青;唐世渭;王腾蛟;;OSAF-tree——可迭代的移动序列模式挖掘及增量更新方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 李彤岩;基于数据挖掘的通信网告警相关性分析研究[D];电子科技大学;2010年
2 徐兆华;基因芯片数据统合分析方法的若干拓展[D];浙江大学;2010年
3 马勤;原核生物中调节子的研究和预测[D];山东大学;2010年
4 程文聪;面向大规模网络安全态势分析的时序数据挖掘关键技术研究[D];国防科学技术大学;2010年
5 高翠芳;模糊聚类新算法及应用研究[D];江南大学;2011年
6 李艳文;信号Pathway预测方法研究[D];吉林大学;2011年
7 刘晨光;氧化还原电位调控的高浓度乙醇发酵及其机理研究[D];大连理工大学;2011年
8 叶红云;面向金融营销问题的个性化推荐方法研究[D];合肥工业大学;2011年
9 刘念;三种蝗虫线粒体基因组测序与直翅目比较线粒体基因组学分析[D];陕西师范大学;2011年
10 洪伟雄;甘蔗梢腐病病原菌—串珠镰刀菌分子生物学研究初探[D];福建农林大学;2011年
中国硕士学位论文全文数据库 前10条
1 张杰;基于支持向量机和蛋白质全序列的蛋白质—蛋白质相互作用预测[D];郑州大学;2010年
2 史文财;省级政务网安全检测系统的设计与实现[D];哈尔滨工程大学;2010年
3 吕俊杰;真核基因剪接位点识别算法研究[D];哈尔滨工程大学;2010年
4 徐艳红;基于倾斜时间窗口的频繁项集挖掘算法研究[D];哈尔滨工程大学;2010年
5 马健;刺参再生相关基因的序列分析与表达[D];辽宁师范大学;2010年
6 任芳;时间序列数据挖掘研究[D];辽宁师范大学;2010年
7 战晓文;基于完全基因组且无序列比对的用于亲缘分析的严格距离度量[D];湘潭大学;2010年
8 王若飞;基于机器学习的蛋白质折叠预测算法研究[D];湘潭大学;2010年
9 冯兴祥;关联规则挖掘在高校招生录取中的应用[D];合肥工业大学;2010年
10 陈晶;基于序列模式挖掘算法的入侵检测研究[D];华东师范大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 赵长海;晏海华;金茂忠;;基于编译优化和反汇编的程序相似性检测方法[J];北京航空航天大学学报;2008年06期
2 李虎;刘超;刘楠;李晓丽;;Java源代码字节码剽窃检测方法及支持系统[J];北京航空航天大学学报;2010年04期
3 吴莹莹;张永梅;;基于8链码思想的目标物体面积统计新方法[J];电脑开发与应用;2011年01期
4 鲁卫平;生物信息学的现状和展望[J];国外医学(临床生物化学与检验学分册);2002年05期
5 胡学钢;张圆圆;;基于已发现序列模式的序列聚类研究[J];合肥工业大学学报(自然科学版);2008年01期
6 吴德敏;陈俊;;双序列比对的算法研究[J];计算机工程与应用;2008年36期
7 徐永安;沈玲玲;刘毓;陈熔;;基因序列Z曲线的生成和显示[J];计算机工程与应用;2009年02期
8 钟美;张丽萍;刘东升;;基于XML的C代码抄袭检测算法[J];计算机工程与应用;2011年08期
9 余博;郭雷;赵天云;钱晓亮;;Freeman链码描述的曲线匹配方法[J];计算机工程与应用;2012年04期
10 熊浩;晏海华;黄永刚;郭涛;李舟军;;一种基于BP神经网络的代码相似性检测方法[J];计算机科学;2010年03期
中国博士学位论文全文数据库 前1条
1 袁春欣;核酸序列的图形表示理论及应用[D];大连理工大学;2007年
中国硕士学位论文全文数据库 前8条
1 程金宏;程序代码相似度度量研究[D];内蒙古师范大学;2007年
2 姚清耘;基于向量空间模型的中文文本聚类方法的研究[D];上海交通大学;2008年
3 裴冬梅;程序代码相似度中的代码转换技术的研究[D];内蒙古师范大学;2008年
4 王春晖;程序代码抄袭检测中串匹配算法的研究与实现[D];内蒙古师范大学;2008年
5 黄国华;基于图形表示的DNA序列分析研究[D];湖南大学;2009年
6 孙航;基于生物学知识的聚类算法及其在基因表达数据中的应用[D];吉林大学;2010年
7 赵彦博;基于抽象语法树的程序代码抄袭检测技术研究[D];内蒙古师范大学;2010年
8 张丽;基于智能算法的DNA聚类研究及应用[D];山东师范大学;2010年
【二级引证文献】
中国期刊全文数据库 前1条
1 房德安;;计算机程序抄袭检测系统的设计方案分析[J];黑龙江科技信息;2013年06期
【二级参考文献】
中国期刊全文数据库 前7条
1 王镝;赵毅;陈白尘;王国仁;;DNA序列中基于后继数组索引的SATR查找算法[J];东北大学学报(自然科学版);2007年02期
2 王镝;王国仁;陈白尘;吴青泉;王斌;韩冬红;;一种可用于生物序列分析的轻量级索引结构[J];华中科技大学学报(自然科学版);2005年S1期
3 邓绪斌;朱扬勇;;ReDE:一个基于正则表达式的生物数据抽取方法[J];计算机研究与发展;2005年12期
4 王国仁;葛健;徐恒宇;郑若石;;基于二分频率变换的序列相似性查询处理技术[J];软件学报;2006年02期
5 ;Semantic Search among Heterogeneous Biological Databases Based on Gene Ontology[J];Acta Biochimica et Biophysica Sinica;2004年05期
6 李冬冬;王正志;倪青山;;一种有效的重复序列识别算法[J];生物信息学;2005年04期
7 ;A measure of semantic similarity between gene ontology terms based on semantic pathway covering[J];Progress in Natural Science;2006年07期
【相似文献】
中国期刊全文数据库 前10条
1 徐涛;;带兴趣度的序列概念格的最大模式挖掘[J];科技信息;2010年14期
2 宁朝波;秦亮曦;张恺;;多序列环境下的序列模式挖掘算法[J];微计算机信息;2010年36期
3 吴楠;胡学钢;;基于PrefixSpan序列模式挖掘的一种改进算法[J];电脑知识与技术(学术交流);2007年20期
4 邹翔,张巍,刘洋,蔡庆生;分布式序列模式发现算法的研究[J];软件学报;2005年07期
5 胡学钢;张圆圆;;一种挖掘带时间约束序列模式的改进算法[J];智能系统学报;2007年02期
6 张长海;胡孔法;陈崚;宋爱波;;一种高效的基于位图序列模式挖掘算法[J];高技术通讯;2010年02期
7 王翠青;陈未如;张静;;数据源特性对序列模式挖掘结果的影响[J];计算机系统应用;2010年05期
8 师鸣若;;一种网络流量的序列模式挖掘方法[J];微计算机信息;2011年03期
9 常鹏;陈耿;朱玉全;;一种分布式序列模式挖掘算法[J];计算机应用;2008年11期
10 赵峰;李庆华;赵彦斌;;一种基于贝叶斯方法的序列模式挖掘算法[J];计算机工程;2006年14期
中国重要会议论文全文数据库 前10条
1 佘晓华;单汨源;任斌;;基于数据挖掘的项目族工作分解结构模型构建研究[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
2 窦赫男;刘正捷;夏季;;序列模式挖掘在网站可用性分析研究上的应用[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国人机交互学术会议(CHCI'06)论文集[C];2006年
3 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
4 沈勇;颜建军;王忆勤;许朝霞;刘国萍;夏春明;李福凤;燕海霞;郭睿;;基于数据挖掘的中医信息处理方法研究概述[A];中华中医药学会中医诊断学分会第十次学术研讨会论文集[C];2009年
5 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
6 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
7 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
8 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
9 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
10 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
中国博士学位论文全文数据库 前10条
1 熊赟;生物序列模式挖掘与聚类研究[D];复旦大学;2007年
2 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
3 金阳;基于概念格模型的序列模式挖掘算法研究[D];吉林大学;2007年
4 宋世杰;基于序列模式挖掘的误用入侵检测系统及其关键技术研究[D];国防科学技术大学;2005年
5 郝占刚;基于遗传算法等技术的数据与文本聚分类研究[D];天津大学;2006年
6 刘文;几类特殊的安全多方计算问题的研究[D];北京邮电大学;2009年
7 刘维;生物序列模式挖掘与识别算法的研究[D];南京航空航天大学;2010年
8 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
9 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
10 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
中国硕士学位论文全文数据库 前10条
1 祝效普;WEB用户访问序列模式挖掘[D];天津大学;2005年
2 陈晓;基于模糊集的序列模式挖掘研究[D];天津大学;2007年
3 杨清莲;Web日志中序列模式挖掘及其应用[D];南京工业大学;2005年
4 常鹏;基于隐私保护的分布式序列模式挖掘算法研究[D];江苏大学;2008年
5 宗俊省;基于约束的序列模式挖掘算法的研究[D];燕山大学;2006年
6 李国宇;基于J2EE的数据挖掘系统的构建及聚类技术研究[D];天津大学;2007年
7 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
8 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
9 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
10 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026