收藏本站
《华中科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

频繁子结构挖掘算法研究与应用

李海波  
【摘要】:在新兴的化学信息学、生物信息学,网络分析、XML数据等领域,需要用树或图这样的结构化数据类型来表示数据。在这些结构化数据类型中进行数据挖掘,将有助于我们获取新的信息和知识。在结构化类型的数据集合中,频繁项的挖掘是一种最基本的数据挖掘方式,如何高效地挖掘频繁子结构模式,是一个挑战性的问题。 已有的高效频繁子结构挖掘算法的核心思想可以大致分为基于Apriori原则的连接方法和基于模式增长的扩展方法,但前者难以直接生成规范化的候选模式,后者又容易产生候选模式的数目过大。通过分析这两类方法的特点,提出了混合型PJE方法,该方法是研究频繁有根无序树挖掘、频繁自由树挖掘和频繁子图挖掘的基础。 在频繁有根无序树的挖掘中,采用最小深度序列作为规范化标记形式,并且基于前缀结点进行扩展,在常数时间内得到新的规范化形式的候选模式树。采用深度扩展和广度连接的混合方式列举候选模式树,利用Apriori原则减少候选模式树的数目。对列举生成的候选模式树,利用Apriori原则进行剪枝,进一步减少需要进行频度统计的候选模式树数目。用规范化的嵌入出现列表表示模式树在数据库中的出现,在此基础上进行出现频度统计,不仅避免完整的子图同构判断问题,而且比使用完整出现列表节约了大量空间。综合以上技术,给出了频繁有根无序树挖掘算法Root-PJE,并且在人工数据集和真实数据集上进行性能测试,验证了性能比现有算法有较大提高。 在频繁自由树的挖掘中,定义自由树的中心结点或双中心结点,将自由树转换为以中心结点为根的有根无序树。基于自由树的脊柱路径和最小脊柱串,定义自由树的脊柱串优先最小深度序列,在此基础上运用前缀结点进行深度扩展和广度连接,在常数时间内得到新的候选模式自由树。对候选模式自由树采用Apriori原理进行剪枝,并采用规范化嵌入出现列表进行频度统计。综合以上方法,给出频繁自由树挖掘算法Free-PJE,并且在人工数据集和真实数据集上进行性能测试,验证了性能比现有算法有较大提高。 在频繁子图的挖掘中,将图分解为不包含叶结点的图核部分和不包含环的分支森林部分,定义分支森林在图核上的连接向量。由此定义最小“图核-分支-连接向量”三元组作为图的规范化标记形式。以扩展方法得到频繁模式图核,对一个图核由列举得到所有最小连接向量,由此将图看做是虚拟有根无序树,在此虚拟树上进行基于前缀结点的深度扩展和广度连接,从而在常数时间内得到新的候选模式图。采用基于Apriori原理的剪枝和基于规范化嵌入出现列表的出现频度统计。基于以上方法,给出频繁子图挖掘算法Graph-PJE。在人工数据集和真实数据集上进行了性能测试,验证了性能比现有算法有较大提高。 为了提高图查询的效率,需要在图数据库中建立图索引。利用图数据库中的特征子图和其事务出现列表建立图索引。查询时,首先利用图索引得到查询图的候选查询结果集,然后验证每个候选结果图是否完整包含查询图。使用频繁子图挖掘结果作为图索引,可以保证候选查询结果集不大于频繁挖掘中的最小支持度。使用共享前缀树保存索引特征子图,只需保存有效事务出现列表,可以减小图索引的大小。在真实的分子结构图数据库中,将6边环和5边环看做虚拟原子,对分子结构图进行重构后建立图索引,可以大幅减小图索引的大小。利用真实数据集进行测试,验证了频繁子图索引的高效。 利用新提出的频繁子结构索引和查询方法,以达梦关系数据库管理系统为平台,设计并实现了化学数据库系统的原型。在该数据库中,利用关系表存储化学结构数据和化学结构索引,利用外部存储过程,实现了化学结构数据的存储、索引、查询以及挖掘功能。
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP311.13

手机知网App
【参考文献】
中国期刊全文数据库 前2条
1 王艳辉;吴斌;王柏;;频繁子图挖掘算法综述[J];计算机科学;2005年10期
2 黄崇本;陶剑文;程光华;;一种面向图包容搜索的图索引模型[J];计算机应用;2008年02期
【共引文献】
中国期刊全文数据库 前10条
1 宋威;刘宇;李晋宏;;基于数据库垂直表示的高效用项集挖掘算法研究[J];北方工业大学学报;2011年01期
2 白昊;王崑声;胡昌振;张刚;经小川;;基于FP-Growth算法及补偿性入侵证据的攻击意图识别[J];北京理工大学学报;2010年08期
3 孙君意;图论在单词接龙中的应用[J];北京联合大学学报(自然科学版);2005年03期
4 万隆昌;聂承启;;基于FP-Tree的遍历算法[J];江西师范大学学报(自然科学版);2005年06期
5 栗晓聪;滕少华;;频繁项集挖掘的Apriori改进算法研究[J];江西师范大学学报(自然科学版);2011年05期
6 刘独玉;杨晋浩;钟守铭;;关联规则挖掘研究综述[J];成都大学学报(自然科学版);2006年01期
7 孙智勇;刘星;;基于关联规则挖掘方法的结构性减税实证研究[J];重庆大学学报(社会科学版);2010年01期
8 张星;李蓓;;FP-Growth关联规则挖掘的改进算法[J];平顶山工学院学报;2008年01期
9 戴小廷;陈荣思;;数据挖掘在电力系统中的应用[J];重庆科技学院学报(自然科学版);2009年03期
10 庞敏;赵乙国;周海英;;改进的基于Web的频繁访问路径挖掘算法[J];测试技术学报;2009年03期
中国重要会议论文全文数据库 前3条
1 陶剑文;丁佩芬;赵杰煜;;csgIndex:一种可扩展的对比子图索引模型[A];第二十七届中国控制会议论文集[C];2008年
2 王孟;白清源;谢丽聪;谢伙生;张莹;;基于信息增益规则排序的关联文本分类[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
3 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
2 李彤岩;基于数据挖掘的通信网告警相关性分析研究[D];电子科技大学;2010年
3 张寅;个性化技术及其在数字图书馆中应用的研究[D];浙江大学;2009年
4 程文聪;面向大规模网络安全态势分析的时序数据挖掘关键技术研究[D];国防科学技术大学;2010年
5 马晓普;角色工程中的角色与约束生成方法研究[D];华中科技大学;2011年
6 彭佳扬;代谢网络中功能模块挖掘和进化分析研究[D];中南大学;2011年
7 鱼亮;蛋白质网络模块结构识别算法研究[D];西安电子科技大学;2011年
8 张志宏;电子商务模式下的顾客行为特征提取及利润挖掘[D];天津大学;2010年
9 孙智勇;我国结构性减税政策的相关问题研究[D];重庆大学;2010年
10 李珺;基于强化学习的多机器人追捕问题研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘志强;基于数据挖掘的客户行为分析和预测研究[D];山东科技大学;2010年
2 李威;多参数扰动的隐私保护关联规则挖掘算法研究[D];哈尔滨工程大学;2010年
3 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
4 王富强;基于iceberg概念格的最大频繁项集挖掘研究[D];江苏大学;2010年
5 童建飞;数据挖掘在电信移动客户行为分析中的应用研究[D];南昌大学;2010年
6 曹梦菲;信息系统的表示及属性约简[D];武汉科技大学;2010年
7 陈鹏;数据流关联规则挖掘研究及其应用[D];浙江大学;2011年
8 薛彩霞;改进的Apriori算法在老人健康系统中的应用研究[D];大连交通大学;2010年
9 汪志贞;数据挖掘技术在短时交通流预测上的应用研究[D];西安电子科技大学;2010年
10 郭鸿雁;基于数据挖掘的自适应网络安全审计系统的研究与实现[D];山东师范大学;2011年
【二级参考文献】
中国期刊全文数据库 前4条
1 楼宇波,马坚,周皓峰,袁晴晴,施伯乐;基于频繁链接的Web权威资源挖掘[J];计算机研究与发展;2003年07期
2 王新宇,杜孝平,谢昆青;FP-growth算法的实现方法研究[J];计算机工程与应用;2004年09期
3 陈安龙,唐常杰,陶宏才,元昌安,谢方军;基于极大团和FP-Tree的挖掘关联规则的改进算法[J];软件学报;2004年08期
4 李力,翟东海,靳蕃;基于图的频繁闭项集挖掘算法[J];西南交通大学学报;2004年03期
【相似文献】
中国期刊全文数据库 前10条
1 梁碧珍;陆月然;耿立中;秦亮曦;;目标频繁模式挖掘算法研究[J];计算机工程与科学;2010年10期
2 郭鑫;骆期裕;徐洪智;;频繁子树挖掘算法综述[J];软件导刊;2009年12期
3 张德丰,马子龙,梁忠宏;基于聚类和关联规则的挖掘算法[J];计算机工程与科学;2004年09期
4 陆建江,徐宝文,邹晓峰,康达周;模糊关联规则的并行挖掘算法[J];东南大学学报(自然科学版);2005年02期
5 柳彦平,王文杰,荣江;频繁项集挖掘算法研究[J];微型机与应用;2005年04期
6 张焕生;崔炳德;王政峰;徐德生;;基于图的频繁子结构挖掘算法综述[J];信息化纵横;2009年10期
7 毕建欣,张岐山;关联规则挖掘算法综述[J];中国工程科学;2005年04期
8 赵颖;;数据挖掘技术在政府电子政务中的应用[J];软件导刊;2008年11期
9 刘玉梅;;基于贝叶斯网的关联规则表示及应用[J];黑龙江科技信息;2008年35期
10 张继怀;顾洪博;;数据挖掘技术在电子政务中的应用[J];中国科技信息;2009年13期
中国重要会议论文全文数据库 前10条
1 王晨;朱永泰;汪卫;施伯乐;;高效地挖掘频繁图模式[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 沈向余;李伟华;;几种关联规则挖掘算法的分析[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 丁艳辉;王洪国;高明;谷建军;;一种基于矩阵的高效关联规则挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 郭平;陈黎;聂亚可;林勇;;以Apriori为基础的序列挖掘算法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
5 曹波伟;薛青;唐志武;任晓明;;面向军事基础数据的数据挖掘研究[A];2009系统仿真技术及其应用学术会议论文集[C];2009年
6 莫晓静;史岚;许光宇;赵宇海;王国仁;乔建忠;;MFCC:一种高效的三维频繁闭项集挖掘算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 段军晓;;数据挖掘技术在民航快递市场营销中的应用[A];第六届中国科学家论坛论文汇编[C];2007年
8 程银波;司菁菁;;带有间隔约束的序列模式挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
9 郭景峰;陈晓;赵丽;邹晓红;;一种改进的闭图挖掘算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 曹国栋;郭景峰;;一种基于定量更新滑动窗口频繁闭项集挖掘算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国重要报纸全文数据库 前10条
1 李国辉 张军 汤义;挖掘技术直面多媒体[N];计算机世界;2002年
2 尹俊新 孙永丹;特色模式树品牌 校院合作创示范[N];天津日报;2011年
3 中国人民大学数据仓库与商务智能工程研究中心 $$  中国人民大学数据与知识工程研究所王珊、谢佳明、陈红、刘中蔚、邵琦洪、张宁;创建数据仓库:要面向三条路线[N];中国计算机报;2002年
4 ;数据挖掘流程[N];人民邮电;2001年
5 武李 林姚;“钻石眼”图像挖掘系统[N];计算机世界;2002年
6 江青;海尔出击智能分析软件[N];计算机世界;2002年
7 孙富春 李磊;电子政务中的数据挖掘[N];计算机世界;2001年
8 庞引明;XML数据库:最新进展和发展方向[N];计算机世界;2004年
9 郑小玲;最具创意的招聘[N];消费日报;2004年
10 ;三年后可用“基因”改良树木性状[N];科技日报;2002年
中国博士学位论文全文数据库 前10条
1 李海波;频繁子结构挖掘算法研究与应用[D];华中科技大学;2011年
2 王卉;最大频繁项集挖掘算法及应用研究[D];华中科技大学;2004年
3 邹晓红;用于图分类的频繁子结构挖掘算法研究[D];燕山大学;2011年
4 由育阳;数据流容错挖掘算法研究[D];哈尔滨工程大学;2011年
5 阮幼林;频繁模式挖掘算法及在入侵检测中的应用研究[D];华中科技大学;2004年
6 刘勇;图模式挖掘技术的研究[D];哈尔滨工业大学;2010年
7 杨厚群;半结构化数据频繁模式挖掘相关技术研究[D];重庆大学;2010年
8 李彤岩;基于数据挖掘的通信网告警相关性分析研究[D];电子科技大学;2010年
9 景旭文;基于数据挖掘的动态全息产品概念设计理论与方法研究[D];东南大学;2005年
10 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘文艳;基于深度优先策略的频繁导出子图挖掘算法[D];西安电子科技大学;2009年
2 李栋;非自由选择结构挖掘算法的研究[D];山东大学;2011年
3 许光宇;三维微阵列频繁闭模式挖掘算法的研究与实现[D];东北大学;2008年
4 陈鹏飞;基于集群环境的并行频繁子图挖掘算法PG-Miner研究[D];兰州大学;2010年
5 田文诗;基于学习者行为的序列模式挖掘算法研究与实现[D];吉林大学;2011年
6 莫晓静;基于元素增长搜索策略的频繁闭模式挖掘算法的研究与实现[D];东北大学;2008年
7 赵楠明;网游客户分群与特征挖掘算法研究与应用[D];大连理工大学;2012年
8 张爱国;基于位置信息的精简频繁模式挖掘算法的研究[D];燕山大学;2011年
9 陈晓;基于CloseGraph的图分类算法研究[D];燕山大学;2010年
10 何东晓;网络社区智能挖掘算法的研究[D];吉林大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026