收藏本站
《复旦大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

关联规则挖掘在分类数据领域的扩展性研究

毛宇星  
【摘要】:随着计算机技术在社会各个领域的广泛应用,人们对信息系统的依赖程度越来越高。面对数据丰富而信息匮乏的困境,在统计学、数据库技术、机器学习、人工智能、模式识别和可视化技术等相关领域发展的基础上,以发现有用知识为目的的新兴交叉学科-数据挖掘技术应运而生。 关联规则挖掘作为数据挖掘领域重要的研究方向之一,由于其在零售交易分析、客户关系管理、网络入侵检测、设备故障诊断、天文光谱分析、蛋白质结构分析和软件缺陷发现等应用领域的广泛适用性和特有价值,尽管历经二十多年的发展,仍然备受企业和学术界的高度关注,且正在向着新兴的研究领域扩展。 本文通过对关联规则发展现状的系统性研究,选择了分类数据(Taxonomy)这一特殊领域作为扩展研究对象。这是因为分类数据作为一种结构化的数据不仅普遍存在,而且基于分类数据挖掘产生的关联规则蕴含更丰富、更灵活、更具参考价值的信息,因此该领域的扩展性研究对于实际应用和学术理论都具有非常特殊且重要的意义。 本文的主要研究内容如下: 首先,本文研究了分类数据关联规则挖掘的特殊情形——多层关联规则挖掘问题,这是基于分类数据扩展性研究的基础。本文根据挖掘遍历策略的不同,提出了两种新颖高效的多层关联规则挖掘方法TD-CBP-MLARM和BU-CBP-MLARM。其基本思想在于,首先利用分类数据所属领域的先验知识对通用的相关性度量函数进行有效修正,使之更加适合于分类数据项之间相关性的度量;然后基于修正后的相关性函数对分类数据各层次上的项依次进行聚类,根据各层项的层次聚类结果对事务数据库进行约简划分,从而缩小了事务数据库的规模,节省了挖掘算法扫描事务数据库的I/O操作时间,达到了提高算法挖掘效率的目的。 其次,本文针对多层关联规则挖掘的一般情形——概化关联规则挖掘问题进行了研究。本文首先基于有候选项集方法的思想,提出了一种基于集合枚举树的概化频繁项集宽度优先挖掘方法SET-BFS。该方法可以确保所有k-项集产生之前,其所有的(k-1)-子项集已经产生,进而可以确保Apriori性质在分类数据领域的有效运用,实现对非频繁项集的高效剪枝,不仅避免了大量非频繁项集的计数和判定操作,还减少项集扩展空间的规模,从而提升此类算法的执行效率。进而结合最新的无候选项集方法的思想,提出了一种高效的概化关联规则挖掘方法GEAOT-tax。该方法引入了一种新颖的扩展升序前缀树GEAOT,采用自上而下、深度优先的遍历策略,结合双头表辅助结构以及合并、剪枝等一系列优化操作,进一步减少了算法的遍历开销,从而提升了算法整体效率。 最后,本文将研究视角从静态分类数据进一步扩展至动态变化环境下,对概化关联规则更新保持问题进行了研究,并提出了一种基于概化扩展自然序树的增量挖掘方法GECT-IM。该方法只需扫描一次原始分类事务数据库,就可以将所有交易中的叶子项及其概化项映射至一棵压缩格式的自然序前缀树GECT,并通过引入更新头表来实现只对GECT中更新项集计数,然后结合相关性质及运算就能发现大部分更新后的频繁项集,而只对部分原来非频繁的项集才需重新遍历初始GECT树来得到,从而有效提升了挖掘效率。针对GECT规模较大以及GECT-IM算法在部分情况下仍需遍历初始GECT树的局限性,本文进一步提出了一种基于准频繁概化扩展自然序树的增量挖掘方法PGECT-IM。该方法通过准最小支持度阈值的引入,结合对数据库变化范围的判定,只利用符合准最小支持度的项集来构建PGECT,不仅可以减小树的规模,还可以有效避免GECT-IM方法在部分情况下仍需要遍历初始GECT树的局限性,进一步提升了增量挖掘的性能。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP311.13

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 张红艳;都娟;;关联规则中Apriori算法的应用[J];数字技术与应用;2011年08期
2 杜琳;陈云亮;朱静;;一种新的在图像关联规则挖掘中产生频繁项集的方法[J];微电子学与计算机;2011年07期
3 赵明茹;郭键;孙媛;;基于线性链表存储结构的Apriori改进算法[J];科学技术与工程;2011年23期
4 鹿莉霞;;关联规则在课程相关性分析中的应用[J];电脑知识与技术;2011年14期
5 杜英;;关联规则挖掘研究[J];知识经济;2011年14期
6 张丽伟;张晶;;基于关联规则的Web日志挖掘算法研究[J];电脑编程技巧与维护;2011年16期
7 崔建;李强;王国师;;一种针对大型事务数据库的关联规则挖掘算法[J];空军雷达学院学报;2011年03期
8 范黎林;林卫;;矩阵约束下的频繁项集挖掘方法研究[J];计算机工程与应用;2011年21期
9 欧凤霞;王宗殿;;基于关联规则的数据挖掘技术在中医诊断中的应用[J];河南工程学院学报(自然科学版);2011年02期
10 王祥瑞;;数据挖掘技术中关联规则挖掘的应用研究[J];煤炭技术;2011年08期
中国重要会议论文全文数据库 前10条
1 陈晓云;李泽霞;刘幸辉;彭文静;;关联规则挖掘过程中的模糊化方法研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 王盛;董黎刚;李群;;一种基于逆序编码的关联规则挖掘研究[A];浙江省电子学会2010学术年会论文集[C];2010年
3 方芳;李建中;潘海为;;脑部医学图像中的关联规则挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 张鹏;于波;童云海;唐世渭;;基于随机响应的隐私保护关联规则挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 谷姗姗;秦首科;胡大斌;周傲英;;面向关联规则挖掘的敏感规则隐藏技术[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 杨晓雪;衡红军;;一种对XML数据进行关联规则挖掘的方法研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
7 张宇鹏;王丽珍;周丽华;;基于气象数据的关联规则挖掘[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 张仲楠;孙志挥;;关系数据库中限制性关联规则挖掘的优化[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
9 张海威;袁晓洁;窦志成;;基于Web日志的时序关联规则挖掘算法研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 严澄;胡天磊;陈珂;陈刚;;MARSW:一种高效的基于滑动窗口数据流关联规则挖掘方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国重要报纸全文数据库 前1条
1 浙江省金华市烟草专卖局 满在明 廖明景;谈卷烟专卖案件信息的挖掘[N];东方烟草报;2011年
中国博士学位论文全文数据库 前10条
1 毛宇星;关联规则挖掘在分类数据领域的扩展性研究[D];复旦大学;2010年
2 刘智;关联规则挖掘方法及其在冠心病中医诊疗中的应用研究[D];大连海事大学;2012年
3 何月顺;关联规则挖掘技术的研究及应用[D];南京航空航天大学;2010年
4 叶飞跃;关联规则及其元规则挖掘技术研究[D];南京航空航天大学;2006年
5 屠莉;流数据的频繁项挖掘及聚类的关键技术研究[D];南京航空航天大学;2009年
6 毛伊敏;数据流频繁模式挖掘关键算法及其应用研究[D];中南大学;2011年
7 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
8 陈耿;面向中观审计的规则发现算法研究[D];东南大学;2005年
9 王培崇;基于群智能计算技术的网络入侵检测算法研究[D];中国矿业大学(北京);2010年
10 刘亚波;关联规则挖掘方法的研究及应用[D];吉林大学;2005年
中国硕士学位论文全文数据库 前10条
1 刘卫;基于剪枝概念格模型的频繁项集表示及挖掘研究[D];合肥工业大学;2007年
2 窦茂生;数据挖掘中关联规则的研究与应用[D];长春理工大学;2009年
3 龚舒;桥吊动态机械性能参数的统计特征分析及关联规则挖掘[D];上海海事大学;2005年
4 田卓;基于多个关联规则挖掘算法的新算法的研究与应用[D];吉林大学;2009年
5 袁彩虹;基于粒计算与完全图的关联规则算法研究[D];河南大学;2009年
6 王涛;关联规则算法及并行化研究[D];河北大学;2006年
7 熊金芬;一种高效频繁项集挖掘算法的研究[D];哈尔滨工程大学;2006年
8 周翠红;数据挖掘中关联规则的研究及在高校教学质量评估中的应用[D];中南大学;2007年
9 孔芳;数据挖掘技术中关联规则算法的研究[D];江南大学;2008年
10 余春;频繁闭项集并行挖掘算法的研究与实现[D];重庆大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026