可信关联规则挖掘算法研究
【摘要】:
关联规则挖掘是数据挖掘领域中一个重要研究内容。传统的关联规则挖掘算法大都基于支持度-置信度框架,利用支持度去除非频繁项集,利用置信度得到较为有效的关联规则。对支持度分布严重倾斜的数据集挖掘时,人们发现现有算法无法选择合适的支持度阈值。若将最小支持度设置较高,会遗漏支持度较低但令人感兴趣的规则,若设置较低,则挖掘结果会含有大量虚假规则,对用户没有实际意义。
本论文针对上述问题,围绕如何得到可信有效的关联规则展开研究,创新点和主要工作如下:
1.提出可信关联规则的概念
可信关联规则中各个项目的支持度处于同一数量级,一个项目的出现很强的暗示了规则中其他项目也会出现,即规则中的各个项目在很大程度上是同现的。挖掘这种规则时,可以忽略支持度阈值,因此可同时得到频繁模式和非频繁模式。对于可信关联规则的兴趣度量,本文提出基于可信度的度量,并引入基于距离测度的度量及h-置信度等。实验结果表明,可信关联规则在很多数据集中都会存在,其可信程度远远大于传统的关联规则,可广泛应用到诸多领域。
2.提出基于极大团挖掘可信关联规则的MaxCliqueMining算法
MaxCliqueMining算法采用邻接矩阵产生2-项可信集,不需要对数据库进行多次扫描,就能利用极大团思想产生所有可信关联规则,提高时间性能。该算法可以挖掘基于可信度、提升度、余弦度量以及相关度度量的可信关联规则,对于不同度量,算法只在生成2-项可信集时有所区别,后续挖掘过程完全一致。实验结果表明,本算法在倾斜支持度分布的数据集中挖掘可信关联规则具有较高的效率和准确性。
3.提出统一挖掘超团模式和极大超团模式的HHCP-growth算法超团模式和极大超团模式都是基于h-置信度度量的可信关联规则的特定类型。挖掘两种模式的标准算法是完全不同的。本文提出基于FP-tree的HHCP-growth算法统一了两种模式的挖掘。算法采用了递归挖掘思想,无需保存大量候选项集。除了应用传统的最小支持度剪枝策略外,还引入最大支持度剪枝、项目自剪枝以及剩余项目剪枝等策略,减少遍历和递归的次数。本文证明了剪枝策略的有效性和算法的正确性。实验结果表明,HHCP-growth算法与传统的超团模式挖掘算法和极大超团模式挖掘算法相比,具有更高的效率,尤其在大数据集或低支持度条件下更为显著。
4.制作并发布可作为告警关联分析和研究使用的标准告警数据集
采集了某省移动公司GPRS网络管理系统及某设备生产商模拟网管理系统部分时段的告警数据。这些真实数据经过预处理,去除噪声和敏感信息后,被转换为可进行直接挖掘的标准数据格式。告警数据集在网站上提供免费下载,可作为告警关联分析和研究使用的标准数据集。
|
|
|
|
1 |
马希荣,孙华志;数据挖掘技术在教学评价中的应用[J];计算机工程与应用;2003年19期 |
2 |
石冰,郑燕峰;信息检索中的数据挖掘技术[J];情报学报;1999年S1期 |
3 |
周涛,陆惠玲;关联规则挖掘算法研究[J];齐齐哈尔大学学报;2004年03期 |
4 |
汪洪涛,刘文才;数据挖掘技术关联规划算法在营销策略中的应用[J];工业控制计算机;2003年09期 |
5 |
黎敏,冯齐元,王天明;数据库中的优对关联关系的挖掘[J];计算机工程与应用;2004年24期 |
6 |
辛海涛;用数据挖掘方法解决网络拥挤的问题[J];哈尔滨商业大学学报(自然科学版);2005年03期 |
7 |
颜雪松,蔡之华;一种基于Apriori的高效关联规则挖掘算法的研究[J];计算机工程与应用;2002年10期 |
8 |
谭显波,谭显春,许秀梅,宛西原;广义的关联规则挖掘算法[J];现代计算机;2002年12期 |
9 |
张勇,李险峰;数据挖掘中关联规则更新算法的研究[J];长春大学学报;2003年01期 |
10 |
陈子阳,郭景峰;多层次关联规则的快速挖掘算法[J];燕山大学学报;2003年04期 |
11 |
王昊;基于关联规则挖掘研究学科间相关性[J];现代图书情报技术;2005年03期 |
12 |
宋海声;杨鸿武;裴东;;兴趣关联规则的挖掘[J];甘肃科技;2008年22期 |
13 |
曾安平;黄永平;阳万安;李广军;唐远翔;;一个基于兴趣度的FP-Growth算法改进[J];宜宾学院学报;2008年12期 |
14 |
吴磊;何嘉;;基于项目集矩阵的AprioriHybral算法研究[J];成都信息工程学院学报;2009年01期 |
15 |
左万利,刘居红;任意多表间关联规则的并行挖掘[J];吉林大学自然科学学报;1999年04期 |
16 |
王新;不完全数据库中关联规则的两种求估方法[J];计算机应用;2004年08期 |
17 |
陈斌,倪天倪;一种基于条件独立性的关联规则过滤方法[J];计算机工程与应用;2003年25期 |
18 |
马超飞,刘建强;遥感图像多维量化关联规则挖掘[J];遥感技术与应用;2003年04期 |
19 |
王评;陈国龙;;一种基于人工免疫的新的频繁项挖掘算法[J];计算机科学;2005年08期 |
20 |
鲍静;;关联规则在图书馆个性化服务中的应用[J];科教文汇(中旬刊);2007年09期 |
|