收藏本站
《北京邮电大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

可信关联规则挖掘算法研究

肖波  
【摘要】: 关联规则挖掘是数据挖掘领域中一个重要研究内容。传统的关联规则挖掘算法大都基于支持度-置信度框架,利用支持度去除非频繁项集,利用置信度得到较为有效的关联规则。对支持度分布严重倾斜的数据集挖掘时,人们发现现有算法无法选择合适的支持度阈值。若将最小支持度设置较高,会遗漏支持度较低但令人感兴趣的规则,若设置较低,则挖掘结果会含有大量虚假规则,对用户没有实际意义。 本论文针对上述问题,围绕如何得到可信有效的关联规则展开研究,创新点和主要工作如下: 1.提出可信关联规则的概念 可信关联规则中各个项目的支持度处于同一数量级,一个项目的出现很强的暗示了规则中其他项目也会出现,即规则中的各个项目在很大程度上是同现的。挖掘这种规则时,可以忽略支持度阈值,因此可同时得到频繁模式和非频繁模式。对于可信关联规则的兴趣度量,本文提出基于可信度的度量,并引入基于距离测度的度量及h-置信度等。实验结果表明,可信关联规则在很多数据集中都会存在,其可信程度远远大于传统的关联规则,可广泛应用到诸多领域。 2.提出基于极大团挖掘可信关联规则的MaxCliqueMining算法 MaxCliqueMining算法采用邻接矩阵产生2-项可信集,不需要对数据库进行多次扫描,就能利用极大团思想产生所有可信关联规则,提高时间性能。该算法可以挖掘基于可信度、提升度、余弦度量以及相关度度量的可信关联规则,对于不同度量,算法只在生成2-项可信集时有所区别,后续挖掘过程完全一致。实验结果表明,本算法在倾斜支持度分布的数据集中挖掘可信关联规则具有较高的效率和准确性。 3.提出统一挖掘超团模式和极大超团模式的HHCP-growth算法超团模式和极大超团模式都是基于h-置信度度量的可信关联规则的特定类型。挖掘两种模式的标准算法是完全不同的。本文提出基于FP-tree的HHCP-growth算法统一了两种模式的挖掘。算法采用了递归挖掘思想,无需保存大量候选项集。除了应用传统的最小支持度剪枝策略外,还引入最大支持度剪枝、项目自剪枝以及剩余项目剪枝等策略,减少遍历和递归的次数。本文证明了剪枝策略的有效性和算法的正确性。实验结果表明,HHCP-growth算法与传统的超团模式挖掘算法和极大超团模式挖掘算法相比,具有更高的效率,尤其在大数据集或低支持度条件下更为显著。 4.制作并发布可作为告警关联分析和研究使用的标准告警数据集 采集了某省移动公司GPRS网络管理系统及某设备生产商模拟网管理系统部分时段的告警数据。这些真实数据经过预处理,去除噪声和敏感信息后,被转换为可进行直接挖掘的标准数据格式。告警数据集在网站上提供免费下载,可作为告警关联分析和研究使用的标准数据集。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP311.13

【引证文献】
中国硕士学位论文全文数据库 前2条
1 吴晓黎;基于数据挖掘的个性化营销算法的设计与实现[D];北京邮电大学;2010年
2 唐耀红;数据流环境中关联规则挖掘技术的研究[D];北京交通大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 徐前方;肖波;郭军;;一种基于相关度统计的告警关联规则挖掘算法[J];北京邮电大学学报;2007年01期
2 秦亮曦,史忠植;SFPMax——基于排序FP树的最大频繁模式挖掘算法[J];计算机研究与发展;2005年02期
3 彭晖,庄镇泉,李斌,杨俊安;基于模糊关联规则挖掘的模糊入侵检测[J];计算机工程与应用;2004年31期
4 孙茂艳,谢康林;基于客户关系属性的市场营销数据挖掘[J];计算机工程与应用;2005年18期
5 马洪江;;基于粗糙集关联规则挖掘的入侵检测研究[J];计算机科学;2006年09期
6 邢东山,沈钧毅,宋擒豹;从Web日志中挖掘用户浏览偏爱路径[J];计算机学报;2003年11期
7 朱凌云;赵韩;高先圣;;Web挖掘在网络营销中的应用研究[J];情报杂志;2006年01期
8 宋余庆,朱玉全,孙志挥,陈耿;基于FP-Tree的最大频繁项目集挖掘及更新算法[J];软件学报;2003年09期
9 颜跃进,李舟军,陈火旺;基于FP-Tree有效挖掘最大频繁项集[J];软件学报;2005年02期
10 肖波;徐前方;蔺志青;郭军;李春光;;可信关联规则及其基于极大团的挖掘算法[J];软件学报;2008年10期
【共引文献】
中国期刊全文数据库 前10条
1 赵群礼;;基于FP-Tree的最大频繁项目集综合更新算法[J];安徽教育学院学报;2006年03期
2 赵群礼;卢朴;;基于T-tree的最大频繁项目集挖掘算法[J];合肥师范学院学报;2009年06期
3 王全;混合遗传算法及其改进[J];安徽建筑工业学院学报(自然科学版);1999年04期
4 李芳芳;;数据仓库技术在远程教育中的应用[J];安徽科技;2007年01期
5 唐超礼;魏圆圆;;基于数据挖掘的植保预测系统[J];安徽农业科学;2008年12期
6 韦伟;唐凤霞;;我国教育领域中数据挖掘研究论文的计量分析[J];安庆师范学院学报(社会科学版);2011年08期
7 王应前;K方图的若干性质[J];安庆师范学院学报(自然科学版);1996年04期
8 崔柔刚,温阳东;数据挖掘技术在医院信息管理中的应用[J];安徽水利水电职业技术学院学报;2004年01期
9 秦如新;田英杰;陈静;邓乃扬;张海斌;;双聚类的关联规则挖掘方法[J];北京工业大学学报;2009年04期
10 陈鹏;吕卫锋;;一种基于有效修剪的最大频繁项集挖掘算法[J];北京航空航天大学学报;2006年02期
中国重要会议论文全文数据库 前10条
1 钟业勋;童新华;;关于地图制图资料数学定义的探讨[A];第二届“测绘科学前沿技术论坛”论文精选[C];2010年
2 吴觅昊;戴昌裕;;基于数据仓库的军事无线电管理统计分析技术应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
3 冯永玖;童小华;刘妙龙;;基于PowerDesigner的公路工程地理信息平台数据库建模[A];华东地区第十次测绘学术交流大会论文集[C];2007年
4 郭琪瑶;;计算数据分析在学生管理决策中的模式应用[A];江苏省教育学会2006年年会论文集(综合二专辑)[C];2006年
5 谭小球;姚敏;顾沈明;;基于最大频繁序列模式树的个性化页面推荐[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
6 曹波伟;王崛;陈忱;;基于OLAP的数据挖掘在设备维护中的应用研究[A];第二十二届中国(天津)'2008IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2008年
7 曹波伟;王崛;陈忱;;基于OLAP的数据挖掘在设备维护中的应用研究[A];第二十三届中国(天津)2009IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2009年
8 闫斌;张茹;谷利泽;;一种基于有限状态自动机的分级告警关联设计方案[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
9 曹波伟;薛青;郑长伟;于屏岗;陈辰;;基于数据挖掘的装备维修管理智能分析模型研究[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年
10 薛红;翁贻方;曹利红;施彦;;超市商业智能系统的数据仓库模型和联机分析研究[A];中国计量协会冶金分会2008年会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 刘雪梅;服务器端软件性能分析和诊断方法研究[D];哈尔滨工程大学;2010年
2 李强;数据挖掘中关联分析算法研究[D];哈尔滨工程大学;2010年
3 李彤岩;基于数据挖掘的通信网告警相关性分析研究[D];电子科技大学;2010年
4 费威;最小调整法的改进及其在经济优化中的应用[D];东北财经大学;2010年
5 程文聪;面向大规模网络安全态势分析的时序数据挖掘关键技术研究[D];国防科学技术大学;2010年
6 叶红云;面向金融营销问题的个性化推荐方法研究[D];合肥工业大学;2011年
7 卢又燃;放射科随访数据库建立与粗糙集方法辅助诊断胶质瘤分级的应用分析[D];复旦大学;2009年
8 朱辉生;基于情节规则匹配的数据流预测研究[D];复旦大学;2011年
9 林冠洲;网络流量识别关键技术研究[D];北京邮电大学;2011年
10 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 梅俊;数据挖掘中关联规则算法的研究及应用[D];安徽工程大学;2010年
2 贾莉莉;跳扩散模型下几种奇异期权的保险精算定价研究[D];山东科技大学;2010年
3 史文财;省级政务网安全检测系统的设计与实现[D];哈尔滨工程大学;2010年
4 曾祥莉;ETL在经济普查信息发布系统中的应用研究[D];哈尔滨工程大学;2010年
5 李伟光;基于BP神经网络的数据库模式匹配方法研究[D];哈尔滨工程大学;2010年
6 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
7 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
8 曹萍;Agent电子商务推荐系统下协同过滤技术研究[D];辽宁工程技术大学;2009年
9 陈宇晖;基于数据挖掘的入侵检测方法研究[D];长沙理工大学;2010年
10 南志海;基于web的酒店管理系统的分析与设计[D];中国海洋大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 伊卫国;卫金茂;王名扬;;关联规则挖掘方法的改进[J];东北师大学报(自然科学版);2006年02期
2 刘旭;毛国君;孙岳;刘椿年;;数据流中频繁闭项集的近似挖掘算法[J];电子学报;2007年05期
3 方伍元;陆介平;轩志远;;基于相关性精简关联规则生成算法[J];江苏科技大学学报(自然科学版);2007年01期
4 周欣,沙朝锋,朱扬勇,施伯乐;兴趣度——关联规则的又一个阈值[J];计算机研究与发展;2000年05期
5 刘学军;徐宏炳;董逸生;王永利;钱江波;;挖掘数据流中的频繁模式[J];计算机研究与发展;2005年12期
6 李洪波;周莉;张吉赞;;用垂直数据格式构建FP增长树的算法[J];计算机工程与应用;2009年08期
7 郭俊芳;谢益武;周生宝;;关联规则相关性的度量[J];计算机应用;2007年04期
8 杨敏;朱福喜;刘小丽;余永宏;;CLOSET~+:基于CLOSET的改进算法[J];计算机应用研究;2006年11期
9 孙志长;冯祖洪;王沛栋;;一种高效的混合压缩数据挖掘算法[J];计算机应用研究;2009年10期
10 张昕;李晓光;王大玲;于戈;;数据流中一种快速启发式频繁模式挖掘方法[J];软件学报;2005年12期
中国硕士学位论文全文数据库 前2条
1 徐艳红;基于倾斜时间窗口的频繁项集挖掘算法研究[D];哈尔滨工程大学;2010年
2 庄波;数据流中频繁模式挖掘方法的研究及应用[D];山东师范大学;2008年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 邹佳君;基于数据挖掘的SEM投放模型研究[D];华东师范大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 徐前方;肖波;郭军;;一种基于相关度统计的告警关联规则挖掘算法[J];北京邮电大学学报;2007年01期
2 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
3 吴狄亚;谈网络营销对传统营销方式的影响[J];经济与管理;2000年03期
4 薛锦,陈原斌;一种实用的关联规则增量式更新算法[J];计算机工程与应用;2003年13期
5 颜跃进;李舟军;陈火旺;;频繁项集挖掘算法[J];计算机科学;2004年03期
6 王扶东,李兵,薛劲松,朱云龙;客户关系管理中基于约束的关联规则挖掘方法研究[J];计算机集成制造系统-CIMS;2004年04期
7 陆声链,林士敏;基于距离的孤立点检测及其应用[J];计算机与数字工程;2004年05期
8 宁玉杰,郭晓淳;基于数据挖掘技术的网络入侵检测系统[J];计算机自动测量与控制;2002年03期
9 周庆敏,李永生,殷晨波,陆金桂;基于粗集理论的数据挖掘应用[J];南京工业大学学报(自然科学版);2003年02期
10 路松峰,卢正鼎;快速开采最大频繁项目集[J];软件学报;2001年02期
中国博士学位论文全文数据库 前1条
1 向继东;基于数据挖掘的自适应入侵检测建模研究[D];武汉大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 马希荣,孙华志;数据挖掘技术在教学评价中的应用[J];计算机工程与应用;2003年19期
2 石冰,郑燕峰;信息检索中的数据挖掘技术[J];情报学报;1999年S1期
3 周涛,陆惠玲;关联规则挖掘算法研究[J];齐齐哈尔大学学报;2004年03期
4 汪洪涛,刘文才;数据挖掘技术关联规划算法在营销策略中的应用[J];工业控制计算机;2003年09期
5 黎敏,冯齐元,王天明;数据库中的优对关联关系的挖掘[J];计算机工程与应用;2004年24期
6 辛海涛;用数据挖掘方法解决网络拥挤的问题[J];哈尔滨商业大学学报(自然科学版);2005年03期
7 颜雪松,蔡之华;一种基于Apriori的高效关联规则挖掘算法的研究[J];计算机工程与应用;2002年10期
8 谭显波,谭显春,许秀梅,宛西原;广义的关联规则挖掘算法[J];现代计算机;2002年12期
9 张勇,李险峰;数据挖掘中关联规则更新算法的研究[J];长春大学学报;2003年01期
10 陈子阳,郭景峰;多层次关联规则的快速挖掘算法[J];燕山大学学报;2003年04期
中国重要会议论文全文数据库 前10条
1 周焕银;张永;;关联规则候选项频度规律研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
2 黄晓燕;许龙飞;;基于关联规则的网络入侵检测技术的应用研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 左万利;刘居红;;包含正负属性的关联规则及其挖掘[A];第十六届全国数据库学术会议论文集[C];1999年
4 方艳;别荣芳;;关联规则的有趣性研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 韩涛;张春海;;关系数据库中关联规则的高效挖掘算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 李阳;徐锡山;韩伟红;郑黎明;徐镜湖;;网络安全事件关联规则的自动化生成方法研究与实践[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
7 潘海为;李建中;张炜;;挖掘脑部医学图像中的关联规则[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 王宁;董淳;胡运发;陶晓鹏;;面向集合的关联规则挖掘算法[A];第十五届全国数据库学术会议论文集[C];1998年
9 周皓峰;高攀;施伯乐;;一个基于兴趣度包含负属性项的关联规则采掘算法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
10 李庆忠;张世栋;董国庆;;在数据多维体中进行关联规则的挖掘[A];第十六届全国数据库学术会议论文集[C];1999年
中国重要报纸全文数据库 前10条
1 严宁;挖掘数据寻保险商机[N];网络世界;2007年
2 邱红杰;过去有困难找单位,现在找谁[N];新华每日电讯;2006年
3 记者 曾卫康通讯员 市创卫办;对广州总体卫生状况满意度95% 对创建国家卫生城市支持度98%[N];广州日报;2007年
4 特约评论员 王尔山;奥巴马高支持度的另面[N];21世纪经济报道;2009年
5 ;台媒:许信良支持度超过预期[N];团结报;2011年
6 本报记者 袁跃;点击七彩人生[N];财会信报;2005年
7 南京市地方税务局信息管理处、计算机中心 明靖 朱岚;数据挖潜让业务说话[N];中国计算机报;2006年
8 何宇;“感谢市民支持,我们会更努力”[N];广州日报;2009年
9 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
10 ;“基地”谈与美媾和条件[N];新华每日电讯;2010年
中国博士学位论文全文数据库 前10条
1 肖波;可信关联规则挖掘算法研究[D];北京邮电大学;2009年
2 伊卫国;基于关联规则与决策树的预测方法研究及其应用[D];大连海事大学;2012年
3 叶小飞;基于自发呈报系统与循证医学的药品不良反应信号挖掘[D];第二军医大学;2011年
4 李强;数据挖掘中关联分析算法研究[D];哈尔滨工程大学;2010年
5 郭秀娟;基于关联规则数据挖掘算法的研究[D];吉林大学;2004年
6 王越;分布式关联规则挖掘的方法研究[D];重庆大学;2003年
7 Vital Delmas MABONZO;大型数据库有效挖掘关联规则新方法研究[D];大连海事大学;2012年
8 蔡瑞初;基因表达数据挖掘若干关键技术研究[D];华南理工大学;2010年
9 牛成林;增量数据挖掘及其在电站运行优化中的理论研究及应用[D];华北电力大学(北京);2010年
10 姜保庆;关于弱比例规则的挖掘及推理研究[D];西南交通大学;2005年
中国硕士学位论文全文数据库 前10条
1 赵春胜;基于关联规则的数据挖掘方法在电厂脱硫监测中的应用研究[D];内蒙古大学;2011年
2 聂倩雯;基于关联规则数据挖掘和扩展贝叶斯网络的电网故障诊断方法研究[D];西南交通大学;2010年
3 蒋秀英;数据挖掘中的关联规则算法优化研究及应用[D];山东师范大学;2003年
4 吴倩;基于关联规则的零售业CRM的设计和实现[D];华东师范大学;2011年
5 王玉荣;关联规则挖掘算法在大数据集上的应用研究[D];江南大学;2011年
6 刘玉锋;数据挖掘中关联规则算法的研究与应用[D];长春理工大学;2010年
7 涂明;关联规则增量式更新算法研究[D];合肥工业大学;2010年
8 武立昊;基于人工智能技术的企业决策支持系统研究[D];中北大学;2010年
9 王景;基于关联规则数据挖掘的研究[D];广西大学;2003年
10 林俊;智能旅游行程规划系统研究[D];北京邮电大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026