收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

关联规则数据挖掘中经典频集算法改进的研究

王烁  
【摘要】:本文从关联规则的现实意义谈起,充分说明了关联规则研究的必要性以及巨大的社会和商业意义。关联规则的频集算法自从1993由Rakesh Agrawal和Ramakrishnan Skrikant提出之后,已经经历了十年的研究历程,并已成为数据挖掘的重要分支之一。 为了知识的关联性,本文对KDD(Knowledge Discovery in Databases,数据库中的知识发现)、数据挖掘(Data Mining)和关联规则(Association Rules)等概念也作了阐述,为深入讨论作了充分的准备。 本文的重点在于对经典频集算法改进的研究上。因此,通过对经典频集算法(Apriori算法)作了详细的阐述之后,重点研究了两方面的改进策略,并采用了面向对象的JAVA技术来实现了改进中的具体细节。 一方面,从理论上论证了减小候选集Ck的大小对提高整个算法效率有着明显的贡献。 另一方面,利用哈希树来存储数据项集,以实现对候选项目集的快速计数。首先从理论上阐述了利用哈希树这一传统数据结构在新的具体问题中的应用。然后把抽象的理论问题转化为了面向对象编程中的实际问题来解决:分别从哈希树的构建、元素(中间节点和叶节点)的添加、以及哈希树遍历等方面把整体问题进行分化解决。 为了验证我们的改进是行之有效的。我们选择了两个数据库作为测试试验床。一方面,我们采用了一种行之有效的人工合成测试数据的算法,自行产生了一个测试数据库来模拟真实的数据库试验床。另一方面,我们选择了来自www.microsoft.com的匿名用户访问日志作为真实的测试数据源。通过将该数据库进行了有效的改进(例如,删去无用数据项和调整试验数据与算法程序的应用接口等。)使其满足我们的试验要求。 基于不同的数据试验床,我们针对多种不同的情况对改进后的算法进行了测试。在挖掘关联规则的同时,还得到了一系列重要的测试数据。比如,当固定信任度的时候,在支持度不断增加的情况下,会得到一系列的不同的频集、关联规则、以及不同的运行时间。通过对这些试验数据的分析,得出了改进算法的稳定收敛的结论。并在这一前提下,我们还将老算法和改进算法进行了比较,充分的说明了改进算法的性能优势。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张海英,浦磊,潘永湘;一种自适应快速关联规则挖掘算法[J];西安理工大学学报;2004年04期
2 何中胜,刘宗田;一种无候选集产生的并行关联规则挖掘算法[J];计算机工程与应用;2004年24期
3 孙萧寒;张郭军;索红军;;多最小分类支持度算法研究[J];现代电子技术;2010年20期
4 田际平;一种在背景约束条件下的多级关联算法设计[J];计算机工程与科学;2002年05期
5 杨君锐,唐李真,杜建;关联规则维护方法的研究[J];陕西师范大学学报(自然科学版);2004年S1期
6 谭显波,谭显春,许秀梅,宛西原;广义的关联规则挖掘算法[J];现代计算机;2002年12期
7 张伟,郑涛,李辉;一种并行化的分组关联规则算法[J];计算机工程;2004年22期
8 霍桂利;关联规则挖掘算法分析与比较[J];内蒙古电大学刊;2004年01期
9 尚学群,沈均毅;并行关联规则挖掘综述[J];计算机工程;2004年14期
10 杨强;;改进的关联规则挖掘算法及其在课程设置中的应用[J];中国教育技术装备;2010年30期
11 石冰,郑燕峰;信息检索中的数据挖掘技术[J];情报学报;1999年S1期
12 张勇,李险峰;数据挖掘中关联规则更新算法的研究[J];长春大学学报;2003年01期
13 杨君锐;关联规则增量式快速更新方法的研究[J];微电子学与计算机;2004年09期
14 王星;对一个关联规则序贯抽样算法的改进与效率分析[J];统计与决策;2005年06期
15 刘羿;张永强;冀亚丽;;基于三次遍历的快速关联规则数据挖掘算法[J];光盘技术;2007年03期
16 焦亚冰;;基于关联规则挖掘算法的改进研究[J];太原师范学院学报(自然科学版);2008年02期
17 焦亚冰;;数据挖掘中关联规则Aprioir算法的改进[J];西安文理学院学报(自然科学版);2008年03期
18 梅登华;蔡少伟;;基于层次的最大频繁项集挖掘算法[J];电子设计工程;2010年03期
19 冯阿芳;;一种关联规则Apriori算法的优化[J];消费导刊;2010年08期
20 庞洁;李睿仙;胡建华;;数据挖掘在电信交叉销售领域的研究[J];电脑知识与技术(学术交流);2006年35期
中国重要会议论文全文数据库 前10条
1 李阳;徐锡山;韩伟红;郑黎明;徐镜湖;;网络安全事件关联规则的自动化生成方法研究与实践[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
2 左万利;刘居红;;包含正负属性的关联规则及其挖掘[A];第十六届全国数据库学术会议论文集[C];1999年
3 王宁;董淳;胡运发;陶晓鹏;;面向集合的关联规则挖掘算法[A];第十五届全国数据库学术会议论文集[C];1998年
4 周焕银;张永;;关联规则候选项频度规律研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 方艳;别荣芳;;关联规则的有趣性研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 黄晓燕;许龙飞;;基于关联规则的网络入侵检测技术的应用研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
7 李庆忠;张世栋;董国庆;;在数据多维体中进行关联规则的挖掘[A];第十六届全国数据库学术会议论文集[C];1999年
8 韩涛;张春海;;关系数据库中关联规则的高效挖掘算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 潘海为;李建中;张炜;;挖掘脑部医学图像中的关联规则[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
10 邱勇;兰永杰;刘晓华;;高效FP-TREE创建算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 肖波;可信关联规则挖掘算法研究[D];北京邮电大学;2009年
2 伊卫国;基于关联规则与决策树的预测方法研究及其应用[D];大连海事大学;2012年
3 王越;分布式关联规则挖掘的方法研究[D];重庆大学;2003年
4 叶小飞;基于自发呈报系统与循证医学的药品不良反应信号挖掘[D];第二军医大学;2011年
5 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
6 Vital Delmas MABONZO;大型数据库有效挖掘关联规则新方法研究[D];大连海事大学;2012年
7 王春雨;刑事案件关联分析与防控警务模式研究[D];大连理工大学;2010年
8 牛成林;增量数据挖掘及其在电站运行优化中的理论研究及应用[D];华北电力大学(北京);2010年
9 赵春;基于数据挖掘技术的财务风险分析与预警研究[D];北京化工大学;2012年
10 李学明;计算机数据的关联规则挖掘理论和算法研究[D];重庆大学;2003年
中国硕士学位论文全文数据库 前10条
1 王烁;关联规则数据挖掘中经典频集算法改进的研究[D];天津大学;2003年
2 路燕;基于时空调节及基于三次遍历的快速关联规则挖掘算法的研究[D];燕山大学;2000年
3 涂明;关联规则增量式更新算法研究[D];合肥工业大学;2010年
4 吴常辉;基于关联规则的数据挖掘方法及其在电子商务网站中的应用研究[D];合肥工业大学;2010年
5 王景;基于关联规则数据挖掘的研究[D];广西大学;2003年
6 岳慧颖;含有时空约束的关联规则挖掘方法研究[D];哈尔滨工程大学;2004年
7 聂倩雯;基于关联规则数据挖掘和扩展贝叶斯网络的电网故障诊断方法研究[D];西南交通大学;2010年
8 赵春胜;基于关联规则的数据挖掘方法在电厂脱硫监测中的应用研究[D];内蒙古大学;2011年
9 蒋秀英;数据挖掘中的关联规则算法优化研究及应用[D];山东师范大学;2003年
10 吴倩;基于关联规则的零售业CRM的设计和实现[D];华东师范大学;2011年
中国重要报纸全文数据库 前10条
1 严宁;挖掘数据寻保险商机[N];网络世界;2007年
2 南京市地方税务局信息管理处、计算机中心 明靖 朱岚;数据挖潜让业务说话[N];中国计算机报;2006年
3 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
4 本报记者 袁跃;点击七彩人生[N];财会信报;2005年
5 王玮 蔡莲红;数据挖掘走入语音处理[N];计算机世界;2001年
6 贵州省移动通信公司 苏思妮;让信息去主动寻找用户[N];通信产业报;2004年
7 ;选择SIM的十大理由[N];中国计算机报;2008年
8 主持人 李禾;数据挖掘技术如何驱动经济车轮[N];科技日报;2007年
9 中期研究院;数据仓库与数据挖掘在期货行业的应用[N];期货日报;2008年
10 陈星霖;NIDS:老树发新枝[N];网络世界;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978