收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

关联规则挖掘算法研究

高飞  
【摘要】: 知识就是力量。当前快速发展的新的IT技术、电子商务及互联网的迅速普及,导致在各个应用领域的数据库中存储了大量的数据,这些数据集中包含了很多有用的知识,因此如何发现各种大型数据库中所隐藏的、预先未知的信息以辅助相应的应用显得尤为重要,这正是数据挖掘所要完成的任务。近年来国外学者提出了一系列的数据挖掘理论,世界上的主要IT公司,如IBM、Oracle及Microsoft等也已相继推出了各自的数据挖掘产品。关联规则挖掘作为数据挖掘的一个重要研究分支,其主要的研究目的是从大型数据集中发现隐藏的、有趣的、属性间存在的规律。由于形式简单、易于理解,且是从大型数据中提取知识的主要手段,因此关联规则挖掘的研究与应用已经得到了数据库、人工智能及统计学等领域里的学者的极大关注,并取得了不少的研究成果。与人工智能中的神经网络、遗传算法及统计学不同的是,关联规则挖掘处理的对象是大型的数据集,而神经网络和遗传算法等人工智能方法通常处理的数据对象通常相对较小,且人工智能的方法重在寻找输入输出间的模型,而关联规则的挖掘则是用于发现数据集合中所包含的属性间的规律,其结果不是一个具体的模型而是数量众多的规则。此外,统计学中的方法尽管处理的对象也可以是大量的数据,然而其主要作用是用于确定数据的统计分布或统计模型,而不能描述数据集中所包含的属性间的规律。本文在国家863项目的资助下,主要对含有项目约束的关联规则挖掘、模糊数值约束的关联规则挖掘、优化关联规则的解空间、Web使用挖掘及数值型关联规则挖掘的统计方法进行了深入的研究和探讨,提出了一系列的定义、定理及新算法,解决了若干理论和实际方面的问题。第2章系统地介绍了含有约束的关联规则挖掘的分类,给出了含有约束的关联规则挖掘的定义、定理及算法。从技术的观点详细介绍了其目前的发展状况,给出了关联规则挖掘中(特别是含有项目约束的关联规则挖掘中)相关的定义及名词解释,提出了挖掘含有项目约束的关联规则的一些重要定理,设计了高效的挖掘算法,本文提供的方法可以有效地解决低支持度、长模式的关联规则挖掘问题。第3章利用模糊集理论解决了现有的关联规则挖掘方法中未考虑与项目相关的数值信息的缺陷,提出了含有模糊数值约束的关联规则的定义、算法。将模糊查询和规则模板的概念有机的结合起来,给出了挖掘含有模糊数值约束的关联规则的公式和完整的挖掘方法,给出了相关的实验设计。实验结果表明本文给出的研究方法对于挖掘含有数值约束的关联规则具有一定的指导意义。第4章讨论了如何优化关联规则的解空间的问题。提出了意想不到的关联规则(即对用户来说是有趣的规则)的定义、算法。给出了两类意想不到的关联规则的定义,一类是意想不到的模板规则,本文认为模板规则中的一部分有必要进 行更新,以纠正领域知识的偏差,纠正后的模板规则对于以后的挖掘具有非常重 要的作用。另外一类是与规则模板后项不同的意想不到的规则,这类规则实际上 就是我们最终需要提交给用户的主要结果,即那些事先无法预见的规则。给出了 相关的挖掘算法,提出了利用 X‘检验的方法去除那些缺乏相关的项集的方法,提 出了利用信息增益对第二类规则进行排序的方法,并指出信息增益越大的规则是 有趣度越大的规则。在算法设计时,提出了修改后的Apriori框架,使得生成的频 繁集数量得到了大大的减少,从而提高了算法的效率。 第5章给出了对Web日志数据进行挖掘的相关定义及算法作Web使用挖掘\ 给出了聚合记录、客户记录、及客户序列的定义及它们间的包含关系等,这些定 义为进一步的算法设计提供了有力的工具和理论基础。在讨论对Web日志文件进 行挖掘的相关算法时,本文充分考虑了时间约束的问题,给出了利用新颖的数据 结构oT树)生成备选集的重要方法,这与其他文献中利用散列树生成备选集的 方法相比具有很大优越性,第一减少了不必要的节点的生成,因此树的体积变得 相对较小;此外,PT树的查找方法更为简单,无需采用散列函数,因此降低了算 法的运行时间,提高了效率。设计了相关的实验数据,并用实验说明了所给算法 的有效性。 第6章给出了多概念层次的数值型关联规则挖掘定义及算法的框架,多概念 层次的数值关联规则挖掘实际上是利用了统计学中的假设检验的方法来确定规则 的有趣程度,由于这类规则在提交给用户的时候需要一个比较项,因此有利于用 户的理解,同时对它的挖掘可以回避最小信任度门限的指定。介绍了利用修正差 值分析作为有趣度评判标准的数值型关联规则挖掘的定义及算法,该算法的优点 是既可以发现正相关的规则也可以发现负相关的规则,同时可以避免人为指定最 小信任度门限的麻烦,特别是该算法发掘的规则往往是其他算法所忽略的重要规 则。本文所有各章的工作均是围绕如何提高关联规则的挖掘效率进行的,所不同 的是研究角度不一样罢了。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈慧萍;朱峰;王建东;周小芹;;一种基于划分的带项目约束的频繁项集挖掘算法[J];系统工程与电子技术;2006年07期
2 初永玲;李绍春;;数据挖掘中关联规则挖掘算法的探讨与研究[J];科技信息(科学教研);2008年16期
3 朱慧爽;;数据挖掘在纺织高校科研管理系统中的应用[J];山东纺织经济;2008年03期
4 赵艳丽;张晓华;魏权利;;一种基于改进型遗传算法的关联规则挖掘方法[J];计算机与信息技术;2008年11期
5 吴宁;柏春霞;祝毅博;;一种应用关联规则森林的改进贝叶斯分类算法[J];西安交通大学学报;2009年02期
6 吴海峰;胡学钢;;关联规则在高校学位预警中的应用[J];安庆师范学院学报(自然科学版);2009年01期
7 张丽;;关联规则挖掘研究[J];赤峰学院学报(自然科学版);2009年05期
8 张志彦;李俊峰;;关联规则挖掘在学生成绩分析中的应用[J];科技和产业;2009年05期
9 沈良忠;;关联规则中Apriori算法的C#实现研究[J];电脑知识与技术;2009年13期
10 黄海燕;刘欣;;数据挖掘中的关联规则方法[J];软件导刊;2009年04期
11 黄海燕;刘欣;;数据挖掘中的关联规则方法[J];软件导刊;2009年05期
12 陈伟;;Apriori算法的优化方法[J];计算机技术与发展;2009年06期
13 张春华;孙国春;;关联规则挖掘算法研究与实现[J];电脑编程技巧与维护;2009年S1期
14 王立平;黄斌;;基于数据挖掘技术的高校图书馆馆藏优化研究[J];萍乡高等专科学校学报;2009年03期
15 张兴洲;单修慧;;关联规则在装备保障中的应用[J];科学技术与工程;2009年22期
16 张静;;关联规则在通信告警分析中的应用研究[J];信息与电脑(理论版);2011年05期
17 欧凤霞;王宗殿;;基于关联规则的数据挖掘技术在中医诊断中的应用[J];河南工程学院学报(自然科学版);2011年02期
18 张丽伟;张晶;;基于关联规则的Web日志挖掘算法研究[J];电脑编程技巧与维护;2011年16期
19 贺利坚,陈立潮,刘爽英;关联规则挖掘的AprioriTid算法的改进[J];烟台大学学报(自然科学与工程版);2003年04期
20 曲春锦;改进的关联规则挖掘算法及其在教育信息挖掘中的应用[J];交通与计算机;2005年04期
中国重要会议论文全文数据库 前10条
1 谷姗姗;秦首科;胡大斌;周傲英;;面向关联规则挖掘的敏感规则隐藏技术[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 陈晓云;李泽霞;刘幸辉;彭文静;;关联规则挖掘过程中的模糊化方法研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 张宇鹏;王丽珍;周丽华;;基于气象数据的关联规则挖掘[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
4 王盛;董黎刚;李群;;一种基于逆序编码的关联规则挖掘研究[A];浙江省电子学会2010学术年会论文集[C];2010年
5 方芳;李建中;潘海为;;脑部医学图像中的关联规则挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 张鹏;于波;童云海;唐世渭;;基于随机响应的隐私保护关联规则挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 张仲楠;孙志挥;;关系数据库中限制性关联规则挖掘的优化[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 李贝贝;乐嘉锦;;分布式环境下的隐私保护关联规则挖掘[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 杨晓雪;衡红军;;一种对XML数据进行关联规则挖掘的方法研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 周爱广;李玉忱;蒋志芳;曹璐;;基于HOLAP的关联规则挖掘[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
中国博士学位论文全文数据库 前10条
1 高飞;关联规则挖掘算法研究[D];西安电子科技大学;2001年
2 刘智;关联规则挖掘方法及其在冠心病中医诊疗中的应用研究[D];大连海事大学;2012年
3 陆楠;关联规则的挖掘及其算法的研究[D];吉林大学;2007年
4 何月顺;关联规则挖掘技术的研究及应用[D];南京航空航天大学;2010年
5 刘亚波;关联规则挖掘方法的研究及应用[D];吉林大学;2005年
6 毛宇星;关联规则挖掘在分类数据领域的扩展性研究[D];复旦大学;2010年
7 周皓峰;关联规则挖掘的拓展性研究[D];复旦大学;2003年
8 王玮;基于概念格的关联规则挖掘及变化模式研究[D];山东大学;2012年
9 王德兴;基于概念格模型关联规则挖掘的关键问题研究[D];合肥工业大学;2007年
10 颜跃进;最大频繁项集挖掘算法的研究[D];国防科学技术大学;2005年
中国硕士学位论文全文数据库 前10条
1 胡艳翠;基于关联规则的数据挖掘算法研究[D];大连海事大学;2009年
2 谭义红;关联规则挖掘及其在概念检索中的应用研究[D];湖南大学;2003年
3 邹丽;分布式系统下关联规则挖掘的研究与实现[D];大连交通大学;2005年
4 黄鹏鹤;关联规则挖掘及其在教务管理中的应用[D];大连交通大学;2005年
5 徐勇;基于概念格模型的分布式关联规则挖掘研究[D];合肥工业大学;2006年
6 李伟;基于关联规则B2C图书销售网站个性化推荐系统研究[D];对外经济贸易大学;2007年
7 梁碧珍;目标频繁项集挖掘算法与应用研究[D];广西大学;2007年
8 陈耀东;遗传算法在关联规则挖掘中的应用[D];华东师范大学;2008年
9 唐文志;蚁群算法在关联规则学习中的研究与应用[D];北京工业大学;2009年
10 李宏运;关联规则挖掘在图书馆管理中的应用[D];华东师范大学;2009年
中国重要报纸全文数据库 前5条
1 通讯员万承茂;二十局集团二公司工程项目管理规范化[N];中国铁道建筑报;2003年
2 时军;风险管理在施工项目管理中的应用[N];建筑时报;2004年
3 罗朝政;振奋精神 直面挑战[N];中国铁道建筑报;2003年
4 李云峰;谁在搭建信息化的烂尾楼[N];中国计算机报;2008年
5 浙江省金华市烟草专卖局 满在明 廖明景;谈卷烟专卖案件信息的挖掘[N];东方烟草报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978