数据挖掘中的关联规则算法优化研究及应用
【摘要】:
面对信息时代海量数据的出现,如何有效地利用巨量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。由此数据挖掘技术应运而生并得以迅猛发展。
数据挖掘是指从数据库中抽取隐含的、先前未知的、具有潜在使用价值信息的过程,是从“浩如烟海”的数据中“挖掘知识”的过程,是一种新型的数据分析技术。可广泛应用于银行金融、保险、公共设施、政府、教育、远程通讯、软件开发、运输等各个企事业单位及国防科研上。数据挖掘工程使得各类机构和组织能更好地理解它们的组织结构、业务处理过程和顾客,从而得到很高的投资收益。
目前,数据挖掘的主要研究领域为数据总结、分类、聚类、关联规则等方面。关联规则是R.Agrawal等首先提出的表示数据库中一组对象之间某种关联关系的规则。例如,关联规则可以表示为“购买了项目A的顾客中有95%的人又买了B”。从这些规则可找出顾客购买行为模式,可以应用于商品货架设计、生产安排、针对性的市场营销等。采用关联模型比较典型的例子是“啤酒和尿布”的故事。如何指导实际工作以取得效益是其根本宗旨。关联规则挖掘在商业、教育、科研等领域的成功应用,使它成为数据挖掘中最成熟、最重要、最活跃的一个分支。
关联规则发现的主要研究方向是算法的优化和扩展应用领域。典型的关联规则发现算法是由R.Agrawal等提出的Apriori算法,其核心技术为其它各类布尔关联规则采掘算法所广泛采用。但是,在计算侯选项目集的支持度时,Apriori算法是在每一个循环中都要扫描整个数据库,而随着K的增大,不仅K维项目集的数目减少了,而且能包含这些项目集的事物也是很少的。由于数据规模大且时常更新,使得采掘效率较低,必须设计更有效的算法。并且,为了得到有效、稳定、可靠的关联规则,要不断调整支持度、可信度这两个阀值。所以,如何设计高效的更新、维护算法也是非常重要的研究课题。
基于数据挖掘的研究现状,本文主要进行了以下的研究工作:
1.研究了数据采掘技术中的关联规则算法。对经典的Apriori算法作了全面的分析,指出了采掘中的关键步骤和频集算法的不足。研究了对Apriori算
山东师范大学硕士论文摘要
法的优化算法现状。研究了关联规则的扩展及数值型数据离散化后提取关联规
则的技术,并应用于后面的实例研究。提出了关联规则优化的几个方向,如优
化采掘算法、运用领域知识、增加衡量标准、改进采掘方式等。
2.针对Apri ori算法的不足,提出了一种高效的关联规则挖掘算法EA,利
用L,、Ck中的结果对数据库进行筛选,减少候选项在数据库中查找的记录数,
提高了整个算法的效率。
3.针对数据库置信度、支持度不断调整的需要,分别给出了minsuP和
。inconf增大、减小时关联规则快速的更新算法MinsuPchange和
MinConfChange,并与Aprior算法作了分析比较。
4.将关联规则数据挖掘的方法运用到高校教学问题之中。从教学评价数据
中进行数据挖掘,找到课堂教学效果与教师状态的关系问题;在班级排课时,
注意一个教学班中配备教师的年龄、职称、学历等的合理分配,使学生能够较
好地保持良好的学习状态,从而为教学部门提供了决策支持信息,促使更好地
开展教学工作,提高教学质量。
|
|
|
|
1 |
丁纪云,蔡春娥;利用构造数据集评定数据挖掘过程的方法[J];湖南广播电视大学学报;2001年02期 |
2 |
任承业,罗伟其;校园信息系统中CRM与数据挖掘的结合和应用[J];计算机工程与应用;2003年13期 |
3 |
王艳;数据挖掘在数字图书馆中的应用[J];情报科学;2003年02期 |
4 |
邵红全,赵茜;用SQL Server2000实现数据挖掘的技术与策略[J];电脑开发与应用;2003年04期 |
5 |
耿庆鹏,卢子芳;利用数据挖掘技术实现对电信行业用户欺诈行为的预测[J];电信快报;2003年10期 |
6 |
蒋良孝,蔡之华;基于数据仓库的数据挖掘研究[J];计算技术与自动化;2003年03期 |
7 |
叶静,蔡之华;遥感图像中的数据挖掘应用概述[J];计算机与现代化;2003年10期 |
8 |
黄解军,万幼川,潘和平;银行客户关系管理与数据挖掘的应用[J];计算机工程与设计;2003年07期 |
9 |
崔强,朱卫东;基于数据挖掘的铁路机务段成本控制系统[J];铁路计算机应用;2003年01期 |
10 |
杨思春;基于数据仓库的数据挖掘技术分析研究[J];微机发展;2003年09期 |
11 |
汤效琴,戴汝源;数据挖掘中聚类分析的技术方法[J];微计算机信息;2003年01期 |
12 |
李月芳,孙俊;数据挖掘及其在电网故障诊断中的应用[J];农机化研究;2003年04期 |
13 |
陈勍;数据挖掘技术及其应用[J];医学信息;2004年04期 |
14 |
;中国科学院数据挖掘与知识管理学术研讨会在京举行[J];管理评论;2004年07期 |
15 |
曾贞;数据挖掘在电子商务中的应用[J];甘肃农业;2004年07期 |
16 |
陈钟;基于DSO的数据挖掘应用[J];广西师范学院学报(自然科学版);2004年S1期 |
17 |
柯文德;一种基于数据挖掘的分布式入侵检测模型[J];计算机测量与控制;2004年08期 |
18 |
徐玲;基于案件综合信息分析挖掘的研究[J];广东公安科技;2004年01期 |
19 |
赵明清;蒋昌俊;陶树平;;基于等价相异度矩阵的聚类[J];计算机科学;2004年07期 |
20 |
王恬宇,陈雪强;基于数据挖掘的分步式定性推理[J];情报杂志;2005年01期 |
|