收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

关联规则挖掘技术的研究及应用

何月顺  
【摘要】:关联规则是数据挖掘中的重要方法与技术,在关联规则挖掘中,频繁的I/O操作必定会影响关联规则的挖掘效率,减少I/O操作的方法主要是:减少扫描数据集的次数;降低需要计算支持度的候选项目集的数量,并使候选项目集的数量与频繁项目集的数量接近。候选项目集数量的减少可以节省处理部分候选项目集所需的计算时间和存储空间,但是随着网络和经济的发展,分布式系统越来越多,在进行数据挖掘时,分布式关联规则在各节点间的协商与竞争、信息利用和网络通讯效率上存在的问题日益突出,严重影响关联规则挖掘的应用。利用关联规则的特点构建关联规则树,对树的搜索策略、分类策略及参数选择进行了研究。本论文的主要研究成果如下: (1)提出了基于压缩事务矩阵相乘、用户感兴趣项集和项集重要性的Apriori算法的改进方法 针对关联规则挖掘的主要算法Apriori存在主要问题提出了减少数据库内部事务的方法、基于用户感兴趣项集和项集重要性的改进算法、基于压缩事务矩阵相乘的Apriori改进算法,并通过实例对改进前后的算法进行了分析比较。改进或优化后的算法减少了数据库扫描的次数、I/O操作次数和减少了需要计算支持度的候选项目集的数量,使其与频繁项目集的数量接近,节省了处理部分候选项目集所需的计算时间和存储空间,提高了关联规则的挖掘效率,解决了关联规则存在的主要问题。 (2)提出了一套新的分布式关联规则挖掘算法 CD算法、FDM算法等,这些算法存在的主要问题是不能很好地处理分区数较多的情形。把分布式关联规则挖掘算法作为一个决策问题,对支持度与支持数在数据库的不同分区间的传输进行协调。设计了全局支持度阈值函数H和局部支持度阈值函数P,对它们的优化是一个非常重要的开放的问题,在数据不对称时能快速地恢复,较好地克服了某些通讯障碍。分布式双重决策挖掘算法通过不采集大集合中所有的项目集来减少通讯,这些算法在一定程度上解决了DARM算法的通讯复杂性问题和线性的n和|C|通讯复杂性问题。新算法即使在数据不对称或者分区不平衡时依然很有效。对于这些算法的行为,给出了实验结果,并且说明了在不同设置环境中这些算法是如何实现的。 (3)提出了基于文本关联规则挖掘的判定表归纳算法,构建了混合分类模型 在人工智能研究中,分类是一个重要的问题。任何一种分类算法的目的都是通过给定一些想要建模的训练数据建立一种分类模型,并通过此模型来对新的样本进行分类或者获得可用数据的更好的理解。关联规则树分类器的精确度、复杂度和训练代价折衷使得它成为数据挖掘的强有力的工具。关联规则树对孤立点和主要的候选因素采用一种统一的方法处理,有效地降低输入数据噪声的影响,孤立点和主要候选因素对TDIDT算法都是不好处理的。和传统的判定表推理机不同,传统的推理机每次只发现一条规则,而关联规则树同时可发现多条规则。关联规则树不存在I/O瓶颈问题,其归纳过程比一般的判定表和规则推理机快,关联规则树可以通过有效的、可度量的方式建立分类模型。构建的分类器比利用标准的TDIDT方法建立的判定树更小。 (4)提出了一种启发式的自动选择最佳规则集的方法 关联规则树算法的第一步就是挖掘出训练数据集中的可能规则。如果预先给定的置信度阈值不合适就可能达不到预期的目标。如果实际数据集的支持度阈值设的太高就找不到关联规则也构造不出合适的判定表。此外,高的置信度阈值不一定有高的分类准确度,算法的训练时间也会显著的提高。在关联规则树中引入最小置信度阈值选择方法,在所设计的分类模型中,其参数可以自动适应,提高了关联规则树分类器的速度和准确度。 (5)设计了基于关联规则挖掘的滑坡监测模型 在滑坡区的典型不稳定体上设立监测点,通过定期监测这些点的变化获得滑坡区形变监测的数据,根据一定的目的对这些原始监测数据进行清理和转换,最后利用关联规则进行数据挖掘和知识发现的方法,达到滑坡监测的目的是可行的。其最后的知识结果简洁、明了,表达方式和人们的思维决策方式一致,并和滑坡区的自然现实一致,挖掘结果是可靠的。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 俞经善,王雪岩;一种基于关联规则的数据挖掘算法实现与应用[J];应用科技;2005年07期
2 王轶;达新宇;;分布式并行数据挖掘计算框架及其算法研究[J];微电子学与计算机;2006年09期
3 胡学钢;刘卫;王德兴;;基于剪枝概念格的项集知识表示与挖掘[J];计算机工程与应用;2007年22期
4 李向伟;张国权;;数据挖掘及实现技术研究[J];计算机与现代化;2006年08期
5 黄秋勇;唐爱龙;;关联规则在图像数据挖掘中的应用[J];计算机与现代化;2009年10期
6 李志刚;李峰;张善姝;王汝琳;;基于项集支持度的关联规则增量更新算法——BISIUA[J];计算机工程与设计;2007年17期
7 沈良忠;;关联规则中Apriori算法的C#实现研究[J];电脑知识与技术;2009年13期
8 闫禹;多维频繁项集计算方法及应用[J];沈阳师范大学学报(自然科学版);2005年04期
9 刘松;;一种非频繁关联规则挖掘算法[J];微计算机应用;2006年05期
10 朱慧爽;;关联规则挖掘算法初探[J];科技信息(科学教研);2008年13期
11 李云强;;数据挖掘中关联规则算法的研究[J];大众科技;2006年01期
12 郑飞;;关联规则挖掘的DCOM实现[J];信息技术;2008年03期
13 吴方;;基于关联规则挖掘的隐私数据保护[J];科技资讯;2008年32期
14 王晓静;张晋;;基于web数据挖掘的Apriori算法及其优化算法研究[J];辽宁大学学报(自然科学版);2009年04期
15 李瑞华;鱼斌;;基于关联规则的数据挖掘算法研究[J];榆林学院学报;2010年02期
16 汤钰涵;;将关联规则挖掘算法应用于警校学员队信息管理[J];武警学院学报;2010年05期
17 王台华;万宇文;郭帆;余敏;;应用于入侵检测系统的报警关联的改进Apriori算法[J];计算机应用;2010年07期
18 李乃乾;沈钧毅;田絮资;;基于隐私保护的跨表关联规则挖掘[J];模式识别与人工智能;2003年04期
19 黄勇;赵靖;;分布式系统下关联规则挖掘算法的分析[J];福建电脑;2009年05期
20 朱慧爽;;关联规则在高校科研管理工作中的应用[J];潍坊学院学报;2009年04期
中国重要会议论文全文数据库 前10条
1 谷姗姗;秦首科;胡大斌;周傲英;;面向关联规则挖掘的敏感规则隐藏技术[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 陈晓云;李泽霞;刘幸辉;彭文静;;关联规则挖掘过程中的模糊化方法研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 张宇鹏;王丽珍;周丽华;;基于气象数据的关联规则挖掘[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
4 王盛;董黎刚;李群;;一种基于逆序编码的关联规则挖掘研究[A];浙江省电子学会2010学术年会论文集[C];2010年
5 方芳;李建中;潘海为;;脑部医学图像中的关联规则挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 张鹏;于波;童云海;唐世渭;;基于随机响应的隐私保护关联规则挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 张仲楠;孙志挥;;关系数据库中限制性关联规则挖掘的优化[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 李贝贝;乐嘉锦;;分布式环境下的隐私保护关联规则挖掘[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 杨晓雪;衡红军;;一种对XML数据进行关联规则挖掘的方法研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 周爱广;李玉忱;蒋志芳;曹璐;;基于HOLAP的关联规则挖掘[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
中国博士学位论文全文数据库 前10条
1 何月顺;关联规则挖掘技术的研究及应用[D];南京航空航天大学;2010年
2 刘智;关联规则挖掘方法及其在冠心病中医诊疗中的应用研究[D];大连海事大学;2012年
3 刘亚波;关联规则挖掘方法的研究及应用[D];吉林大学;2005年
4 毛宇星;关联规则挖掘在分类数据领域的扩展性研究[D];复旦大学;2010年
5 周皓峰;关联规则挖掘的拓展性研究[D];复旦大学;2003年
6 高飞;关联规则挖掘算法研究[D];西安电子科技大学;2001年
7 王德兴;基于概念格模型关联规则挖掘的关键问题研究[D];合肥工业大学;2007年
8 王玮;基于概念格的关联规则挖掘及变化模式研究[D];山东大学;2012年
9 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年
10 马修强;多水平模型和关联规则联合研究胃食管反流病影响因素[D];第二军医大学;2009年
中国硕士学位论文全文数据库 前10条
1 杜靖;关联规则挖掘在人力资源招聘网站中的研究与实现[D];北京交通大学;2012年
2 刘寒冰;数据挖掘中的关联规则算法研究[D];河北工程大学;2007年
3 黄勇;基于关系数据库的关联规则挖掘算法的研究[D];安徽大学;2006年
4 刘三荣;关联规则挖掘在电子商务中的应用研究[D];山东师范大学;2007年
5 张书茂;关联规则改进算法在分布式系统中的研究与实现[D];华北电力大学(河北);2009年
6 朱建章;数量关联规则挖掘的研究及应用[D];华东理工大学;2011年
7 刘卫;基于剪枝概念格模型的频繁项集表示及挖掘研究[D];合肥工业大学;2007年
8 王绍锋;关联规则增量式更新算法的研究[D];哈尔滨工程大学;2007年
9 杨芬;基于约束的关联规则挖掘[D];华中科技大学;2004年
10 傅莉;数据挖掘在教学评估中的应用[D];南京理工大学;2007年
中国重要报纸全文数据库 前10条
1 吉林省园艺特产局局长 刘东华;实行农产品专项集中连片生产促进生产经营向现代农业发展[N];中国特产报;2003年
2 王新军 李海波;大连:1500项集雨工程抓紧实施[N];中国水利报;2003年
3 记者王伟 通讯员张姿;淮安专项集体合同保全职工安置[N];工人日报;2003年
4 韩国光;重在理顺关系明确职责[N];人民邮电;2002年
5 记者黄剑;今年为全区人民办12件实事[N];中国信息报;2003年
6 立青;《集体全同规定》5月1日起施行[N];北京人才市场报;2004年
7 通讯员 李贵日 谭春生;亿元巨资治理“舜水河”[N];永州日报;2010年
8 ;香港中小上市公司配股频频[N];中国证券报;2004年
9 云南省电信公司供稿;云南电信:在改革中寻求突破[N];通信信息报;2003年
10 记者 吕敏敏 通讯员 张晓新;十二项“九五”国家重点IC项目在华越通过鉴定[N];中国电子报;2000年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978