收藏本站
《大连理工大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于位表的关联规则挖掘及关联分类研究

董杰  
【摘要】: 随着人们利用信息技术生产和搜集数据的能力大幅度提高,数据资料的规模急速膨胀。如何快速有效的从海量数据中发现隐藏的、预先未知的信息和知识显得尤为重要,数据挖掘是解决这一问题的有力工具。关联规则(Association Rules)获取是数据挖掘研究的一个重要领域,从某种意义上来讲,关联规则挖掘就是数据挖掘的本质。近年来相关的研究与应用一直占有重要的比例并得到了迅速发展。研究如何快速有效的从海量数据库中挖掘蕴含其中的关联规则,并将挖掘得到的关联规则合理利用,具有十分重要的理论和实际意义。本文在分析现有挖掘算法中存在问题的基础上,提出基于位表的完全频繁项集和事务间频繁闭项集的挖掘算法,并进一步研究关联规则在分类问题中的应用,利用其解决遥感影像分类问题。本文的研究工作可概括为如下三个方面的内容: 1、研究事务内完全频繁项集的快速挖掘算法。现有的完全频繁项集挖掘算法多基于Apriori算法,称为Apriori类算法。其在生成候选集须逐个比较两个项集的前n-1项,并且在计算支持度需对全部或部分数据库进行逐条扫描,占用大量的计算时间和I/O操作,成为此类算法的主要瓶颈。针对以上问题,本文首先提出了位表(BitTable)数据结构及其相应的二进制操作。利用其对事务数据库进行压缩,同时通过二进制“与”、“或”操作快速计算候选项集的支持度,改善了低效率的数据库扫描操作;利用其对候选项集和频繁项集进行横向压缩,可直接生成候选项集,避免了逐项比较的复杂操作。该数据结构及其操作可以直接应用于现有的Apriori类算法中,有效地改善此类算法的效率问题。在位表数据结构的基础上,本文进一步提出了基于位表的关联规则挖掘算法BitTableFI。对常用数据集的仿真试验表明了该算法的有效性。 2、研究事务间频繁闭项集及其快速挖掘算法。相对于事务内频繁项集,事务间频繁项集能够有效的揭示各属性在不同时刻的关联性,是事务内频繁项集的扩展。然而事务间频繁项集的数量随滑动时间窗口的增大而迅速增加,造成挖掘效率降低,利用闭项集来表示事物间频繁项集能够在不丢失信息的情况下有效的减少项集的数量。本文通过分析事务内频繁闭项集和事务间频繁闭项的内在关系,提出了一种利用事务内频繁闭项集生成事务间频繁闭项集的算法。算法采用分割和条件数据库技术,有效的避免了生成庞大的扩展事务数据库,利用扩展的位表结构压缩事务从而提高支持度的计算效率。此外,采用动态排序和哈希技术极大地减少了频繁闭项集的测试次数。该算法为挖掘事物间频繁闭项集提供了一种有效而快速的算法。 3、研究模糊关联分类算法,并利用其解决遥感影像分类问题。关联分类将挖掘获取的频繁项集应用于解决分类问题,将关联规则的挖掘和应用问题紧密结合。将模糊方法引入到关联分类问题中,能够较好的解决规则的“尖锐边界“问题。然而,现有的模糊关联分类算法多采用固定模糊隶属度函数对连续型属性进行模糊划分,没有考虑数据本身的特性。基于此,本章提出一种基于自适应区间划分的模糊关联分类算法—FARC(Fuzzy association rules classification),利用模糊c均值聚类算法根据数据本身的特点自适应地建立模糊区间,并在挖掘模糊关联规则时采用了新的剪枝策略,极大地减少了候选集的数量。新的规则权重度量方法能够更好的利用多模糊关联规则进行分类。对UC Irvine Machine Learning Repository测试数据的实验表明,FARC不仅是具有高精度的分类精度,同时具有对训练样本数量的不敏感性,在训练样本减少的情况下仍能保持较好的分类精度,是一种有效的分类方法。同时,本文将模糊关联分类算法引入遥感图像分类问题的研究中,在实际遥感分类问题中,训练样本往往较难获取,训练样本的不足会导致分类精度的下降,本文提出的FARC算法能够较好的适应训练样本较低情况下的分类问题,从而能够很好的应用于实际遥感分类问题。
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 张红艳;都娟;;关联规则中Apriori算法的应用[J];数字技术与应用;2011年08期
2 鹿莉霞;;关联规则在课程相关性分析中的应用[J];电脑知识与技术;2011年14期
3 陈建国;;一种海量数据挖掘的有效方法[J];软件;2011年05期
4 吴旭东;柳炳祥;;关联规则在高校图书馆管理的应用[J];现代计算机(专业版);2011年14期
5 俸世洲;;独立学院招生Web系统与数据挖掘的结合与应用[J];价值工程;2011年18期
6 刘扬;;基于关联规则挖掘的PW4077D发动机放气活门控制规律研究[J];科技传播;2011年16期
7 刘金荣;;大学生学习行为与就业信心的关联规则探析——以湖州师范学院为例[J];文教资料;2011年18期
8 杨盛泉;王博洋;刘萍萍;李宝敏;;基于关联规则数据挖掘的梭式窑燃烧控制专家系统的研究[J];科学技术与工程;2011年17期
9 胡开明;陈建华;;一种改进的增量数据挖掘算法[J];计算机应用与软件;2011年08期
10 秦福高;孙悦娟;;聚类与关联规则挖掘进行结合的研究[J];电脑知识与技术;2011年14期
中国重要会议论文全文数据库 前10条
1 刘晓燕;单晓红;;遗传算法在关联规则挖掘中的应用[A];第六届中国青年运筹与管理学者大会论文集[C];2004年
2 温磊;李敏强;;基于有向项集图的频繁项集增量更新挖掘算法[A];2004中国控制与决策学术年会论文集[C];2004年
3 贺庆;冯海旗;;基于关联规则挖掘的隐私保护方法研究[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
4 温磊;牛东晓;何永贵;;基于权重约束的频繁项集挖掘算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
5 刘扬;曹惠玲;梁大敏;;关联规则挖掘在航空发动机QAR数据中的应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
6 李锦泽;叶晓俊;;关联规则挖掘算法研究现状[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
7 陈波;董鹏;邵勇;;基于Apriori算法及其改进算法综述[A];中国通信学会第五届学术年会论文集[C];2008年
8 郭云峰;张集祥;;一种基于位向量的关联规则挖掘算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
9 谷姗姗;秦首科;胡大斌;周傲英;;面向关联规则挖掘的敏感规则隐藏技术[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 方炜炜;杨炳儒;唐志刚;杨君;;基于客观兴趣度的关联规则优化算法研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
中国重要报纸全文数据库 前10条
1 早报记者 胡孝敏;跨国企业掘金中国“数据挖掘”市场[N];东方早报;2005年
2 吴勇毅;软件选型:数据挖掘是重点[N];中国冶金报;2009年
3 刘光强;靠数据挖掘抓住客户的心[N];中国计算机报;2009年
4 本报记者 郭白岩;大众点评网向数据挖掘要收益[N];中国经营报;2011年
5 赵骏飞;数据挖掘在金融行业的应用[N];中国保险报;2011年
6 本报记者 黎宇文;博时基金王德英: 数据挖掘促进基金精细化管理[N];中国证券报;2011年
7 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
8 吴辅世;打破数据挖掘的5个神话[N];中国计算机报;2003年
9 ;数据挖掘:如何挖出效益?[N];中国计算机报;2004年
10 ;数据挖掘流程[N];人民邮电;2001年
中国博士学位论文全文数据库 前10条
1 王德兴;基于概念格模型关联规则挖掘的关键问题研究[D];合肥工业大学;2007年
2 林晓勇;频繁模式挖掘和动态维护的理论与方法研究[D];北京化工大学;2008年
3 韩颖;新型农村合作医疗数据挖掘研究[D];山西医科大学;2009年
4 张晓辉;云理论和数据挖掘在水上安全分析中的应用[D];大连海事大学;2011年
5 何月顺;关联规则挖掘技术的研究及应用[D];南京航空航天大学;2010年
6 齐建东;基于数据挖掘的入侵检测方法及系统研究[D];中国农业大学;2003年
7 刘智;关联规则挖掘方法及其在冠心病中医诊疗中的应用研究[D];大连海事大学;2012年
8 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
9 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
10 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
中国硕士学位论文全文数据库 前10条
1 曾海颖;客户关系管理中的数据挖掘[D];南京航空航天大学;2003年
2 邹丽;分布式系统下关联规则挖掘的研究与实现[D];大连交通大学;2005年
3 徐勇;基于概念格模型的分布式关联规则挖掘研究[D];合肥工业大学;2006年
4 唐文志;蚁群算法在关联规则学习中的研究与应用[D];北京工业大学;2009年
5 黄鹏鹤;关联规则挖掘及其在教务管理中的应用[D];大连交通大学;2005年
6 梁碧珍;目标频繁项集挖掘算法与应用研究[D];广西大学;2007年
7 陈华胜;基于数据挖掘的入侵检测系统的研究[D];武汉理工大学;2004年
8 武建虎;关联规则及其在肝癌病人资料分析中的应用研究[D];第二军医大学;2005年
9 姜晗;关联规则的精简方法研究[D];浙江师范大学;2007年
10 张声雷;基于量化关联规则挖掘的就业分析系统[D];上海海事大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026