收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

关联规则挖掘的拓展性研究

周皓峰  
【摘要】: 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,数据 资料的规模急速膨胀。于是,人们希望有新一代的技术和工具能够智能地自动 地帮助人们分析已经消耗大量财力与物力所收集与整理的海量数据,以发现有 用的知识,达到为决策服务的目的。因此,面对“人们被数据淹没,人们却饥 饿于知识”的挑战,数据挖掘(Data Mining)技术应运而生,并得以蓬勃发 展。 数据挖掘,指的是从大量的、不完全的、有噪声的、模糊的、随机的数据 中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的 过程。作为数据挖掘当前研究的主要模式之一的关联规则则用于确定数据集中 不同领域或属性之间的联系,找出可信的、有价值的多个域之间的依赖关系。 本文的工作在关联规则挖掘的范畴以内,根据关联规则的生成的二个主要阶 段:频繁模式的获取和关联规则的生成进行了深入的拓展性研究。 首先讨论的是关联规则生成的问题。通过在统一的概率论的范畴内重新 定义兴趣度的概念,使得负项的引入有了理论依据,并通过对负项的进一步 限定,提出产生包含负项的关联规则IAR算法,使关联规则包含的语义更加完 整,规则本身也更有意义,特别是在有概念层次的情况下。这些工作的结晶就 是一个基于关联规则的数据挖掘工具ARMiner。 其次,在经历了近10年的发展以后,关联规则挖掘中至关重要的频繁模式 获取技术得到了很大的发展。但这些工作都是以项(集)为基本操作对象的, 而现实生活中,万物皆有内在的联系,彼此之间构成一张复杂的网。这时再孤 立地看待每个事物就显得不太合适了。另一方面,这些内在联系可以用图的形 式来表述。同时,随着各种新应用的不断推出,人们将注意力逐步向图中的频 繁模式的产生问题转移。 论文首先选择唯一标号图作为研究的突破口,先后提出了Matricon和SFP算 法。由于唯一标号图能转换为项集的形式,这就能充分利用近10年来的研究 成果。唯一不同的地方是在连通性上的进一步考虑。两个算法中,前者基 于Apriori思想,后者则充分利用了FP-Growth的特点。Matricon算法中利用关 联矩阵形式代表图的方法和SFP算法中利用顶点重叠判连通性的思想在下一步 非唯一标号图的分析中也是一个重要工具。在应用方面,由于互联网上的节点 可以被唯一标定,唯一标号图分析算法就被成功地用于对Web权威资源的分析 工作中。 当取消了标号唯一性限定后,论文解决了有序标号树中的模式发现问题。 这里,论文先后描述了Chopper和Spanner算法。这些算法不仅在性能上要优 复旦大学博士学位论文2 一 于同类算法,更重要的是它提出了树的序列化表示和先同分后异构的思想。这 两个思想可以有效地提高算法的效率,将树的分析工作中所遇到的瓶颈——同 构问题的求解延后,并最大可能地缩小了同构判定的搜索空间范围。这里的各 个算法还被用在了对以XML文档为代表的半结构化文档和Web日志的分析工作 中,并取得了一些很有意思的结论。 最后,论文解决了以图同构为核心的频繁子图抽取问题。通过充分惜鉴己 有的较成功的ACGM和FSG算法,经过综合分析比较,描述了TOpology算法。这 是一个以Apriori思想为主体,以先同分后异构为框架,以图的序列化及矩阵表 示和标号连通判定等技术为手段的一个综合算法。Topology算法可以真正面对 现实世界中各事物之间的内在联系分析问题,使得频繁模式的获取实现了从项 到图的拓展。 论文的最后部分对全部工作进行了总结,并结合当前研究的最新进展提出 了在图中考虑生成包含“负项”的关联规则,对图本身的拓展和新领域中的关 联规则挖掘技术三个方向,为未来的工作提供了一个参照。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 黄智,何跃;关联规则挖掘在卷烟市场研究中的应用[J];成都信息工程学院学报;2005年03期
2 杨敏,丁月华,文贵华;有关关联规则挖掘的研究[J];计算机时代;2005年02期
3 刘桂庆,胡学钢,李凯;CR:一种逆向的关联规则挖掘算法[J];微电子学与计算机;2004年09期
4 朱绍文,王泉德,黄浩,彭清涛,陆玉昌;关联规则挖掘技术及发展动向[J];计算机工程;2000年09期
5 王评,陈国龙;一种基于约束项的关联规则挖掘模型[J];福建电脑;2003年12期
6 贺利坚,陈立潮,刘爽英;关联规则挖掘的AprioriTid算法的改进[J];烟台大学学报(自然科学与工程版);2003年04期
7 郭军华;数据挖掘中关联规则挖掘的算法研究[J];科技广场;2005年03期
8 刘芳,孙杨军;基于多克隆选择的多维关联规则挖掘算法[J];复旦学报(自然科学版);2004年05期
9 沈旭昌;保持隐私的关联规则挖掘[J];计算机工程与设计;2005年03期
10 王晖,高飞;一种关联规则挖掘的优化算法[J];计算机工程与应用;2003年26期
11 张学农;大型数据库中关联规则挖掘的相关性控制[J];广东药学院学报;2002年04期
12 武兆慧,张桂娟,刘希玉;基于模拟退火遗传算法的关联规则挖掘[J];计算机应用;2005年05期
13 李云峰,陈建文,程代杰;关联规则挖掘的研究及对Apriori算法的改进[J];计算机工程与科学;2002年06期
14 黄衡,杜中军;一种有效的音频信息检索技术[J];计算机应用研究;2004年03期
15 张继福,郑链,史虹;联机分析处理与关联规则挖掘的集成化模型研究[J];北京理工大学学报;2005年02期
16 王昊;基于关联规则挖掘研究学科间相关性[J];现代图书情报技术;2005年03期
17 初永玲;李绍春;;数据挖掘中关联规则挖掘算法的探讨与研究[J];科技信息(科学教研);2008年16期
18 朱慧爽;;数据挖掘在纺织高校科研管理系统中的应用[J];山东纺织经济;2008年03期
19 赵艳丽;张晓华;魏权利;;一种基于改进型遗传算法的关联规则挖掘方法[J];计算机与信息技术;2008年11期
20 吴宁;柏春霞;祝毅博;;一种应用关联规则森林的改进贝叶斯分类算法[J];西安交通大学学报;2009年02期
中国重要会议论文全文数据库 前10条
1 谷姗姗;秦首科;胡大斌;周傲英;;面向关联规则挖掘的敏感规则隐藏技术[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 陈晓云;李泽霞;刘幸辉;彭文静;;关联规则挖掘过程中的模糊化方法研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 张宇鹏;王丽珍;周丽华;;基于气象数据的关联规则挖掘[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
4 王盛;董黎刚;李群;;一种基于逆序编码的关联规则挖掘研究[A];浙江省电子学会2010学术年会论文集[C];2010年
5 方芳;李建中;潘海为;;脑部医学图像中的关联规则挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 张鹏;于波;童云海;唐世渭;;基于随机响应的隐私保护关联规则挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 张仲楠;孙志挥;;关系数据库中限制性关联规则挖掘的优化[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 李贝贝;乐嘉锦;;分布式环境下的隐私保护关联规则挖掘[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 杨晓雪;衡红军;;一种对XML数据进行关联规则挖掘的方法研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 王媛媛;胡学钢;;关联规则挖掘研究[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 周皓峰;关联规则挖掘的拓展性研究[D];复旦大学;2003年
2 刘智;关联规则挖掘方法及其在冠心病中医诊疗中的应用研究[D];大连海事大学;2012年
3 何月顺;关联规则挖掘技术的研究及应用[D];南京航空航天大学;2010年
4 武庆圆;开放获取期刊的知识交流研究[D];华中师范大学;2013年
5 高飞;关联规则挖掘算法研究[D];西安电子科技大学;2001年
6 刘亚波;关联规则挖掘方法的研究及应用[D];吉林大学;2005年
7 王越;分布式关联规则挖掘的方法研究[D];重庆大学;2003年
8 毛宇星;关联规则挖掘在分类数据领域的扩展性研究[D];复旦大学;2010年
9 毛国君;数据挖掘技术与关联规则挖掘算法研究[D];北京工业大学;2003年
10 王玮;基于概念格的关联规则挖掘及变化模式研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 陈海珍;关联规则挖掘算法研究及其在CRM中的应用[D];浙江工业大学;2003年
2 杨芬;基于约束的关联规则挖掘[D];华中科技大学;2004年
3 谭义红;关联规则挖掘及其在概念检索中的应用研究[D];湖南大学;2003年
4 陈斌;条件独立性在关联规则挖掘中的研究和应用[D];河海大学;2004年
5 曾海颖;客户关系管理中的数据挖掘[D];南京航空航天大学;2003年
6 刘桂庆;关联规则挖掘算法研究[D];合肥工业大学;2004年
7 田志友;基于电厂数据的机组性能关联规则分析[D];华北电力大学(北京);2004年
8 李川;单维关联规则挖掘算法研究[D];郑州大学;2003年
9 陈华胜;基于数据挖掘的入侵检测系统的研究[D];武汉理工大学;2004年
10 邹丽;分布式系统下关联规则挖掘的研究与实现[D];大连交通大学;2005年
中国重要报纸全文数据库 前10条
1 荆小洪赵丽萍 张丹红;长春移动助推测震信息化见成效[N];人民邮电;2008年
2 阿小翔;QD C盘文件别乱删[N];电脑报;2005年
3 本报记者 于勇澜;体育拓展项目首进我市大学课堂[N];哈尔滨日报;2007年
4 李干和 张红兴;提高专勤专训质量[N];人民武警;2006年
5 本报记者 李君娜;打造真正有品牌价值的电视节目[N];解放日报;2007年
6 戴晓雯 (作者单位 绍兴市元培小学);宽带型语文课[N];绍兴日报;2007年
7 屠建清;民营企业拓展性融资的管理技巧[N];财会信报;2011年
8 ;安腾解决方案联盟全力支持下一代处理器[N];人民邮电;2008年
9 孙飞;郑州顶级写字楼的5E特质[N];经济视点报;2006年
10 徐勇;以电信级的思维开辟宽带无线时代[N];人民邮电;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978