收藏本站
《复旦大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

关联规则挖掘的拓展性研究

周皓峰  
【摘要】: 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,数据 资料的规模急速膨胀。于是,人们希望有新一代的技术和工具能够智能地自动 地帮助人们分析已经消耗大量财力与物力所收集与整理的海量数据,以发现有 用的知识,达到为决策服务的目的。因此,面对“人们被数据淹没,人们却饥 饿于知识”的挑战,数据挖掘(Data Mining)技术应运而生,并得以蓬勃发 展。 数据挖掘,指的是从大量的、不完全的、有噪声的、模糊的、随机的数据 中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的 过程。作为数据挖掘当前研究的主要模式之一的关联规则则用于确定数据集中 不同领域或属性之间的联系,找出可信的、有价值的多个域之间的依赖关系。 本文的工作在关联规则挖掘的范畴以内,根据关联规则的生成的二个主要阶 段:频繁模式的获取和关联规则的生成进行了深入的拓展性研究。 首先讨论的是关联规则生成的问题。通过在统一的概率论的范畴内重新 定义兴趣度的概念,使得负项的引入有了理论依据,并通过对负项的进一步 限定,提出产生包含负项的关联规则IAR算法,使关联规则包含的语义更加完 整,规则本身也更有意义,特别是在有概念层次的情况下。这些工作的结晶就 是一个基于关联规则的数据挖掘工具ARMiner。 其次,在经历了近10年的发展以后,关联规则挖掘中至关重要的频繁模式 获取技术得到了很大的发展。但这些工作都是以项(集)为基本操作对象的, 而现实生活中,万物皆有内在的联系,彼此之间构成一张复杂的网。这时再孤 立地看待每个事物就显得不太合适了。另一方面,这些内在联系可以用图的形 式来表述。同时,随着各种新应用的不断推出,人们将注意力逐步向图中的频 繁模式的产生问题转移。 论文首先选择唯一标号图作为研究的突破口,先后提出了Matricon和SFP算 法。由于唯一标号图能转换为项集的形式,这就能充分利用近10年来的研究 成果。唯一不同的地方是在连通性上的进一步考虑。两个算法中,前者基 于Apriori思想,后者则充分利用了FP-Growth的特点。Matricon算法中利用关 联矩阵形式代表图的方法和SFP算法中利用顶点重叠判连通性的思想在下一步 非唯一标号图的分析中也是一个重要工具。在应用方面,由于互联网上的节点 可以被唯一标定,唯一标号图分析算法就被成功地用于对Web权威资源的分析 工作中。 当取消了标号唯一性限定后,论文解决了有序标号树中的模式发现问题。 这里,论文先后描述了Chopper和Spanner算法。这些算法不仅在性能上要优 复旦大学博士学位论文2 一 于同类算法,更重要的是它提出了树的序列化表示和先同分后异构的思想。这 两个思想可以有效地提高算法的效率,将树的分析工作中所遇到的瓶颈——同 构问题的求解延后,并最大可能地缩小了同构判定的搜索空间范围。这里的各 个算法还被用在了对以XML文档为代表的半结构化文档和Web日志的分析工作 中,并取得了一些很有意思的结论。 最后,论文解决了以图同构为核心的频繁子图抽取问题。通过充分惜鉴己 有的较成功的ACGM和FSG算法,经过综合分析比较,描述了TOpology算法。这 是一个以Apriori思想为主体,以先同分后异构为框架,以图的序列化及矩阵表 示和标号连通判定等技术为手段的一个综合算法。Topology算法可以真正面对 现实世界中各事物之间的内在联系分析问题,使得频繁模式的获取实现了从项 到图的拓展。 论文的最后部分对全部工作进行了总结,并结合当前研究的最新进展提出 了在图中考虑生成包含“负项”的关联规则,对图本身的拓展和新领域中的关 联规则挖掘技术三个方向,为未来的工作提供了一个参照。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2003
【分类号】:TP311.12

【引证文献】
中国博士学位论文全文数据库 前2条
1 姜保庆;关于弱比例规则的挖掘及推理研究[D];西南交通大学;2005年
2 林晓勇;频繁模式挖掘和动态维护的理论与方法研究[D];北京化工大学;2008年
中国硕士学位论文全文数据库 前5条
1 胡一俊;web超链分析应用研究[D];武汉大学;2005年
2 蒋艳;基于XQuery的XML查询平台研究与设计[D];河海大学;2006年
3 钱程东;基于动态划分的数据挖掘及其在教务管理系统中的应用[D];国防科学技术大学;2006年
4 姜晗;关联规则的精简方法研究[D];浙江师范大学;2007年
5 薛如冰;关联分析在涉案伴随车辆挖掘中的应用研究[D];北京交通大学;2008年
【参考文献】
中国期刊全文数据库 前3条
1 周欣,沙朝锋,朱扬勇,施伯乐;兴趣度——关联规则的又一个阈值[J];计算机研究与发展;2000年05期
2 陈栋,徐洁磐;Knight:一个通用知识挖掘工具[J];计算机研究与发展;1998年04期
3 程继华,施鹏飞;快速多层次关联规则的挖掘[J];计算机学报;1998年11期
【共引文献】
中国期刊全文数据库 前10条
1 窦祥国,胡学钢;关联规则的评价方法研究[J];安徽技术师范学院学报;2005年04期
2 刘培云;贾兴林;杜鸿明;张艳;杨晋浩;;交叉表在市场调查中的应用[J];成都大学学报(自然科学版);2010年04期
3 董辉;方晓;方跃胜;;一种时序关联规则挖掘算法的研究与实现[J];长春工程学院学报(自然科学版);2012年01期
4 伊卫国;卫金茂;王名扬;;关联规则挖掘方法的改进[J];东北师大学报(自然科学版);2006年02期
5 张玉芳;熊忠阳;彭燕;刘君;;基于兴趣度含正负项目的关联规则挖掘方法[J];电子科技大学学报;2010年03期
6 伊卫国;赵波;;基于决策属性的关联规则挖掘[J];大连交通大学学报;2007年01期
7 廖志伟,孙雅明;基于事件序列数据挖掘原理的高压输电线系统故障诊断(一)模型与算法[J];电力系统自动化;2004年04期
8 孙雅明,廖志伟;基于事件序列数据挖掘原理的高压输电线系统故障诊断 (二)仿真和容错性能分析[J];电力系统自动化;2004年05期
9 邓景毅;;关联规则数据挖掘综述[J];电脑学习;2006年03期
10 张学红;闫五四;李永春;李荣盛;;基于序列模式挖掘的网管告警系统[J];电信科学;2006年11期
中国重要会议论文全文数据库 前10条
1 曲爽;谷文祥;;基于兴趣度和负项集的关联规则挖掘算法的研究[A];2005年全国理论计算机科学学术年会论文集[C];2005年
2 周颖;;数据库中知识发现(KDD)的规则新颖性的研究[A];2006年全国理论计算机科学学术年会论文集[C];2006年
3 王桂芹;黄道;;数据挖掘技术综述[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
4 单莘;;一种网络告警的增量式情景规则挖掘方法[A];中国通信学会第五届学术年会论文集[C];2008年
5 邵华;万家华;王剑虎;何耀东;张霞;;一个以用户为中心的数据挖掘工具:Open Miner[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 周皓峰;阮备军;朱建秋;朱扬勇;施伯乐;;ARMiner:一个基于关联规则的数据采掘工具[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
7 张荣祖;朱扬勇;;一个可视化数据挖掘系统中的数据预处理技术[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 杨晓明;王晨;汪卫;张守志;施伯乐;;频繁项集的精简表达与还原问题研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 朱辉生;李存华;;序列模式挖掘的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 林景亮;董槐林;姜青山;吴书;;一种基于新增阈值的频繁模式挖掘算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
中国博士学位论文全文数据库 前10条
1 李彤岩;基于数据挖掘的通信网告警相关性分析研究[D];电子科技大学;2010年
2 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
3 程文聪;面向大规模网络安全态势分析的时序数据挖掘关键技术研究[D];国防科学技术大学;2010年
4 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
5 朱辉生;基于情节规则匹配的数据流预测研究[D];复旦大学;2011年
6 林冠洲;网络流量识别关键技术研究[D];北京邮电大学;2011年
7 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
8 梁成军;网球技战术决策支持系统研究与应用[D];上海体育学院;2011年
9 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
10 刘维;生物序列模式挖掘与识别算法的研究[D];南京航空航天大学;2010年
中国硕士学位论文全文数据库 前10条
1 史文财;省级政务网安全检测系统的设计与实现[D];哈尔滨工程大学;2010年
2 谷琳;数据挖掘在陶瓷涂层制备中的应用[D];辽宁工程技术大学;2009年
3 孙洋;基于免疫遗传算法和粒子群算法的聚类研究[D];长沙理工大学;2010年
4 刘坤朋;数据挖掘中聚类算法的研究[D];长沙理工大学;2010年
5 孙玉侠;数据挖掘中的谱聚类算法研究[D];中国海洋大学;2010年
6 冯兴祥;关联规则挖掘在高校招生录取中的应用[D];合肥工业大学;2010年
7 张晓艳;面向农业信息服务平台的挖掘技术研究[D];湖南工业大学;2010年
8 费洪刚;个性化网站的研究与应用[D];长春工业大学;2010年
9 杜焕;铁路隧道衬砌状态检测数据管理系统的研究与实现[D];北京交通大学;2010年
10 石华;基于系统文件特征属性分析的计算机取证研究[D];大连交通大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 杨学兵,蔡庆生;基于数据立方体的维内关联规则挖掘算法[J];北京科技大学学报;2003年01期
2 段云峰,宋俊德,李剑威,舒华英;基于数量的关联规则挖掘[J];北京邮电大学学报;2002年04期
3 罗可,黄园芳,郭锋;用Visual Foxpro实现Apriori算法的研究[J];长沙电力学院学报(自然科学版);2001年04期
4 张晓辉,何耀东,万家华,赵宏;关联规则发现的一种改进算法[J];东北大学学报;2001年04期
5 伊卫国;卫金茂;王名扬;;关联规则挖掘方法的改进[J];东北师大学报(自然科学版);2006年02期
6 黄进,尹治本;关联规则挖掘的Apriori算法的改进[J];电子科技大学学报;2003年01期
7 ;动态分析[J];电力需求侧管理;2000年05期
8 吉根林,孙志挥;一种基于可信度最优的数量关联规则挖掘算法[J];东南大学学报(自然科学版);2001年02期
9 李凤云,王守强;基于分布式数据库的SQL语句性能优化[J];电脑知识与技术;2005年15期
10 徐凤生,陆玉昌;模糊关联规则的挖掘算法[J];德州学院学报(自然科学版);2002年02期
中国博士学位论文全文数据库 前10条
1 高飞;关联规则挖掘算法研究[D];西安电子科技大学;2001年
2 汤永川;关于不确定性推理理论与知识发现的研究[D];西南交通大学;2002年
3 张小刚;关联规则挖掘及其在复杂工业过程控制中的应用研究[D];湖南大学;2002年
4 毛国君;数据挖掘技术与关联规则挖掘算法研究[D];北京工业大学;2003年
5 王越;分布式关联规则挖掘的方法研究[D];重庆大学;2003年
6 李学明;计算机数据的关联规则挖掘理论和算法研究[D];重庆大学;2003年
7 刘君强;海量数据挖掘技术研究[D];浙江大学;2003年
8 王晓宇;Web搜索与Web缓存的若干关键问题研究[D];复旦大学;2003年
9 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
10 郭秀娟;基于关联规则数据挖掘算法的研究[D];吉林大学;2004年
中国硕士学位论文全文数据库 前8条
1 姚吉;支持XQuery的XML数据库研究[D];安徽大学;2002年
2 韩亚洪;结合内容与链接分析搜索特定主题的权威Web信息源[D];河海大学;2003年
3 谢铉洋;XML查询语言XQuery的编译实现[D];安徽大学;2002年
4 邓景毅;事务间数值型关联规则的数据挖掘[D];暨南大学;2003年
5 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
6 张云哲;数据挖掘技术在邮政CRM中的应用[D];哈尔滨工程大学;2003年
7 朱红涛;XQuery查询语言研究[D];华中师范大学;2005年
8 王鑫;DNA数据库中的关联规则挖掘[D];东北师范大学;2007年
【二级引证文献】
中国期刊全文数据库 前6条
1 张晶晶;李楠;;XML查询语言XQuery的分析与研究[J];电脑知识与技术;2008年23期
2 张哲;张涛;;基于关联规则的约简算法[J];电脑知识与技术;2009年21期
3 谢憬憬;丁爱萍;;关联规则在图书管理中的应用[J];河南大学学报(自然科学版);2008年04期
4 张涛;徐飞;张连堂;段淑敏;;中医症状间的关联规则研究[J];杭州师范学院学报(自然科学版);2007年03期
5 武坤;李乃雄;魏庆;姜保庆;;基于集合枚举树的关联规则生成算法[J];计算机工程与应用;2006年26期
6 叶福兰;施忠兴;;Apriori算法的改进及应用[J];现代计算机(专业版);2009年09期
中国博士学位论文全文数据库 前1条
1 于宏波;阳痿肾阳虚证症状规律及其转录组特征研究[D];成都中医药大学;2011年
中国硕士学位论文全文数据库 前10条
1 徐扬;异构数据资源汇聚的模式及优化问题研究[D];山东科技大学;2010年
2 梁蒙;基于粗糙集的属性约简算法研究[D];河南大学;2011年
3 李桥;数据挖掘在教学质量评价中的应用研究[D];中南大学;2010年
4 武坤;快速生成关联规则的算法研究[D];河南大学;2006年
5 魏庆;上界弱比例规则研究[D];河南大学;2006年
6 李翠;基于链接分析的Web社区发现研究与应用[D];西安理工大学;2007年
7 赵纪涛;基于模糊集理论的量化关联规则挖掘[D];河南大学;2008年
8 张涛;SVM算法研究及其在中医脏腑辨证中的应用[D];河南大学;2008年
9 邓凯英;基于Web信息检索的链接分析算法研究[D];东北师范大学;2008年
10 尹江;基于文档分类及超链接优选策略主题蜘蛛的研究与实现[D];西南交通大学;2008年
【二级参考文献】
中国期刊全文数据库 前1条
1 李德毅;发现状态空间理论[J];小型微型计算机系统;1994年11期
【相似文献】
中国期刊全文数据库 前10条
1 黄智,何跃;关联规则挖掘在卷烟市场研究中的应用[J];成都信息工程学院学报;2005年03期
2 杨敏,丁月华,文贵华;有关关联规则挖掘的研究[J];计算机时代;2005年02期
3 刘桂庆,胡学钢,李凯;CR:一种逆向的关联规则挖掘算法[J];微电子学与计算机;2004年09期
4 朱绍文,王泉德,黄浩,彭清涛,陆玉昌;关联规则挖掘技术及发展动向[J];计算机工程;2000年09期
5 王评,陈国龙;一种基于约束项的关联规则挖掘模型[J];福建电脑;2003年12期
6 贺利坚,陈立潮,刘爽英;关联规则挖掘的AprioriTid算法的改进[J];烟台大学学报(自然科学与工程版);2003年04期
7 郭军华;数据挖掘中关联规则挖掘的算法研究[J];科技广场;2005年03期
8 刘芳,孙杨军;基于多克隆选择的多维关联规则挖掘算法[J];复旦学报(自然科学版);2004年05期
9 沈旭昌;保持隐私的关联规则挖掘[J];计算机工程与设计;2005年03期
10 王晖,高飞;一种关联规则挖掘的优化算法[J];计算机工程与应用;2003年26期
中国重要会议论文全文数据库 前10条
1 谷姗姗;秦首科;胡大斌;周傲英;;面向关联规则挖掘的敏感规则隐藏技术[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 陈晓云;李泽霞;刘幸辉;彭文静;;关联规则挖掘过程中的模糊化方法研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 张宇鹏;王丽珍;周丽华;;基于气象数据的关联规则挖掘[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
4 王盛;董黎刚;李群;;一种基于逆序编码的关联规则挖掘研究[A];浙江省电子学会2010学术年会论文集[C];2010年
5 方芳;李建中;潘海为;;脑部医学图像中的关联规则挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 张鹏;于波;童云海;唐世渭;;基于随机响应的隐私保护关联规则挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 张仲楠;孙志挥;;关系数据库中限制性关联规则挖掘的优化[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 李贝贝;乐嘉锦;;分布式环境下的隐私保护关联规则挖掘[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 杨晓雪;衡红军;;一种对XML数据进行关联规则挖掘的方法研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 王媛媛;胡学钢;;关联规则挖掘研究[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 荆小洪赵丽萍 张丹红;长春移动助推测震信息化见成效[N];人民邮电;2008年
2 阿小翔;QD C盘文件别乱删[N];电脑报;2005年
3 本报记者 于勇澜;体育拓展项目首进我市大学课堂[N];哈尔滨日报;2007年
4 李干和 张红兴;提高专勤专训质量[N];人民武警;2006年
5 本报记者 李君娜;打造真正有品牌价值的电视节目[N];解放日报;2007年
6 戴晓雯 (作者单位 绍兴市元培小学);宽带型语文课[N];绍兴日报;2007年
7 屠建清;民营企业拓展性融资的管理技巧[N];财会信报;2011年
8 ;安腾解决方案联盟全力支持下一代处理器[N];人民邮电;2008年
9 孙飞;郑州顶级写字楼的5E特质[N];经济视点报;2006年
10 徐勇;以电信级的思维开辟宽带无线时代[N];人民邮电;2007年
中国博士学位论文全文数据库 前10条
1 周皓峰;关联规则挖掘的拓展性研究[D];复旦大学;2003年
2 刘智;关联规则挖掘方法及其在冠心病中医诊疗中的应用研究[D];大连海事大学;2012年
3 何月顺;关联规则挖掘技术的研究及应用[D];南京航空航天大学;2010年
4 高飞;关联规则挖掘算法研究[D];西安电子科技大学;2001年
5 刘亚波;关联规则挖掘方法的研究及应用[D];吉林大学;2005年
6 王越;分布式关联规则挖掘的方法研究[D];重庆大学;2003年
7 毛宇星;关联规则挖掘在分类数据领域的扩展性研究[D];复旦大学;2010年
8 毛国君;数据挖掘技术与关联规则挖掘算法研究[D];北京工业大学;2003年
9 张小刚;关联规则挖掘及其在复杂工业过程控制中的应用研究[D];湖南大学;2002年
10 王德兴;基于概念格模型关联规则挖掘的关键问题研究[D];合肥工业大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈海珍;关联规则挖掘算法研究及其在CRM中的应用[D];浙江工业大学;2003年
2 杨芬;基于约束的关联规则挖掘[D];华中科技大学;2004年
3 谭义红;关联规则挖掘及其在概念检索中的应用研究[D];湖南大学;2003年
4 陈斌;条件独立性在关联规则挖掘中的研究和应用[D];河海大学;2004年
5 曾海颖;客户关系管理中的数据挖掘[D];南京航空航天大学;2003年
6 刘桂庆;关联规则挖掘算法研究[D];合肥工业大学;2004年
7 田志友;基于电厂数据的机组性能关联规则分析[D];华北电力大学(北京);2004年
8 李川;单维关联规则挖掘算法研究[D];郑州大学;2003年
9 陈华胜;基于数据挖掘的入侵检测系统的研究[D];武汉理工大学;2004年
10 邹丽;分布式系统下关联规则挖掘的研究与实现[D];大连交通大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026