收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

关联规则挖掘在分类数据领域的扩展性研究

毛宇星  
【摘要】:随着计算机技术在社会各个领域的广泛应用,人们对信息系统的依赖程度越来越高。面对数据丰富而信息匮乏的困境,在统计学、数据库技术、机器学习、人工智能、模式识别和可视化技术等相关领域发展的基础上,以发现有用知识为目的的新兴交叉学科-数据挖掘技术应运而生。 关联规则挖掘作为数据挖掘领域重要的研究方向之一,由于其在零售交易分析、客户关系管理、网络入侵检测、设备故障诊断、天文光谱分析、蛋白质结构分析和软件缺陷发现等应用领域的广泛适用性和特有价值,尽管历经二十多年的发展,仍然备受企业和学术界的高度关注,且正在向着新兴的研究领域扩展。 本文通过对关联规则发展现状的系统性研究,选择了分类数据(Taxonomy)这一特殊领域作为扩展研究对象。这是因为分类数据作为一种结构化的数据不仅普遍存在,而且基于分类数据挖掘产生的关联规则蕴含更丰富、更灵活、更具参考价值的信息,因此该领域的扩展性研究对于实际应用和学术理论都具有非常特殊且重要的意义。 本文的主要研究内容如下: 首先,本文研究了分类数据关联规则挖掘的特殊情形——多层关联规则挖掘问题,这是基于分类数据扩展性研究的基础。本文根据挖掘遍历策略的不同,提出了两种新颖高效的多层关联规则挖掘方法TD-CBP-MLARM和BU-CBP-MLARM。其基本思想在于,首先利用分类数据所属领域的先验知识对通用的相关性度量函数进行有效修正,使之更加适合于分类数据项之间相关性的度量;然后基于修正后的相关性函数对分类数据各层次上的项依次进行聚类,根据各层项的层次聚类结果对事务数据库进行约简划分,从而缩小了事务数据库的规模,节省了挖掘算法扫描事务数据库的I/O操作时间,达到了提高算法挖掘效率的目的。 其次,本文针对多层关联规则挖掘的一般情形——概化关联规则挖掘问题进行了研究。本文首先基于有候选项集方法的思想,提出了一种基于集合枚举树的概化频繁项集宽度优先挖掘方法SET-BFS。该方法可以确保所有k-项集产生之前,其所有的(k-1)-子项集已经产生,进而可以确保Apriori性质在分类数据领域的有效运用,实现对非频繁项集的高效剪枝,不仅避免了大量非频繁项集的计数和判定操作,还减少项集扩展空间的规模,从而提升此类算法的执行效率。进而结合最新的无候选项集方法的思想,提出了一种高效的概化关联规则挖掘方法GEAOT-tax。该方法引入了一种新颖的扩展升序前缀树GEAOT,采用自上而下、深度优先的遍历策略,结合双头表辅助结构以及合并、剪枝等一系列优化操作,进一步减少了算法的遍历开销,从而提升了算法整体效率。 最后,本文将研究视角从静态分类数据进一步扩展至动态变化环境下,对概化关联规则更新保持问题进行了研究,并提出了一种基于概化扩展自然序树的增量挖掘方法GECT-IM。该方法只需扫描一次原始分类事务数据库,就可以将所有交易中的叶子项及其概化项映射至一棵压缩格式的自然序前缀树GECT,并通过引入更新头表来实现只对GECT中更新项集计数,然后结合相关性质及运算就能发现大部分更新后的频繁项集,而只对部分原来非频繁的项集才需重新遍历初始GECT树来得到,从而有效提升了挖掘效率。针对GECT规模较大以及GECT-IM算法在部分情况下仍需遍历初始GECT树的局限性,本文进一步提出了一种基于准频繁概化扩展自然序树的增量挖掘方法PGECT-IM。该方法通过准最小支持度阈值的引入,结合对数据库变化范围的判定,只利用符合准最小支持度的项集来构建PGECT,不仅可以减小树的规模,还可以有效避免GECT-IM方法在部分情况下仍需要遍历初始GECT树的局限性,进一步提升了增量挖掘的性能。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 汪加才,陈奇,俞瑞钊;面向分类数据的自组织神经网络[J];计算机工程与应用;2003年05期
2 夏志玉;图书在版编目(CIP)分类数据错误辨析及控制措施[J];现代情报;2005年10期
3 刘芳;利用北图机读目录分类数据中的一些体会[J];大学图书情报学刊;1998年04期
4 张泽洪;张伟;;基于最长频繁闭项集的聚类算法[J];计算机工程;2007年01期
5 武献宇;王建芬;谢金龙;;决策树ID3算法研究及其优化[J];微型机与应用;2010年21期
6 史东辉,蔡庆生,倪志伟,张春阳;基于规则的分类数据离群挖掘方法研究[J];计算机研究与发展;2000年09期
7 曾致中;;对于基于最长频繁闭项集的聚类算法的探讨[J];农业网络信息;2007年06期
8 鞠福琴;孔为民;;对图书馆OPAC分类数据的分析[J];图书馆学研究;2007年07期
9 万家强;王越;刘羽;;改进KPCA对分类数据的特征提取[J];计算机工程与设计;2010年18期
10 张新猛;蒋盛益;;一种基于相似度概率的不确定分类数据聚类算法[J];山东大学学报(工学版);2011年03期
11 王占全,王申康,华成;空间分类数据同位规则挖掘算法[J];计算机辅助设计与图形学学报;2005年10期
12 张海峰;;excel中多级分类数据的有效性序列输入方法[J];计算机系统应用;2006年08期
13 吴新玲;;分类数据集的一致化特征选择约简[J];计算机工程与应用;2007年18期
14 王绍平;;分类法进入计算机的有效途径——关于分类数据的MARC格式[J];图书馆杂志;1997年05期
15 甘丽;;改进的基于概化的概念构成聚类算法[J];煤炭技术;2011年03期
16 林庆;王敏;;无重叠子空间分类聚类算法[J];计算机工程与设计;2009年06期
17 孙山;;伶俐虫助理个人事务[J];每周电脑报;2002年32期
18 鞠福琴;联机环境下分类数据的质量控制[J];科技情报开发与经济;2005年20期
19 贾俊芳;李德玉;;一种有效的高维分类数据聚类方法研究[J];微电子学与计算机;2011年06期
20 孟德宇;徐宗本;戴明伟;;一种新的有监督流形学习方法[J];计算机研究与发展;2007年12期
中国重要会议论文全文数据库 前10条
1 刘怡君;;分析分类数据的一种方法——对偶刻度法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 张珊珊;刘红云;侯杰泰;;验证性因素分析中关于分类数据和非正态数据的模拟研究[A];第十一届全国心理学学术会议论文摘要集[C];2007年
3 唐锡晋;;WWW用户在线调查结果的分类数据分析[A];Systems Engineering, Systems Science and Complexity Research--Proceeding of 11th Annual Conference of Systems Engineering Society of China[C];2000年
4 廖邦固;宣国富;徐建刚;梅安新;;上海中心城区居住空间的形态分析——基于土地利用的实证[A];中国地理学会2006年学术年会论文摘要集[C];2006年
5 胡伟标;;缩短大型医疗设备采购时间的探讨[A];2009年浙江省医学工程学术年会论文汇编[C];2009年
6 龚燕冰;倪青;王永炎;;中医证候量化及数理统计方法述评[A];全国中西医结合内分泌代谢病学术会议论文汇编[C];2006年
7 张炳智;张丽;张继贤;;利用遥感技术制作全球测图土地利用/覆盖、植被分类数据[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(上)[C];2003年
8 许晓峰;金澈清;高明;周傲英;;面向大型数据集合的关键分类查找算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 王双成;邵军;杜瑞杰;;企业风险等级预测的集成聚类方法研究[A];第十二届中国管理科学学术年会论文集[C];2010年
10 于华;;浅谈对新版ICD-9-CM-3的认识[A];中国医院协会病案管理专业委员会第16届学术会议论文集[C];2007年
中国博士学位论文全文数据库 前4条
1 毛宇星;关联规则挖掘在分类数据领域的扩展性研究[D];复旦大学;2010年
2 曹付元;面向分类数据的聚类算法研究[D];山西大学;2010年
3 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
4 王丽娟;基于特征评价的模式识别算法研究[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前10条
1 翟剑虹;聚类和分类方法在上市公司财务舞弊分析中的应用[D];吉林大学;2007年
2 巫光福;有序的误分类数据的贝叶斯分析[D];厦门大学;2008年
3 林婧;基于多精度数据的统计过程调整算法研究[D];清华大学;2010年
4 王新艳;高维分类属性的子空间聚类算法研究[D];大连理工大学;2008年
5 许晓峰;海量数据关键分类挖掘算法[D];复旦大学;2010年
6 旭日;基于JADE平台的网络信息搜索与集成系统[D];天津大学;2006年
7 孙力;数据挖掘在沪市公司分类的应用[D];吉林大学;2009年
8 王波;分类数据聚类边界检测技术研究[D];郑州大学;2012年
9 余彬;重庆市气候短期预测模型[D];西南大学;2008年
10 张希雯;基于GIS的空间同位规则挖掘算法的实现及应用研究[D];厦门大学;2007年
中国重要报纸全文数据库 前10条
1 朱一平 陈士华;上半年汽车进出口分类数据[N];国际商报;2001年
2 Sun StorageTek中国区技术经理 魏燕;CDP给数据穿多层保护衣[N];中国计算机报;2005年
3 涂凯;数据淘金 妙在分分合合[N];中国计算机报;2003年
4 张耀南 杨海 韦五周 景通桥 张军强;寒区旱区数据管理平台[N];计算机世界;2006年
5 本报记者  邹靓;江苏将组建省级农商行[N];上海证券报;2006年
6 张志斌;PPI继续高位徘徊 哪些个股有望从中受益?[N];第一财经日报;2008年
7 李雪;7月CPI涨幅回落至今年最低点[N];北京商报;2008年
8 ;中国陆地生态系统仍是“吸碳功臣”[N];上海科技报;2008年
9 本报记者  朱周良;二季增速上调美经济重现生机?[N];上海证券报;2006年
10 朱剑平;山东企业上市培育中心挂牌[N];上海证券报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978