基于分治法的Rough集高效数据挖掘方法研究
【摘要】:在诸多数据挖掘方法中,Rough集理论是一种新型的智能信息处理方法,它采用确定的方法处理不确定问题,已是处理模糊、不精确和不完备问题的重要数学工具Rough集通过数据预处理、离散化、知识约简(属性约简、属性值约简)等过程,对数据进行去粗取精、去伪存真,逐步地从原始数据集中获取知识。使用Rough集,可以对原始数据进行离散化、降维和知识约简等处理,逐步降低问题的复杂性,它是进行数据挖掘的一条有效途径。
但是,作为数据挖掘研究中的一个重要课题,现有的Rough集与方法仍然存在着一些没有解决好的问题。例如,基于Rough集的高效数据挖掘方法、基于Rough集的海量数据挖掘理论与方法、基于Rough集的动态数据处理方法、Rough集的强泛化能力问题、云计算环境下的Rough集数据挖掘方法等。这些问题的存在,有待于我们对Rough集理论与方法进行更深入地研究,并提出更好的解决方案。
分治法是一种有效处理复杂问题的方法,它也是一种简单的粒计算方法。分治法的思想就是将整个问题分成若干个问题后分而治之。当求解的问题规模较大时,直接求解往往是非常困难的,有的甚至根本没法直接求出,采用分治法可以将规模较大的问题分解为多个规模较小的问题,然后分别递归求解,最后将解合并,从而实现对原问题的求解。如果能将分治法应用到Rough集数据挖掘方法的研究中,则有可能设计出高精度、高效率的数据挖掘方法。
本文分析了现有的Rough集理论与应用研究现状,以基于分治法的Rough集数据挖掘方法为研究主线,对多维表快速排序的复杂度分析、基于Rough集的高效离散化方法、基于分治法的Rough集的知识约简方法的抽象控制过程、Rough集的快速知识约简方法等方面进行了较为深入的研究。归纳起来,本文的主要研究工作和创新内容表现在以下几个方面:
(1)将多维数据快速排序的时间复杂度改进为O(nx(m+log n)),提高了Rough集数据挖掘方法的海量数据处理能力。
基于分治法原理,将多维数据快速排序的时间复杂度从O(nxmxlogn)降低到O(nx(m+logn))(其中,m为数据维数,n为数据记录数),并应用于改进传统的知识约简方法,在属性核和知识约简研究中取得了很好效果。这一成果,对实现快速、高效的海量数据挖掘,具有重要作用。(第2章)
(2)提出了一个两步处理策略的高效离散化算法,解决了Rough集理论中海量数据的离散化问题。
在基于Rough理论的数据挖掘过程中,离散化是一个重要的环节,现有的全局离散化算法很难兼顾高精度的离散化效果和高效率,它已成为使用Rough集处理海量数据的一个瓶颈,其主要原因在于候选断点太多造成了计算量和辅助存储空间太大。为克服这一问题,本文提出了“先在单个属性上进行候选断点的动态聚类;然后在所有属性上进行断点选择”的两步处理思路,实验结果表明,使用本方法得到的离散化结果和Skowron教授提出的贪心算法接近,但是运行效率更高。本文提出的离散化算法更适合海量数据的处理,特别是样本数量大的浮点决策表的离散化处理。(第3章)
(3)提出了基于分治法的高效属性约简算法和值约简算法,有效地解决了海量数据的知识约简问题。
分治法是一种有效处理复杂问题的方法,在Rough集知识约简算法的设计过程中,如果能有效结合分治法,则有可能设计出高效的算法。针对此问题,本文首先介绍了等价关系下基于分治法的决策表分解方法,该方法可用于正区域、属性核、属性约简的计算以及分辨矩阵的操作;其次,介绍了容差关系下基于分治法的决策表分解方法,该方法可用于决策表的值约简;再次,提出了基于分治法的Rough集知识约简方法的抽象控制过程,该控制过程对于设计高效的知识约简方法具有一定的参考意义。在此基础上,通过在属性空间上对论域对象进行快速分解和操作分辨矩阵,给出了基于分治法的知识约简方法。首先,改进了王珏教授提出的属性约简算法,提出了一个新的快速属性约简算法,其次,提出了一个基于分治法的高效值约简算法。实验结果表明,采用文中提出的基于分治法的Rough集高效数据挖掘方法,可以在普通PC机上进行300万网络入侵检测数据(KDDCUP99)的数据挖掘,并保持较高的正确识别率,有效地提升了基于Rough集的数据挖掘方法的数据处理能力。(第4、5章)
|
|
|
|
1 |
丁纪云,蔡春娥;利用构造数据集评定数据挖掘过程的方法[J];湖南广播电视大学学报;2001年02期 |
2 |
任承业,罗伟其;校园信息系统中CRM与数据挖掘的结合和应用[J];计算机工程与应用;2003年13期 |
3 |
王艳;数据挖掘在数字图书馆中的应用[J];情报科学;2003年02期 |
4 |
邵红全,赵茜;用SQL Server2000实现数据挖掘的技术与策略[J];电脑开发与应用;2003年04期 |
5 |
耿庆鹏,卢子芳;利用数据挖掘技术实现对电信行业用户欺诈行为的预测[J];电信快报;2003年10期 |
6 |
蒋良孝,蔡之华;基于数据仓库的数据挖掘研究[J];计算技术与自动化;2003年03期 |
7 |
叶静,蔡之华;遥感图像中的数据挖掘应用概述[J];计算机与现代化;2003年10期 |
8 |
黄解军,万幼川,潘和平;银行客户关系管理与数据挖掘的应用[J];计算机工程与设计;2003年07期 |
9 |
崔强,朱卫东;基于数据挖掘的铁路机务段成本控制系统[J];铁路计算机应用;2003年01期 |
10 |
杨思春;基于数据仓库的数据挖掘技术分析研究[J];微机发展;2003年09期 |
11 |
汤效琴,戴汝源;数据挖掘中聚类分析的技术方法[J];微计算机信息;2003年01期 |
12 |
李月芳,孙俊;数据挖掘及其在电网故障诊断中的应用[J];农机化研究;2003年04期 |
13 |
陈勍;数据挖掘技术及其应用[J];医学信息;2004年04期 |
14 |
;中国科学院数据挖掘与知识管理学术研讨会在京举行[J];管理评论;2004年07期 |
15 |
曾贞;数据挖掘在电子商务中的应用[J];甘肃农业;2004年07期 |
16 |
陈钟;基于DSO的数据挖掘应用[J];广西师范学院学报(自然科学版);2004年S1期 |
17 |
柯文德;一种基于数据挖掘的分布式入侵检测模型[J];计算机测量与控制;2004年08期 |
18 |
徐玲;基于案件综合信息分析挖掘的研究[J];广东公安科技;2004年01期 |
19 |
赵明清;蒋昌俊;陶树平;;基于等价相异度矩阵的聚类[J];计算机科学;2004年07期 |
20 |
王恬宇,陈雪强;基于数据挖掘的分步式定性推理[J];情报杂志;2005年01期 |
|