粗糙集理论在数据挖掘领域中的应用
【摘要】:
本论文的研究内容集中在Rough集理论以及Rough分析在数据挖掘领域中的若干应用。Rough集理论是一种新型的处理不确定性知识的数学工具,围绕着数据挖掘领域存在的问题,本文利用Rough集理论与Rough分析工具,提出若干解决方案,同时在具体处理问题过程中引入了信息理论、因子分析等方法,与Rough分析结合使用,讨论了Rough集技术在知识发现、关联规则挖掘、模式分类以及数据清洗等问题中的应用。论文对数据挖掘以及Rough集理论进行了基本概述,完成的主要工作包括:
1.针对海量数据处理起来极为耗时,现有算法拓展性较差的问题,基于Rough集理论中的集合正域概念以及由此定义的属性重要性概念,提出一种大型数据表分解算法,现有的规则归纳算法可直接在分解得到的树型结构上应用,将大大降低知识发现的时间,并从信息理论的角度利用信息熵概念对该分解结构进行了验证,分析了这种分解的实用性及合理性,揭示了这种分解结构在提高计算速度的同时不会损失信息量。
2.针对关联规则挖掘过程中多次搜索数据表的问题,将Rough分析的等效类概念引入到关联规则挖掘中,针对单维布尔关联规则问题提出一种挖掘算法,同时针对单一的最小支持度阈值的缺点,提出使用多个最小支持度阈值来进行频繁项集挖掘,可使得结果规则集合更加精练,包含更多的有意义规则。利用兴趣度对规则进行评价是发掘有意义规则的重要方式,文中从主观方面给出一种兴趣度评价方式以帮助用户发现更需要的规则。
3.提出一种属性选择和属性消减方法,引入因子分析技术对条件属性进行分组,每个属性类内部的条件属性与相应的因子线性相关,所有因子是目标概念的线性组合,根据属性类或属性是否与相对应的目标概念或因子强相关,引入信息熵评价方式对之进行选择,选择出与目标概念相关的属性,剔除无关的属性。
4.将属性选择方法与Rough分析相结合,利用Rough分析可以剔除属性集合中冗余属性并进行规则归纳的能力,提出一种基于Rough分析的分类器建模算法。针对在对未知类别的对象进行预测时会遇到的多规则匹配与无规则匹配问题,定义了部分匹配函数和灵活匹配函数,根据计算得到的函数值决定未知类别对象的归属。
5.数据预处理是数据挖掘之前的必要准备步骤,针对数据预处理问题中的缺失数据与重复数据的挖掘问题提出两种算法,首先针对缺失数据问题,
浙江大学博士学位论文
利用Rough集理论通过对己知数据进行预测实现对缺失数据的填补,达到了
一定的预测精度;然后针对重复数据问题,利用数据表分解技术以及快速排
序方法实现重复数据的发现,并降低了重复数据的发现时间。
最后,对全文进行了概括性总结,并指出了有待进一步研究和完善的问
|
|
|
|
1 |
王路帮,汤庸,周风华;基于Rough表达的时态关系代数[J];计算机工程与设计;2005年02期 |
2 |
马昕,孙优贤;由规则归纳系统中发掘感兴趣模式[J];计算机应用;2003年04期 |
3 |
刘清;《Rough集及Rough推理》[J];计算机研究与发展;2003年02期 |
4 |
江峰,刘斓,邓大勇,刘清;Rough隶属函数关于集合并与交的一种高精度计算方法[J];南昌大学学报(理科版);2004年03期 |
5 |
李婷;崔杜武;;基于规则归纳的遗传算法选择和参数设置[J];计算机工程;2010年03期 |
6 |
刘清;《Rough集及Rough推理》[J];计算机研究与发展;2001年07期 |
7 |
刘清;《Rough集及Rough推理》[J];计算机研究与发展;2001年10期 |
8 |
刘清;《Rough集及Rough推理》[J];计算机研究与发展;2001年11期 |
9 |
刘清;《Rough集及Rough推理》[J];计算机研究与发展;2002年08期 |
10 |
刘清;《Rough集及Rough推理》[J];计算机研究与发展;2002年11期 |
11 |
饶文碧,谈怀江,Bostrom Henrik;基于归纳学习的结构损伤识别方法研究[J];西安交通大学学报;2005年02期 |
12 |
韩秋明,赵轶群;Rough Set中基于聚类的连续属性离散化方法[J];计算机工程;2003年04期 |
13 |
李婷;崔杜武;;规则归纳在遗传算法设计中的应用与研究[J];计算机工程与设计;2009年20期 |
14 |
蔡虹;叶水生;张永;;一种基于粗糙-模糊集理论的分类规则挖掘方法[J];计算机工程与应用;2006年02期 |
15 |
潘定;沈钧毅;;时态规则的形式化与度量值估计[J];模式识别与人工智能;2007年02期 |
16 |
肖新攀;余嘉元;姜远;周志华;;从心理学数据中发现可理解的模式[J];计算机科学与探索;2011年03期 |
17 |
安秋生,沈钧毅,王国胤;Rough函数依赖及其推理机制[J];小型微型计算机系统;2004年04期 |
18 |
王黔英,刘清;近似精度Rough数及其在DSS中的应用[J];小型微型计算机系统;1996年08期 |
19 |
刘群;基于Rough下和上近似的距离函数的数据约简[J];计算机与现代化;2000年02期 |
20 |
刘清,郑非,江娟,刘斓;带Rough相等关系词的Rough逻辑系统及其推理[J];计算机学报;2003年01期 |
|