收藏本站
《浙江大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

粗糙集理论在数据挖掘领域中的应用

马昕  
【摘要】: 本论文的研究内容集中在Rough集理论以及Rough分析在数据挖掘领域中的若干应用。Rough集理论是一种新型的处理不确定性知识的数学工具,围绕着数据挖掘领域存在的问题,本文利用Rough集理论与Rough分析工具,提出若干解决方案,同时在具体处理问题过程中引入了信息理论、因子分析等方法,与Rough分析结合使用,讨论了Rough集技术在知识发现、关联规则挖掘、模式分类以及数据清洗等问题中的应用。论文对数据挖掘以及Rough集理论进行了基本概述,完成的主要工作包括: 1.针对海量数据处理起来极为耗时,现有算法拓展性较差的问题,基于Rough集理论中的集合正域概念以及由此定义的属性重要性概念,提出一种大型数据表分解算法,现有的规则归纳算法可直接在分解得到的树型结构上应用,将大大降低知识发现的时间,并从信息理论的角度利用信息熵概念对该分解结构进行了验证,分析了这种分解的实用性及合理性,揭示了这种分解结构在提高计算速度的同时不会损失信息量。 2.针对关联规则挖掘过程中多次搜索数据表的问题,将Rough分析的等效类概念引入到关联规则挖掘中,针对单维布尔关联规则问题提出一种挖掘算法,同时针对单一的最小支持度阈值的缺点,提出使用多个最小支持度阈值来进行频繁项集挖掘,可使得结果规则集合更加精练,包含更多的有意义规则。利用兴趣度对规则进行评价是发掘有意义规则的重要方式,文中从主观方面给出一种兴趣度评价方式以帮助用户发现更需要的规则。 3.提出一种属性选择和属性消减方法,引入因子分析技术对条件属性进行分组,每个属性类内部的条件属性与相应的因子线性相关,所有因子是目标概念的线性组合,根据属性类或属性是否与相对应的目标概念或因子强相关,引入信息熵评价方式对之进行选择,选择出与目标概念相关的属性,剔除无关的属性。 4.将属性选择方法与Rough分析相结合,利用Rough分析可以剔除属性集合中冗余属性并进行规则归纳的能力,提出一种基于Rough分析的分类器建模算法。针对在对未知类别的对象进行预测时会遇到的多规则匹配与无规则匹配问题,定义了部分匹配函数和灵活匹配函数,根据计算得到的函数值决定未知类别对象的归属。 5.数据预处理是数据挖掘之前的必要准备步骤,针对数据预处理问题中的缺失数据与重复数据的挖掘问题提出两种算法,首先针对缺失数据问题, 浙江大学博士学位论文 利用Rough集理论通过对己知数据进行预测实现对缺失数据的填补,达到了 一定的预测精度;然后针对重复数据问题,利用数据表分解技术以及快速排 序方法实现重复数据的发现,并降低了重复数据的发现时间。 最后,对全文进行了概括性总结,并指出了有待进一步研究和完善的问
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2003
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 王路帮,汤庸,周风华;基于Rough表达的时态关系代数[J];计算机工程与设计;2005年02期
2 马昕,孙优贤;由规则归纳系统中发掘感兴趣模式[J];计算机应用;2003年04期
3 刘清;《Rough集及Rough推理》[J];计算机研究与发展;2003年02期
4 江峰,刘斓,邓大勇,刘清;Rough隶属函数关于集合并与交的一种高精度计算方法[J];南昌大学学报(理科版);2004年03期
5 李婷;崔杜武;;基于规则归纳的遗传算法选择和参数设置[J];计算机工程;2010年03期
6 刘清;《Rough集及Rough推理》[J];计算机研究与发展;2001年07期
7 刘清;《Rough集及Rough推理》[J];计算机研究与发展;2001年10期
8 刘清;《Rough集及Rough推理》[J];计算机研究与发展;2001年11期
9 刘清;《Rough集及Rough推理》[J];计算机研究与发展;2002年08期
10 刘清;《Rough集及Rough推理》[J];计算机研究与发展;2002年11期
中国重要会议论文全文数据库 前10条
1 Chu KwangHua;;Transport Across Membranes Composed of Wavy-Rough Microtubes[A];中国流变学研究进展(2010)[C];2010年
2 ;Studies on Infection of Maize Rough Dwarf at Different Period of Duration[A];中国植物病理学会2010年学术年会论文集[C];2010年
3 ;Prediction Model Based on Rough Set and Neural Network[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 陈书炫;熊孟英;;一种基于Rough集的中文LINGO算法[A];中国企业运筹学[2010(1)][C];2010年
5 ;Research on Rough Set Model Based on Criteria[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
6 李雄;党生;;基于Rough集理论的战场侦察情报处理[A];第二十六届中国控制会议论文集[C];2007年
7 龚锦红;杨辉;衷路生;;稀土萃取分离过程的Rough集案例推理方法[A];第二十九届中国控制会议论文集[C];2010年
8 ;The Prediction of Soil Moisture Based on Rough Set-Neural Network Model[A];第二十九届中国控制会议论文集[C];2010年
9 杨文元;汤庸;叶小平;韦萍萍;;基于Rough理论和遗传算法的信息系统决策分析[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 ;Application of FCM Clustering Based Rough Sets on Steel Rolling Process[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
中国重要报纸全文数据库 前10条
1 海南 李涛;巧用Illustrator渐变工具画荷花[N];电脑报;2004年
2 ;带本旅游书轻松上路[N];中国图书商报;2004年
3 中国贸促会驻俄罗斯代表处;俄罗斯企业海外大举扩张[N];中国贸易报;2004年
4 编译 袁颖婷;电子图书[N];计算机世界;2002年
5 有清;企业决策的驱动力[N];中国财经报;2002年
6 ;瓷器活[N];中国电脑教育报;2003年
7 杨文灏;应用数据挖掘技术提升竞争力[N];中国城乡金融报;2010年
8 江苏 王志军;数码照片降噪利器[N];电脑报;2003年
9 刘文;商家称赞第二届深圳国际黄金珠宝展[N];今日信息报;2004年
10 吴振寰;泰国力销合成宝石[N];中国黄金报;2003年
中国博士学位论文全文数据库 前10条
1 马昕;粗糙集理论在数据挖掘领域中的应用[D];浙江大学;2003年
2 胡峰;基于分治法的Rough集高效数据挖掘方法研究[D];西南交通大学;2011年
3 于洪;Rough Set理论及其在数据挖掘中的应用研究[D];重庆大学;2003年
4 陈志辉;一体化反应堆冷却剂系统故障诊断方法研究[D];哈尔滨工程大学;2009年
5 张守志;Rough集中若干问题的研究[D];复旦大学;2004年
6 杨鹏;面向事件感知的应急临机决策引擎研究[D];天津大学;2010年
7 石振国;资源网络的精化学习及应用研究[D];上海大学;2011年
8 许孝元;分类关联规则归纳算法及应用研究[D];华南理工大学;2005年
9 杨凌云;形式概念分析和粗糙集理论的代数及拓扑式研究[D];扬州大学;2010年
10 贾海涛;基于感知引导的数据融合算法研究[D];电子科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 关素洁;基于Rough集的属性与属性值约简方法研究[D];南昌大学;2011年
2 陈传明;基于Rough本体的语义搜索引擎研究[D];南昌大学;2011年
3 李佳泽;基于广义Rough集的决策系统属性约简及其Fuzzy双向拓展[D];渤海大学;2012年
4 周鑫;基于Rough集理论改进的HOG特征行人检测[D];南昌大学;2012年
5 俞育才;几类广义Rough集模型的代数性质及其公理化[D];宁波大学;2012年
6 侯丽珊;Rough Sets的属性约简算法研究及应用[D];山西大学;2003年
7 蒋运承;Rough集和Rough关系数据库中熵的研究[D];广西师范大学;2000年
8 杨文兵;基于Rough集理论的入侵检测方法研究[D];南昌大学;2010年
9 范敏;基于粗糙集的数据简约算法研究及设计[D];昆明理工大学;2003年
10 闫炜;决策系统中的Rough Set理论研究[D];西安理工大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026