收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于粗糙集的分类方法研究

孙英娟  
【摘要】:人工智能是研究使用计算机来模拟人类的思维过程和智能行为(如学习、推理、思考、规划等)的学科。它作为计算机学科的一个重要分支,自二十世纪七十年代以来成为世界三大尖端技术(能源技术、空间技术、人工智能)之一。也被公认为二十一世纪三大尖端技术(纳米科学、基因工程、人工智能)之一。人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。因此,机器学习在人工智能的研究中具有十分重要的地位。机器学习是研究怎样使用计算机模拟或实现人类的学习过程,从而获得新的知识或技能,重构已有的知识使它不断改善自身的性能。一个没有学习能力的智能系统并不是一个真正意义上的智能系统,不过以前的智能系统大多缺乏学习能力。随着计算机技术的日益发展,人类收集数据、存储数据的能力大大提高,无论科学研究还是社会生活,各个领域都积累了大量数据。如何对这些数据进行挖掘、分析,从中找到蕴涵的规律,几乎成为所有领域的共同需求。正是在这种情形下,机器学习技术受到越来越多地关注,逐渐成为人工智能研究的核心之一。粗糙集理论是由波兰数学家Z.Pawlak于1982年首先提出的一种主要用于分析具有不确定性数据的数学理论。该理论的优点是不需要预先给定数据的某些特征或描述,仅从给定数据的各属性出发,就可以找到属性之间相关性,既而发现数据的规律,最终生成决策规则。粗糙集是机器学习的一个重要方法。该理论作为一种数据分析理论,是一种新型的处理模糊和不确定知识的数学工具。粗糙集自问世以来,经过许多计算机科学家和数据家的不懈研究,理论上日趋完善,已经广泛应用于模式识别、机器学习、数据挖掘、知识获取、知识发现等众多领域。 粗糙集理论认为知识必须以关于对象的分类能力为基础。对象可以是指我们所能表达的任何事物,可以是具体的,也可以是抽象的。在粗糙集里,知识被理解成关于论域的一族划分模式,提供了论域的直接事实,以及由直接事实推倒出隐含事实的推理能力。粗糙集理论对知识进行了形式化定义,通过决策表对知识进行表示。决策表是一种带有决策属性的特殊而重要的知识表达系统,很多决策问题都可以用决策表形式表达。粗糙集理论的主要思想是在保持决策系统的分类能力的情况下,通过知识约简,导出问题的决策或分类规则。本文将粗糙集技术应用于智能分类,从粗糙集技术的理论研究及算法设计出发,在粗糙集的属性离散化、约简等方面进行了深入研究,提出了属性重要度的计算方法、连续属性离散化方法、基于粗糙集的分类方法等,并对粗糙集的约简与决策规则的关系进行了探讨。 ⑴属性重要度计算。在一个决策系统里,每一个条件属性对于分类结果来说并不是同等重要的。而条件属性与决策属性之间的互信息恰恰反映了条件属性的重要性。因此,条件属性取得某个属性值时,决策属性的可能值数目就反映了条件属性相对于对决策属性的重要性。如果条件属性取得某个属性值?时,决策属性的可能值数目为1,则说明该条件属性?能够唯一确定某一决策属性,因此在规则生成时,不需要考虑其他条件属性。基于该思想提出了属性重要度的计算方法(定义3.1)并通过实验证明了该计算方法的可行性。 ⑵连续属性离散化方法研究。在一个决策系统里,其样本数据可能是连续的也可能是离散的。而糙糙集技术只能对离散的条件属性进行处理,因此连续属性的离散化对于粗粗糙集来说至关重要。为了简化决策系统,有的时候即使属性已经是离散的,我们仍需要对离散值进行合并(抽象)得到更高抽象层次的离散值,从而获得样本数据的更多共性。本文提出的连续属性离散化算法的主要思想是:在一个决策系统中,决策规则通常与重要度高的条件属性相关性更高。算法首先对未离散化的属性用传统的模糊C-mean(模糊C均值)聚类方法进行聚类从而实现属性的初步离散化,计算各条件属性的重要度。在对属性离散化时与比其重要度高的属性联合计算并充分考虑分类目标。通过实验证明了算法能够产生尽可能少的离散属性值,生成最少、最优的规则集。并与其他算法进行了对比实验分析,进一步验证了算法的有效性和可行性。 ⑶基于粗糙集的分类方法研究。粗糙集的特点也是其主要优点在于不需要提供问题所需处理的数据集合以外的任何先验信息,并善于处理不精确、不相容和不完全的数据。基于粗糙集的分类算法,首先对决策系统进行预处理,即对连续的条件属性进行离散化。按照属性重要度由高到低依次将各条件属性离散化,直到所得到的离散后的决策系统是一致的或所有的条件属性都已被离散化为止。然后去除重复对象,生成最后的决策规则集。传统的粗糙集理论在进行条件属性离散化时,仅考虑条件属性自身的特点,并且通常需要属性约简后才能得到最后的规则集。文中提出的基于粗糙集分类方法在进行属性离散化过程中按属性重要度由高到低依次进行,并充分考虑已离散化的各条件属性和类别属性。最后生成的决策规则集,规则数目少且无需要进一步的属性约简。通过实验对算法的多个侧面进行了验证,并与其他经典算法进行了比较,充分验证了算法的优越性和可行性。 ⑷基于断点处理的粗糙集分类方法研究。对于粗糙集理论来说,离散化的断点数与属性区间划分直接相关。⑶中提出的基于粗糙集的分类方法在进行属性离散化时对一些特殊断点的处理不够细致。通过对这些断点的进一步处理,基于断点处理的粗糙集分类方法进一步提高了分类精度,同时降低了决策系统的规则数目。算法在对组内的两个区间进行归并时的端点进行细化处理:如果新的划分区间中的左端点来自于原来区间的右端点,则该端点值扩大?倍,这样就避免了因端点值引发的数据不一致性。将改进前后的两个算法分别在茶味觉信号数据上进行测试对比,实验结果证明了基于断点处理的粗糙集算法的进步性。 ⑸粗糙集的约简与决策规则的关系的探讨。粗糙集的主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。所谓的约简,就是在保持知识库分类能力的前提下,删除其中不相关或不重要的知识。而规则集则是按照某一知识分类方法对原决策表的各属性值进行归类处理后生成的决策表。通过对属性进行约简促使决策系统变得简化,并使决策规则数量变少,规则长度变短。一般来说,规则长度与规则数成正向关系。通过多个实验验证了约简与决策规则的关系,从而也证明了约简对于粗糙集来说非常重要。 基于粗糙集的学习方法是机器学习领域的强大工具。本文对这一方法体系在数据分类方面的理论研究和算法设计进行了大量的工作。所做的研究虽然有限,但足以反射出粗糙集技术的无限魅力。在各种方法不断涌现的信息时代,粗糙集技术及其相关算法必将发挥更加重要的作用。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨晓平,徐优红,许金权;考试成绩分析的粗糙集方法[J];浙江海洋学院学报(自然科学版);2002年04期
2 刘燕,张学庆,杨绍国;一种基于粗糙集分类的图像压缩方法[J];物探化探计算技术;2002年02期
3 蒋加伏,刁洪祥,唐贤瑛;一种基于粗糙集分类的图像增强方法[J];计算机工程与应用;2003年19期
4 冯志鹏,宋希庚,薛冬新;基于粗糙集与神经网络集成的内燃机故障诊断[J];内燃机学报;2003年01期
5 游凤荷,黄樟灿,孙砚飞,毛天祥;粗糙集的约简算法在涡流传感器设计中的应用[J];无损检测;2003年03期
6 石金彦,黄士涛,雷文平;粗糙集与决策树结合诊断故障的数据挖掘方法[J];郑州大学学报(工学版);2003年01期
7 魏彩乔,焦满囤;基于粗糙集的绿色度评价方法及实现技术[J];计算技术与自动化;2004年03期
8 王萍;粗糙集理论及其应用进展[J];南京工业职业技术学院学报;2004年03期
9 张连华,张冠华,张洁,白英彩;基于粗糙集分类的网络入侵检测[J];上海交通大学学报;2004年S1期
10 时希杰,沈睿芳,吴育华;基于粗糙集理论的研究生招生预测[J];微计算机应用;2005年01期
11 刘发升,杨炳儒;一种基于粗糙集的多层次、逐步求精的发掘算法[J];计算机工程与应用;1999年05期
12 王卫平,李熙亚,左远志;基于粗糙集的数控机床故障诊断最小化方法[J];组合机床与自动化加工技术;2001年02期
13 许中卫,李龙澍;基于粗糙集理论的数据挖掘算法研究[J];微机发展;2001年01期
14 邓方安,武多义;关于粗糙集的若干注记(Ⅰ)——粗糙集与Stone代数[J];汉中师范学院学报;2002年06期
15 郝丽娜,王伟,吴光宇,王宛山;粗糙集-神经网络故障诊断方法研究[J];东北大学学报(自然科学版);2003年03期
16 董广军,范永弘,罗睿;基于粗糙集理论的遥感影像分类研究[J];计算机工程与应用;2003年13期
17 宋余庆,罗永刚,孙志挥;应用主分量分析与粗糙集处理的特征提取[J];计算机工程与应用;2004年22期
18 刘发升,杨惠;一种带松弛因子的统计粗糙集挖掘算法[J];计算机应用;2004年08期
19 江效尧,胡林生;基于粗糙集的RDT决策树生成算法的研究及应用[J];安徽工程科技学院学报(自然科学版);2004年03期
20 李千目,赵学龙,游静,刘凤玉;基于粗糙集支持向量机的网络故障诊断系统[J];计算机工程与应用;2004年29期
中国重要会议论文全文数据库 前10条
1 肖健梅;芦晓明;王锡淮;;集装箱起重机防摇系统粗糙集控制[A];第二十六届中国控制会议论文集[C];2007年
2 李晓丽;王彤;杜振龙;;基于粗糙集理论的流数据最优特征选择[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 聂力;王翰虎;;一个基于粗糙集理论的分类规则学习算法[A];第十六届全国数据库学术会议论文集[C];1999年
4 王旭阳;王彤;李明;;基于粗糙集理论的分类规则挖掘方法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 刘永红;薛青;郑长伟;;基于粗糙集理论的C4ISR评估方法[A];第13届中国系统仿真技术及其应用学术年会论文集[C];2011年
6 赵明清;陶树平;;基于模糊等价关系的粗糙集[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
7 葛丽;傅彦;;粗糙集在科学数据属性约简中的应用[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论建立中老年肺炎中医症候诊断标准[A];第二十九届中国控制会议论文集[C];2010年
9 赵荣珍;杨娟;黄显华;;粗糙集理论的故障知识发现及其工程应用模式研究[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
10 顾成杰;张顺颐;刘凯;黄河;;基于粗糙集和禁忌搜索的特征选择方法[A];江苏省电子学会2010年学术年会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 张国军;基于粗糙集的相对属性约简算法及决策方法研究[D];华中科技大学;2010年
2 马君华;粗糙集属性约简和聚类算法及其在电力自动化中的应用研究[D];华中科技大学;2010年
3 杨习贝;不完备信息系统中粗糙集理论研究[D];南京理工大学;2010年
4 纪霞;不完备信息系统中粗糙集理论的扩展研究与应用[D];安徽大学;2010年
5 赵佰亭;混合决策系统的粗集模型及在转台故障诊断中的应用[D];哈尔滨工业大学;2010年
6 刘业政;基于粗糙集数据分析的智能决策支持系统研究[D];合肥工业大学;2002年
7 丛蓉;作战指挥决策支持系统目标融合识别研究[D];大连理工大学;2010年
8 哈斯巴干;神经网络及其组合算法的遥感数据分类研究[D];中国科学院研究生院(遥感应用研究所);2003年
9 张贤勇;基于精度与程度逻辑组合的几类粗糙集模型及其算法研究[D];四川师范大学;2011年
10 唐小娟;粗糙集理论在认知诊断中的应用[D];江西师范大学;2013年
中国硕士学位论文全文数据库 前10条
1 吕望;基于粗糙集的车辆超载自动检测方法研究[D];长沙理工大学;2010年
2 田静宜;基于粗糙集和神经网络的柴油机故障诊断研究[D];中北大学;2011年
3 于兴网;粗糙集属性约简算法在数据挖掘中的研究[D];重庆大学;2004年
4 雷明;基于粗糙集理论的决策表压缩[D];华北电力大学(北京);2010年
5 魏悦亮;粗糙集在数据挖掘不确定性问题中的研究[D];中国石油大学;2010年
6 袁晓娟;基于粒计算的双论域粗糙集模型研究[D];兰州大学;2010年
7 武金艳;粗糙集与证据理论在医疗智能诊断系统中的应用研究[D];湖南大学;2010年
8 穆海芳;基于粗糙集理论的故障诊断知识获取研究[D];合肥工业大学;2010年
9 李琴;基于粗糙集的商业智能决策的研究与应用[D];广东工业大学;2011年
10 张贤勇;粗糙集的数学基础研究与两个广义粗糙集模型的探讨[D];四川师范大学;2004年
中国重要报纸全文数据库 前6条
1 ;栉风沐雨铸辉煌 继往开来谱华章[N];人民邮电;2006年
2 王玮 蔡莲红;数据挖掘走入语音处理[N];计算机世界;2001年
3 本报记者 李智 通讯员 梁宪生;零的突破[N];山西经济日报;2001年
4 李磊;让电子政务更聪明[N];计算机世界;2001年
5 重庆邮电学院党委书记徐仲伟 院长 聂能;发挥学科优势 打造信息平台[N];科技日报;2005年
6 闫春龙 邱云龙;宣钢与北京工业大学共同申报发明专利[N];世界金属导报;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978