收藏本站
《浙江大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

粒计算分类知识发现算法及其应用

罗建宏  
【摘要】:人类正在步入一个以知识生产、应用为最重要因素的知识经济时代。以知识发现为核心的智能信息处理技术在知识的生产过程中具有越来越重要的作用。分类具备一般知识发现的数据预处理、数据挖掘、模型评估和知识表示的基本流程,是一项重要的知识发现任务。由于分类的广泛应用及其在化学化工领域的重要意义,对分类方法展开研究不仅可以促进数据挖掘技术的发展,还能极大地开拓化学化工领域中知识发现的应用前景。 目前,分类知识发现的研究和技术已有长足进步,各种挖掘方法层出不穷,但一些有待研究的问题也日趋突出。尤其在化学化工领域,由于采集和积累的数据往往具有多因子、非线性、高噪音和非均匀分布等特点,常规的分析和处理方法不仅耗时,而且难以有效地挖掘和发现其中所隐含的知识,相关的分类知识发现方法和技术有待改进和发展,对之展开深入的研究,对促进化学化工学科的发展具有重要的意义,也会产生巨大的经济价值。 粒计算是信息处理的一种新的概念和计算范式,覆盖了所有与粒度相关的理论、方法、技术和工具。粒计算的基本思想是模拟人类智能的特点,在求解复杂问题时,通过选择合适的粒度,降低问题求解的难度,有助于找到一种较好的解决方案。粒计算原理为知识发现的研究提供了新途径。但是,目前有关粒计算的研究大多还以理论研究为主,粒计算的应用研究较少,尤其在化学化工领域,更鲜见文献报道。本文归纳提出了粒计算用于知识发现的四项基本原理,利用此原理,对当前分类知识发现方面的若干挑战问题进行了研究,提出了相应的策略和方法,以用于化学化工领域中的相关问题。 本文的主要研究工作和成果可归纳如下: 1.粒化和聚类是一种对知识进行总结概括的方法,聚类生成的类刻画了数据所蕴涵的类知识。聚类分析,是软科学研究的重要的基础性方法,也是一种有效的手段。自适应共振(Adaptive Resonance Theory, ART)网络ART2用于聚类,具有许多优点。同时也存在对输入的渐变模式不敏感,抗噪音性能有限的缺点。为此,本文提出了改进的自适应共振网络(ART2 with Enhanced Triplex Matching mechanism, ETM-ART2),加强了内部检测机制,以提高ART2网络的性能,对橄榄油样本进行聚类分析试验,其聚类性能优良,尤适用于海量数据的聚类问题。ETM-ART2还可为分类问题构建信息粒,有助于知识发现,并提高分类性能。 2.粒的构建是应用粒计算的基本步骤之一。本文根据粒度求解近似原理,提出了采用ART网络构建信息粒,可为分析对象方便、快速地建立合适的信息粒;又由GrC(Granularcomputing, GrC)问题简化原理,提出了基于信息粒的分类知识发现的求解方案。开发了两个算法:其一,基于信息粒的模糊分类知识发现算法(Information Granulation based Fuzzy Classification Knowledge Discovery Method, IG-FCKDM);其二,基于粒的关键特征分析(Key Feature Analysis based on Granulation, KFAG)、由C4.5实施分类规则挖掘的算法KFAG-C4.5。IG-FCKDM侧重于求解非均衡两分类问题和分类误差敏感问题,即分类判定错误可能带来巨大损失。它采用Fuzzy ART构建信息粒,继而通过模糊处理,提取分类规则。对疾病诊断的试验表明,IG-FCKDM处理此类问题效果较好,且其预测正确性和可信度对用户有更重要的意义。KFAG-C4.5可用于一般分类问题和多类非均衡分类问题。它采用ETM-ART2构建信息粒,再进行本文提出的基于粒的关键特征分析,并将各属性合理地划分为具有较强的类别区分能力的若干子属性,子属性数不致过多。使信息粒由子属性描述,并以离散值0或1表示。便于最后采用C4.5实施分类规则挖掘。对玻璃两分类和多类非均衡问题的试验表明,KFAG-C4.5具有较好的分类识别能力。IG-FCKDM和KFAG-C4.5这两个算法挖掘所得知识虽然表现形式有所不同,但都很简洁,可理解性好,易于各类专业人员分析,且较好地解决了非均衡数据的分类问题。 3.集成学习常可提高单个分类器的性能,随着研究的深入,选择性集成学习逐渐成为研究热点。当前,基于随机优化算法的选择性集成算法,大多以泛化误差为目标,基本忽略了个体分类器本身的特性,尤其是差异性度量。这些方法也取得了一些成果,但计算复杂度较高,效率偏低。为解决个体分类器差异性度量的难题,本文基于GrC问题的等价原理,将选择性集成问题转换到较简单的关联空间,研究了一种简单而高效的选择机制,开发了基于知识粒、兼顾正确率和差异性的选择集成(Correctness and Diversity based Selective Ensemble, CDSE)算法。将其用于毒性作用机制的分类试验,其性能优于集成算法Bagging、AdaBoost.M1,以及单个C4.5分类器。CDSE从优选个体分类器的角度出发,为提高集成分类的泛化性能和效率提供了有效的解决方案。 4.在集成分类器的构建生成和预测判定这两个层面上,提出了自适应的新思路,将CDSE拓展为自适应集成(Correctness and Diversity based Adaptive Selective Ensemble, CDASE)学习算法,进一步提高了集成分类的泛化性能。CDASE针对每一类别,自适应地生成特定适用的集成分类器,组合为集成分类器组AE-Group,其中各个集成分类器间存在包容性,故其占用的计算资源甚少,有效地减少了存储空间和计算时间。AE-Group又以自适应方式,即从集成分类器组中选用最适合的集成分类器对检测数据实施分类判定。用于多种模式分类问题的试验表明,CDASE算法以较少的个体分类器,即能实现较好的集成学习效果。与其它多种算法相比,CDASE具有良好的泛化性能,更为高效,且稳定性好。CDASE算法突破常规单一集成学习机适用性较窄的局限性,为进一步提高集成学习的泛化能力提供了新的思路。
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP18

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 李鸿;;粒的形式化表示研究[J];宿州学院学报;2011年05期
2 李晓昕;薛永献;谢维奇;;粗糙集的动态粒度及应用[J];河南科学;2011年08期
3 张志军;詹峰;赵静阁;谢克明;;基于粒计算-SDG的故障诊断仿真平台[J];太原理工大学学报;2011年04期
4 吕方苏;饶文碧;徐铁城;;基于Rough逻辑粒的不确定上下文推理[J];武汉理工大学学报(信息与管理工程版);2011年04期
5 吴润秀;;基于粒计算的双权网络分层算法[J];计算机工程与应用;2011年24期
6 琚春华;帅朝谦;封毅;;基于粒计算的商业数据流概念漂移特征选择[J];南京大学学报(自然科学版);2011年04期
7 邓林峰;赵荣珍;;基于粒计算的知识获取方法研究及其应用[J];机械科学与技术;2011年07期
8 李鸿;;基于范畴论的粒合成形式化方法[J];计算机工程;2011年14期
9 ;2011年选题方向和重点栏目组稿内容[J];计算机应用;2011年08期
10 谭德坤;;基于二进制粒的用户概念空间构建方法[J];计算机仿真;2011年06期
中国重要会议论文全文数据库 前10条
1 代劲;何中市;;基于云模型的快速信息粒化算法[A];第五届全国信息检索学术会议论文集[C];2009年
2 李鸿;马小平;;基于特征的粒表示研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
3 陈万里;;粒计算的α_决策逻辑语言[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 张周锁;侯照文;孙闯;何正嘉;;基于粒计算的混合智能故障诊断技术及应用[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
5 王新民;汤兵勇;;智能系统理论中的整体性观点与信息分析[A];1998中国控制与决策学术年会论文集[C];1998年
6 沈亚兰;王向东;王晓峰;;基于粒计算和等价类的关联规则挖掘算法[A];2006中国控制与决策学术年会论文集[C];2006年
7 吴狄;陈杰;Oquendo Flavio;张娟;;基于商空间的分布式仿真系统优化设计模型[A];2009年中国智能自动化会议论文集(第六分册)[中南大学学报(增刊)][C];2009年
8 薛青;徐文超;郑长伟;刘永红;;城市作战仿真中战场环境信息粒化模型研究[A];第13届中国系统仿真技术及其应用学术年会论文集[C];2011年
9 杨光飞;党延忠;;不完美数据中的知识发现研究综述[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年
10 刘沿东;贺彤;蒋奇武;王刚;左良;;冷轧和再结晶初期深冲IF钢板宏微观织构形成机理的研究(邀请报告)[A];第二届全国背散射电子衍射(EBSD)技术及其应用学术会议暨第六届全国材料科学与图像科技学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 记者 陈星 实习生 胡杨 整理;适宜新疆种植的小麦品种[N];新疆科技报(汉);2006年
2 吴宗翰 DigiTimes;力晶今年营收可望逐季增长 下半年单月挑战历史新高[N];电子资讯时报;2006年
3 邢银田;蜡熟末期收麦质优产高[N];湖北科技报;2008年
4 乔地;河南万亩小麦亩产631公斤[N];科技日报;2008年
5 海波;佛家“圣诞节”趣话[N];中国民族报;2003年
6 许尊礼;小麦收割最佳期蜡熟末期[N];农民日报;2004年
7 本报记者 心研;秋高气爽板栗香[N];中国劳动保障报;2004年
8 周铮;北京市专家网上指挥围歼美国白蛾[N];农民日报;2006年
9 记者 乐言 北京;DRAM产业将重演2001年惨况?[N];电子资讯时报;2007年
10 首席记者 杨帆;举行高端学术论坛 聚焦通信发展前沿[N];重庆日报;2010年
中国博士学位论文全文数据库 前10条
1 罗建宏;粒计算分类知识发现算法及其应用[D];浙江大学;2010年
2 郭翠翠;基于粒计算的地下空间监控预警方法研究[D];武汉理工大学;2010年
3 胡军;基于覆盖的粒计算模型及其应用研究[D];西安电子科技大学;2010年
4 毛萌萌;引进粒计算与形式概念分析技术的认知诊断研究[D];江西师范大学;2011年
5 张清华;分层递阶粒计算理论及其应用研究[D];西南交通大学;2009年
6 陈万里;基于商空间理论和粗糙集理论的粒计算模型研究[D];安徽大学;2005年
7 刘宏兵;多目标粒度支持向量机及其应用研究[D];武汉理工大学;2011年
8 邱桃荣;面向本体学习的粒计算方法研究[D];北京交通大学;2009年
9 谢珺;二进制粒神经网络研究及其在故障诊断中的应用[D];太原理工大学;2009年
10 陈泽华;粒计算及人工选择算法理论研究[D];太原理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 雷聪聪;一种基于数据聚类的信息粒化方法[D];郑州大学;2010年
2 左吉峰;信息粒度与决策树[D];河北大学;2009年
3 吕方苏;基于粒计算的上下文信息处理研究[D];武汉理工大学;2011年
4 陈燕;基于粒计算——神经网络的故障诊断方法与应用[D];太原理工大学;2011年
5 刘双;覆盖粒计算及其应用研究[D];浙江师范大学;2011年
6 梅磊;粗糙集和粒计算交叉问题的研究[D];武汉理工大学;2011年
7 石周;基于泛系理论的粒计算模型研究[D];兰州大学;2012年
8 龚科华;相容关系粒计算模型在文章比对中的应用研究[D];南昌大学;2010年
9 李娓;基于粗糙集的粒计算在数据挖掘中的研究与应用[D];武汉理工大学;2011年
10 戴文鑫;粗糙粒计算在逆系统方法中的应用研究[D];南京邮电大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026