化学化工数据挖掘技术的研究
【摘要】:化学化工是一门实践性很强的学科,随着计算机技术的发展,积
累了大量的数据,数据挖掘技术的发展为从这些数据获取有用知识提
供了有力的工具。数据挖掘方法的有效性,总是与各个领域的数据特
点紧密的结合在一起。本文针对化学化工领域中的数据具有高维、复
共线性和带有噪音的特点,利用神经网络、粗糙集方法、模糊系统以
及统计方法,对属性筛选、连续属性的离散化、规则获取、化学模式
分类建模、化工过程建模进行了研究,并介绍了数据挖掘方法和粗糙
集的基本理论和方法,以及化学化工数据挖掘所面临的问题。主要内
容如下:
1、 提出一种基于正则化网络-遗传算法的属性筛选方法。根据
神经网络剪枝中的正则化方法和灵敏度分析方法,采用贝叶斯正则化
方法对网络进行训练,然后利用神经网络分类器的特性设计选择算
子,利用遗传算法对神经网络的输入单元进行剪枝,从而达到属性筛
选的目的。在留兰香高维模式的属性筛选中,说明了本方法优于其它
方法。
2、 针对粗糙集方法只能处理离散型数据,提出一种基于X2统计
量的离散化方法RSE-Chi2。本方法是一种合并型的离散化方法,以X2
统计量的大小作为是否合并依据,以决策系统的不确定度量函数作为
离散化停止标准,通过基于背景知识的特征价值度量大小来安排各个
属性离散化顺序。本方法的优点是将连续属性的离散化和特征选择有
机的结合在一起,自动确定合适的离散化程度。
3、 在基于粗糙集的分类规则获取中,为了使所得规则具有良好
的泛化性能,并使基于规则的分类模型具有较好的推广性,提出了以
下方法:采用RSE-Chi2方法,将决策系统的连续属性离散化和属性
约简结合在一起,消除冗余的划分断点,使所得约简具有较好的推广
性;在分辨矩阵的基础上,采用贪心算法,每次选入分类能力最强的
属性值,以获得值约简的满意解;根据所得规则参数的统计性质,以
及与样本条件属性值的匹配程度,对未知类别样本进行预测。在橄榄
油的分类规则获取和分类建模应用中,所得结果易于理解,无需先验
知识,具有较好的预测准确度。
浙江大学博士学位论文
4、根据连续属性离散化后所得知识的模糊性,将粗糙集方法与
模糊方法相结合,并根据神经网络原理来调整有关参数,提出了以下
方法:根据粗糙集方法所得规则构建了一种用于分类的模糊一神经网
络系统,利用规则参数的统计性质和离散化结果对网络参数进行初始
化,并给出训练方法;提出基于粗糙集的回归分析方法,由此获得用
于回归建模的模糊规则,构建用于回归建模的模糊一神经网络系统,
给出了网络初始化方法和训练方法。将这两种方法分别用于化学模式
分类建模和化工过程建模,具有训练速度快,网络结构简单,易于理
解,推广性良好,优于统计方法和前馈神经网络方法。
关键词数据挖掘粗糙集方法属性筛选离散化决策表的约简
化学模式分类建模化工过程建模