不完备信息系统中粗糙集理论的扩展研究与应用
【摘要】:
本文以不完备信息系统为研究对象,以粗糙集理论的扩展和以此为基础的信息处理为研究目的,系统的研究了不完备信息系统中粗糙集理论的扩展与应用,具体内容包括模型扩展、属性约简、规则获取和不完备数据的填补。本文的主要研究内容概括如下:
(1)根据对象间相似性描述方式的不同将现有的适用于不完备信息系统的扩充粗糙集模型概括为两大类型,并分析了它们各自的特点和不足之处。在量化容差关系的基础之上提出了改进的基于动态容差关系扩充粗糙集模型。该模型首先对联系度容差关系和量化容差关系中不完备对象间相似度的计算方法做了一个有效结合,综合考虑未知属性取值相同的概率以及已知属性对未知属性取值的影响,提出了改进的容差度计算方法。目前量化的扩充粗糙集模型都没有给出明确的容差度阈值计算方法,通常是人为设定,既不客观,也影响模型的分类效果。因而本文给出了一个客观的容差度阈值计算方法,并且该阈值还可以随着数据的动态更新而方便的调整。实验证明该模型的分类性能明显优于已有的扩充粗糙集模型。
(2)信息的不完备可能会给决策信息系统带来新的不协调,而传统的差别矩阵方法和目前的一些改进方法不能很好的处理这个问题,所以本文提出协调差别矩阵的概念,并且给出了基于协调差别矩阵的不完备决策信息系统属性约简算法。针对信息不完备所带来的差别矩阵算法中时间和空间的浪费,提出了适用于大型信息系统的近似质量属性约简算法,并给出了算法复杂度分析。该通过一致容差类粒度计算将系统中重复的空值比较进行压缩来节省差别矩阵的时、空代价。最后通过具体案例说明了算法的执行过程,同时给出了实验来证明算法的有效性。
(3) LEM2算法是一种有效的规则提取方法,但其效率有待提高。本文针对传统LEM2算法效率不高的问题提出了改进的规则提取算法,主要是利用决策分配势矩阵将LEM2算法内部的while循环由盲目搜索改为启发式搜索。并且在计算决策分配势矩阵时,单条件属性的确定规则也可以直接获得,并且某些冗余属性也可以直接删除,此外根据不完备信息的特点修改了算法的结束条件。最后给出了具体的案例说明和实验分析,证明了改进LEM2算法的有效性。
(4)不完备信息的处理除了属性约简和规则提取外,还包括信息的补全。在ROUSTIDA算法基础上,本文提出了一种基于动态容差关系的不完备数据协调填补算法(IVTRCIDA).首先通过改进容差度的计算更精确的描述了对象间的相似程度;然后根据决策属性值是否相同给出了正反相结合的填补方式,进一步降低了完备化信息表的冲突率,同时提高了补齐率;并且采用容差类的方式代替分辨矩阵,降低了算法的空间复杂度;最后对冗余属性采取任意值填补方式,减少了算法的填补工作量。实验表明本文的IVTRCIDA算法有效的提高了准确率和补齐率,且降低了冲突率。
本文的创新点包括以下几点:
(1)综合考虑两个对象间未知属性取值相等的概率以及已知且相同的属性对未知属性取值的影响,提出了改进的容差度计算方法。在此基础上,提出了动态容差关系的扩充粗糙集模型,给出了容差度阈值的计算方法以及动态更新算法。实验证明该模型的分类性能优于已有的各种模型。
(2)针对数据不完备可能带来的不协调问题,提出了改进的协调决策差别矩阵概念,并给出了相应的属性约简算法。对于大型的不完备数据系统,提出了基于一致容差类粒度的近似质量属性约简算法,通过对重复的空值比较进行压缩,提高了算法的时间和空间效率。
(3)在传统LEM2算法的基础上,提出了决策分配势矩阵的概念,可以直接获取单条件属性的决策,删除部分冗余属性,并且在内循环中引入了启发式搜索,提高了LEM规则提取算法的效率。
(4)在ROUSTIDA不完备数据填补算法基础上,提出了基于动态容差关系的不完备数据协调填补算法,改进了容差度的计算方法,根据决策属性值是否相同给出了正反相结合的填补方式,并且采用容差类的方式代替分辨矩阵,降低了算法的空间复杂度,最后对冗余属性采取任意值填补方式,减少了算法的填补工作量。