基于分布式概念格的知识发现研究
【摘要】:知识发现和数据挖掘是人工智能、机器学习、数据库和统计理论等相交叉形成的新学科,目的是从数据库中提取有用的模式,因而具有广阔的应用价值。然而,随着信息技术日新月异的发展,人类生产生活的各个领域都积累了规模庞大的数据,从大规模的数据中高效地提取有用的模式已经成为了一种挑战。为此,并行和分布式的方法成为解决这一问题的一个有效途径受到重视。然而,组织数据的方式和并行处理的方法无论在理论上还是在技术上都有许多问题需要研究。概念格模型具有坚实的理论基础、完备的结构以及并行性的特征,因而成为解决上述问题的一个重要工具。本文针对分布式概念格的模型以及在此基础上的数据挖掘开展研究。
论文的主要工作和贡献如下:
1.概述了知识发现和数据挖掘研究和应用。
2.阐述了概念格的数学基础、传统的概念格研究及概念格的扩展模型和概念格构造,分析了批处理算法和渐进式算法的优缺点。
3.给出了一种新的分布式概念格的模型,提出了与传统分布式数据库中的横向、纵向、混合型分片方式不同的数据有机分割方式,在此基础上给出了便于并行实现的概念格构造算法SEA。该算法结合了批处理算法的并行性和渐进式算法的高效性,使得在进行平行处理的同时又保持了算法的性能。实验表明该算法在时间性能上要明显优于基于原始形式背景的算法(Godin)。
4.在分布式概念格模型的基础上,提出了基于类特征的分类算法。该算法利用基于子全概念的概念格构造算法SEA对每一个类生成子格,通过在各个子格上提取的特征相互之间的协作来实现对新对象的分类。