基于判别式学习和组合分类器的Web文本分类技术
【摘要】:
如何从丰富的网络信息资源中发现有价值的利用信息,是目前一个非常迫切需要解决的问题,网页自动分类是解决这一问题的一项关键技术,对信息检索、信息过滤、主动化个性化的服务提供等等的发展来讲很有应用价值。
在众多的网页文本分类算法中,朴素贝叶斯方法因为具有简单、容易实现、工作效率高、非常适合在线处理等优点而被广泛应用,但是其分类正确率有待提高。本文以朴素贝叶斯算法为基础,研究如何提高网页文本分类的精度,本文的主要工作有:
(1)本文研究了判别式贝叶斯网络学习算法,将一种以数据的经验分布和真实分布之间的K-L距离为目标优化函数的判别式的朴素贝叶斯参数学习算法引入中文文本分类,同时考虑了数据类别之间的关系,将判别式参数学习算法和层次分类相结合,提出一种基于K-L距离的判别式朴素贝叶斯层次文本分类方法。在本文的中文网页数据集上的实验结果证明,基于K-L距离的判别式朴素贝叶斯层次文本分类方法确实能够得到较好的分类效果。
(2)本文以多种形式表示网页,将网页按照自身结构进行划分,每个结构元素单独训练一个子文本分类器,通过多种组合原则对子分类器的结果进行组合以组合分类器的方法进行网页分类。实验证明,组合文本分类器的方法是切实可行的,无论是平面分类还是层次分类,组合后的分类器都比组合前分类效果好;在本文使用的四种组合原则中,按照独立性原则和最大原则进行组合的方法比多数原则和加权求和的方法表现更佳。