基于贝叶斯理论的文本分类技术的研究与实现
【摘要】:
随着信息时代的到来,信息化的表现形式已越来越普及。面对网上海量的信息,传统的手工进行文本分类已越来越困难,自动文本分类技术的产生正好有效的解决了这一难题,所以已逐渐成为人们研究的重点。
本文对文本分类所涉及到的各方面技术做出了详细的研究,这其中包括:对文本预处理中的分词、重复词处理、去除停用词的研究,对向量空间模型的表示以及权值计算的研究,对特征压缩中的特征选择和特征提取的各种算法的研究,对各种常用的分类算法的研究,以及对分类器的性能评价的研究。贝叶斯分类方法是应用的最为广泛的分类方法,所以本文重点对贝叶斯分类方法做出了研究。
贝叶斯分类方法是建立在贝叶斯理论和贝叶斯网络基础上的,它能够有效的处理不完整数据,并具有模型可解释、精度高等优点,所以被认为是最优分类方法之一。特别是朴素贝叶斯分类方法,虽然其结构简单,但在很多情况下它却具有相当高的分类精度,并且对噪声数据具有很强的抗干扰能力。本文就基于朴素贝叶斯分类方法设计并实现了一个英文文本分类系统,并采用F1测试方法对其分类结果进行了评价,表明该系统还是具有较高的分类精度的。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||
|
|
|||||
|
|
|||||||||||||||||||||
|