文本分类中的关键技术研究
【摘要】:
随着Internet的大规模普及,信息量的迅猛增加,用户要在信息海洋里,快速、准确、全面地找到所需要的信息,就像大海捞针一样困难。如何有效地组织和管理数据,方便人们的检索?如何快速地区分有用信息和无用信息?如何从海量的数据中高效地获取有用知识?如何满足各种用户的个性化需求?所有这些问题都成了人们面临的挑战性课题。
文本分类是将自然文本根据内容自动分为预先定义的一个或者几个类别的过程。它作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱无章的问题,方便用户准确地定位所需的信息。在文本分类领域,有两个影响分类效果的主要因素,分别是特征选择算法和文本分类算法。特征选择主要是找出描述特定领域的相关词汇,去除影响分类效果的噪音词汇(如虚词、形容词等),它可以大大减少特征集合中的特征数,提高系统运行的速度和分类准确度;而好的分类算法则是取得满意的分类效果的保证。
χ~2统计量(Chi-square,CHI)是一种重要的特征选择算法,这种算法考虑了特征与类别出现的各种可能性,表现出了良好的分类效果和稳定性。但也存在着缺陷和不足,它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性。本文根据χ~2统计量算法存在的这两个缺点,对其进行了改进,提出了统计频率(StatisticalFrequency,SF)算法,实验结果表明,统计频率算法能够弥补这些不足,在文本分类中表现出了良好的分类效果。
在文本分类领域,本文在阐述几种常见的分类算法后,重点分析了K近邻(K-Nearest Neighbor,KNN)算法。经典KNN算法在文本分类中表现出了较高的分类准确率,应用较为广泛。但是经典KNN易受K值选择和训练文本分布的影响,使分类结果偏向于文本数较多的一类。本文对KNN算法进行了优化,实验结果表明,基于统计频率及改进的KNN算法能够减少样本库对分类效果的影响,改善了分类性能。