中文文本自动分类中的关键问题研究
【摘要】:1.建设了一个大规模中文数据集,包含55类,71674篇文本。基于多项式贝叶斯分类器中,比较了汉字Unigram和Bigram特征在文本分类中的作用。Bigram的最优F1值比Unigram高7.7%,也优于它们的组合方式。
2.提出了特征的分类能力和描述能力的概念。分类能力保证了分类器能将文本按类型分开,描述能力保证了分类是基于文本内容的。将特征分为强信息特征、弱信息特征和不相关特征三类。提出了特征选择方法 ,它在特征的分类能力和描述能力之间取得较好的平衡。同样选择70000个特征时,它的F1值比 提高3.1%,比 提高5.8%。
3.发现特征集中存在大量高度重叠特征和高度偏差特征。提出将高度重叠的Bigram特征提升到对应的Trigram特征的降维方法 。提出直接删除高度偏差特征的 方法和将高度偏差特征用重要字符替代的 方法。在 特征选择的基础上, 的降维度达到6.2%, 达到11%时不损失分类效果。组合四种降维方法,提出了多步降维策略,其中 和 合在一起的降维度达到26.7%时,保持分类效果不下降。
4.在两个相反方向上对特征权重计算进行了研究。一是往复杂方向走,将 与 结合,提出了特征权重计算方法 ;提出了统计量 ,并与 、 结合,提出了方法 。在 选择的70000特征集上, 和 的F1值比传统的 提高5.7%,在 选择的特征集上提高3%。二是往简单方向走,提出了依赖大特征集的二元权重方法 ,进一步提出BW+数值平滑权重方法BW-NWS,解决了 中的分类不确定问题。BW-NWS方法显著改善了分类效果,而且与数值平滑权重方法的复杂性无关。在 选择的70000特征集上,BW-NWS的F1达到97.7%,比 提高16.6%。
5.研究了词特征在文本分类中的作用,并与Bigram进行了比较。基于Bigram的结论也适用于词特征。Bigram特征的分类效果优于词特征。