蒙古文停用词表和词干提取对蒙古文文本分类的影响
【摘要】:
伴随着网络的发展,文本分类技术成为信息处理领域中重要的研究方向,通常用于处理和组织大量文本数据。蒙古语在中国来说是少数民族语言,蒙古文信息处理发展较慢,但在民族文化传承和发展中起着重要的作用。因此研究蒙古文文本分类技术具有非常重要的意义。
本文的研究工作主要包含了以下三方面:(1)语料对分类系统的影响十分大,直接关系到分类系统性能。收集基于蒙古文国际标准编码的蒙古文文本,进行人工分类,构造用于实验的小型集合。(2)不同停用词选择方法对分类效果的影响不同,迄今为止,关于蒙古文停用词的研究成果还非常少。分析常用的停用词统计方法(主要有TF方法、DF方法、EC方法等),统计出相应的停用词表。在研究蒙古文词法、语法的基础上,提出基于翻译的停用词选择方法。通过实验比较不同停用词表对蒙古文文本分类系统的影响。(3)利用蒙古文后缀表进行词干提取处理。最后采用支持向量机算法作为分类算法,构建蒙古文文本分类系统。
作者收集了850篇蒙古文文本,共分为9个类别。运用支持向量机算法的开源软件构建了系统。实验结果表明,EC停用词表效果最好、基于翻译的停用词表次之;蒙古文词干提取可以提高分类效率,与去除停用词相结合效果更好。