基于本体的食品投诉文档文本分类研究
【摘要】:随着计算机技术和网络技术的迅速发展,Internet上的信息呈指数级增长。文本信息是其中最重要的组成部分之一。如何从这些海量的文本信息中获取有用信息,一直以来都是信息处理中重要问题。文本分类技术是信息检索和文本挖掘的重要基础,它是在预先给定的类别标签集合下,根据文本的内容判定文本的类别。文本分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有效手段。
本体作为一种知识表示的模型,能够提供丰富的语义知识,其内部的概念与概念之间的关系可以支持推理机制。同时,本体作为领域内的概念体系,能够提供很好的类别标签,这样就解决类别标签过多,训练集不好收集的问题。本文在食品领域专家的帮助下,通过市场调研,利用斯坦福大学开发的本体构建工具Protégé3.4.2手动构建一个奶制品本体。同时,本文通过反复实验提出一种改进的核心窗口模型相似度计算方法,即增量窗口相似度计算方法,该方法对于采用窗口形式进行相似度计算时,有效避免了窗口长度对相似度值的影响。
本文将增量窗口相似度计算方法与领域本体结合,采用技术手段对领域本体进行解析,得到领域本体提供的类别标签,通过动态的改变窗口的宽度,同时消除窗口宽度对相似度值的影响,进而实现分类。本文通过一系列实验,证明该增量窗口相似度计算方法优于其它几种消除窗口长度影响的方法;该方法及传统的tf-idf、核心窗口模型相似度计算方法,分别与领域本体结合构成分类器,其在分类精准率、召回率及F1值均有明显提高。