设计与实现基于支持向量机的水电故障分类器
【摘要】:
随着通信技术、计算机技术尤其是Internet技术高速发展的今天,对于网络上海量信息的处理,传统的人工分类整理方式已不合时宜,因而更有效的文本分类方法应运而生。文本分类对于提高网上信息检索的效果和效率很有帮助,是推进个性化服务,改进信息获取模式的重要方面,也是内容安全的基础。而将统计学习理论中的支持向量机方法来进行文本分类的优化并将其应用与水电故障文本分类中具有重要的现实意义。
本文首先介绍了文本分类领域的相关技术,利用向量空间模型以及中文分词技术并根据TF-IDF权值算法将文本描述为以词为单位的加权向量形式。然后,针对文本的向量形式描述,采用支持向量机技术进行文本分类。设计了一个中文文本分类器,利用ICTCLAS分词可将大量文本进行切词划分,从而达到分类的目的,并介绍了其算法。
介绍了统计学习理论以及支持向量机的相关技术,阐述了支持向量机研究和应用现状,以及所面临的问题,特别针对支持向量机的核函数的选择进行了详细研究比较,详细分析了针对多分类的支持向量机算法,并将多分类支持向量机方法应用于文本分类。
最后本文设计并实现了一个基于支持向量机的水电故障文本分类器,该分类器的查准率和查全率等评价指标均达到应用要求,通过将其应用于水电故障的文本分类领域具有良好的前景,而且可以预见其在其他相关领域也会有很大的应用空间。