基于SVM算法的web分类研究与实现
【摘要】:
随着全球互联网的普及,世界已经进入到一个高速信息化时代。在互联网上,web信息每天以几何级数增长,通过网络,人们可以很方便地浏览和共享巨大网络资源,然而与此同时网络上消极、不健康内容迅猛增长,影响国家安定团结,人们希望通过对网页进行内容识别和分类过滤,实现用户上网行为控制,营造和谐洁净的网络环境。随着文本分类研究及应用的逐步深入,Web分类成为数据挖掘一个重要的研究方向。本文主要研究Web分类算法,并对SVM算法进行了改进,应用在基于安全网络网关(SIG)和统一威胁管理(UTM)的电信项目中的URL过滤,具体内容有以下几个方面:
(1)对Web分类模型的研究。本文研究的Web分类是对HTML页面的数据挖掘,通过研究分析web数据挖掘的来源、页面预处理、常用分词算法、文本特征词的提取与训练以及分类器的训练,来从整体流程上把握Web分类的模型。
(2)研究包括决策树、K-最近邻、朴素贝叶斯的Web分类算法。介绍了决策树算法中较为典型的二叉树分类器的生成和修剪,同时研究基于概率论模型的朴实贝叶斯分类算法和数据挖掘领域中小样本分类应用较多的K-最近邻分类算法。
(3)重点研究基于统计学理论,适用于空间维度较高的支持向量机分类算法。考虑到Web分类涉及种类繁多,并且近些年SVM多分类算法已得到广泛验证,本文对SVM多分类算法进行了比较,对其增量学习算法进行了初步探讨。
(4)对于分类器的训练本文在强大统计理论支撑的SVM多分类器基础上不断修改核函数,得到最优分类器,由于实际分类过程中是增量学习的过程,而单一的SVM算法可能引起重分类或者空分类问题,所以我们对其进行改进,结合经典SVM分类算法和效率较高的KNN算法对URL进行分类过滤,实验证明,改进后SVM算法无论在查准率还是查全率上都有很大的提高,有效过滤了不健康URL,净化网络内容,实现“绿色上网”