基于启发式规则和文本分类的信息过滤技术
【摘要】:
随着Internet使用的日益普遍,网络给人们带来了无比丰富的信息,但是,Internet也充斥着各种色情、反动或者是暴力的信息和各种互联网病毒,网络上存在的各种不良信息等越来越多的干扰着人们正常使用互联网。如何有效控制这些信息的传播,并保障网络的内容安全已经成为信息过滤研究的主要内容之一。互联网中出现的不良文本大多以文本的形式出现,因此不良文本过滤技术已经成为不良信息过滤领域中的主要研究方向了。
论文首先概述了信息过滤技术的基础知识:概念、分类、与其他信息处理技术的差别、常用的信息过滤模型。接着介绍了信息过滤系统中对文本的预处理过程,如:分词、特征选择等。然后介绍了Na(?)ve Bayes(NB)分类器、KNN(K NearestNeighbor)算法、SVM(support Vector Machine)等文本分类算法。
本文重点介绍了判别式Na(?)ve Bayes(NB)文本分类算法。这一部分首先介绍了贝叶斯文本分类算法中常用的两种模型,以及二分类朴素贝叶斯文本分类算法的实现过程;然后详细介绍了判别式贝叶斯分类算法的优点及其详细实现过程;最后将判别式Na(?)ve Bayes分类算法应用到文本信息过滤领域中,设定文本的类别为两类:健康文本和可疑文本,提出了判别式Na(?)ve Bayes文本分类算法。
文章最后提出了一种基于启发式规则和文本分类算法相结合的多级信息过滤模型。首先介绍了基于启发式规则的信息过滤模型,针对现在互联网上出现的不良信息的表现形式进行了规则库的设计和规则的设定。然后比较了基于规则的信息过滤和基于文本内容的信息过滤模型,结合二者的优缺点,本文提出了一种基于启发式规则和判别式Na(?)ve Bayes分类算法相结合的多级信息过滤模型(RDNB),具体的实现过程如下:首先用启发式规则来实现第一步的粗过滤,然后用判别式Na(?)ve Bayes文本分类器实现细过滤,最终判定文本的类别。实验结果表明,这种多级过滤模型取得了较好地准确率和F1测试值。