基于语义体与模糊聚类的中文垃圾邮件过滤方法研究
【摘要】:目前,基于内容的垃圾邮件过滤方法主要采用统计分析法,此类方法对垃圾邮件内容所表达的思想缺乏精准的定量描述,研究垃圾邮件内容所表达思想的描述形式对垃圾邮件的准确识别有着十分重要的意义。邮件正文部分是一封邮件的主体,其内容是通过大量语义元(即词的语义)所形成的语义体反映出来的,所以在邮件过滤中研究语义体的信息是最权威、最有效的。因此,论文在句子相似度的基础上,利用《知网》在语义元分析中的优势,对邮件正文中包含的语义体进行分析,提出了一种语义体构建的方法及语义体间相似度的计算方法。
由于自然语言的复杂性,以及在描述和理解方面具有高度的不确定性和模糊性,因而基于内容的邮件过滤的识别带有一定的模糊性,对这些具有模糊性的模式借助于模糊理论来刻画显得很自然,论文采用模糊聚类方法来解决,并将语义体与此进行结合,提出了一种基于语义体的模糊聚类方法。该方法与传统方法的不同之处在于在分类时将语义体作为分类对象,将语义体之间的相似度作为构建模糊相似矩阵的相关系数,此方式大大降低了模糊聚类方法在处理文本分类问题时的维度。
最后,将基于语义体的模糊聚类方法应用到垃圾邮件过滤中。经仿真实验证明:论文所提方法与传统的邮件过滤方法相比,在对邮件内容的判断中更具客观性,对内容表意不明的垃圾邮件,其方法在邮件识别的召回率方面体现了较大的优势。