垃圾邮件过滤系统的研究与实现
【摘要】:随着电子邮件的广泛应用,垃圾邮件作为商业广告、恶意程序或敏感内容的载体,也越来越对系统的安全和人们的生活造成了严重的威胁,反垃圾邮件问题已经成为全球性的具有重要现实意义的课题。
邮件过滤技术是反垃圾邮件的重要手段,目前对垃圾邮件的过滤主要有基于内容、基于IP地址和基于信头、信封等方法,这些方法对垃圾邮件的过滤起到了一定作用。但是由于信体是垃圾邮件的最终载体,而仅依据IP地址、信头、信封中的特征容易造成错误判断。
本文提出了一种基于服务器端的垃圾邮件过滤系统,它采用改进的Bayes算法,将反映垃圾邮件的特征综合在一起统称为“属性”,用这些“属性”构成表示邮件特征的向量空间模型中的特征向量,避免了单纯基于IP、信头、信封过滤的规则性太强的缺点,降低将正常邮件判断为垃圾邮件的风险。
为了提高系统性能,本文研究了垃圾邮件过滤系统所需的各种技术,包括中文分词技术、中文分词词典机制、自动文本分类技术等。通过对各种分词技术进行比较分析,本系统采用向左增字最小匹配与向右减字最大匹配算法相结合进行分词,并采用互信息方法消除歧义,提高分词精度;针对现有的词典机制,提出一种改进的基于PATRICIA tree的汉语自动分词词典机制,提高了查找的速度,并降低空间复杂度和创建维护的难度;比较了各种特征提取函数,采用期望交叉熵进行特征提取,为提高分类精度打好基础;分析了两种对朴素Bayes算法进行改进的方法,指出这两种方法的实质是相同的,采用改进的Bayes算法,降低误判的风险。
【关键词】:电子邮件 垃圾邮件 邮件过滤 【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP393.098
【DOI】:CNKI:CDMD:2.2005.032833
【目录】:
- 摘要5-6
- Abstract6-7
- 第一章 绪论7-12
- 1.1 研究背景7-8
- 1.2 研究现状8-11
- 1.2.1 基于IP地址的过滤技术9
- 1.2.2 基于信头和信封的过滤技术9-10
- 1.2.3 基于内容的过滤技术10
- 1.2.4 基于服务器的过滤技术10
- 1.2.5 基于客户端的过滤技术10-11
- 1.3 本课题的提出11
- 1.4 论文结构11-12
- 第二章 理论基础12-36
- 2.1 Email简介12-15
- 2.1.1 Email发展历史12-13
- 2.1.2 电子邮件工作原理13-15
- 2.2 几个重要协议和编码标准15-23
- 2.2.1 TCP/IP15-17
- 2.2.2 SMTP17-19
- 2.2.3 POP/IMAP19-21
- 2.2.4 电子邮件的三种编码标准21-23
- 2.3 自动分词词典机制23-26
- 2.3.1 基于Hash机制的分词词典机制23-26
- 2.3.2 基于PATRICIA树的词典机制26
- 2.4 自动分词技术26-31
- 2.4.1 自动分词方法分类27-29
- 2.4.2 分词中的两大难题29-31
- 2.5 自动文本分类技术31-36
- 2.5.1 文本分类中的特征值提取31-34
- 2.5.2 贝叶斯分类法34-35
- 2.5.4 文本分类质量评定35-36
- 第三章 系统设计36-44
- 3.1 设计目标36
- 3.2 系统流程36-38
- 3.3 系统总体框架38-39
- 3.4 模块设计39-44
- 3.4.1 协议代理模块39-40
- 3.4.2 预处理模块40-41
- 3.4.3 过滤模块41-42
- 3.4.4 数据模块42
- 3.4.5 主控模块42-44
- 第四章 系统实现44-62
- 4.1 预处理模块实现44-55
- 4.1.1 基于PATRICIA tree的分词词典机制44-49
- 4.1.2 分词的实现49-53
- 4.1.3 构造特征向量53-55
- 4.2 过滤模块实现55-58
- 4.2.1 Bayes算法在垃圾邮件过滤系统中的应用55-56
- 4.2.2 Bayes算法的不足与改进56-58
- 4.3 系统应用58-60
- 4.3.1 训练模式58-59
- 4.3.2 应用模式59-60
- 4.4 试验结果及分析60-62
- 第五章 总结62-64
- 参考文献64-68
- 致谢68
全文下载:
CAJ格式
不支持迅雷等加速下载工具,请取消加速工具后下载
|
|
|
|
| 1 |
赵曾贻,陈天娥,朱兰;一种基于语词的分词方法[J];苏州大学学报(自然科学版);2002年03期 |
| 2 |
蔡立军,施荣华;一种新的电子邮件过滤系统模型的设计[J];计算机工程;2003年16期 |
| 3 |
吴光远,何丕廉,曹桂宏,聂颂;基于向量空间模型的词共现研究及其在文本分类中的应用[J];计算机应用;2003年S1期 |
| 4 |
杨文峰,陈光英,李星;基于PATRICIA tree的汉语自动分词词典机制[J];中文信息学报;2001年03期 |
| 5 |
韩客松,王永成,陈桂林;无词典高频字串快速提取和统计算法研究[J];中文信息学报;2001年02期 |
| 6 |
李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期 |
| 7 |
孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期 |
| 8 |
秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期 |
| 9 |
王科,高常波,翟雪峰,罗万伯;汉语分词的主要技术及其应用展望[J];通信技术;2003年06期 |
| 10 |
谭琼,史忠植;分词中的歧义处理[J];计算机工程与应用;2002年11期 |
|
|
|
|
|
| 1 |
黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期 |
| 2 |
王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期 |
| 3 |
陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期 |
| 4 |
吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期 |
| 5 |
殷建平;汉语自动分词方法[J];计算机工程与科学;1998年03期 |
| 6 |
陈浪舟,黄泰翼;一种新颖的词聚类算法和可变长统计语言模型[J];计算机学报;1999年09期 |
| 7 |
揭春雨
,刘源
,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期 |
| 8 |
梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期 |
| 9 |
何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期 |
| 10 |
沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法[J];中文信息学报;1997年02期 |
|