期刊库|学位论文库|会议论文库|飞度BOOK|站内搜索注册|充值中心|购买知网卡|送卡上门|帮助中心|
全文文献: “飞度BOOK”首届期刊庙会开幕啦!
做个飞度客,万千杂志,想看就看!
《浙江大学》 2005年
加入收藏 获取最新

垃圾邮件过滤系统的研究与实现

马哲  
【摘要】:随着电子邮件的广泛应用,垃圾邮件作为商业广告、恶意程序或敏感内容的载体,也越来越对系统的安全和人们的生活造成了严重的威胁,反垃圾邮件问题已经成为全球性的具有重要现实意义的课题。 邮件过滤技术是反垃圾邮件的重要手段,目前对垃圾邮件的过滤主要有基于内容、基于IP地址和基于信头、信封等方法,这些方法对垃圾邮件的过滤起到了一定作用。但是由于信体是垃圾邮件的最终载体,而仅依据IP地址、信头、信封中的特征容易造成错误判断。 本文提出了一种基于服务器端的垃圾邮件过滤系统,它采用改进的Bayes算法,将反映垃圾邮件的特征综合在一起统称为“属性”,用这些“属性”构成表示邮件特征的向量空间模型中的特征向量,避免了单纯基于IP、信头、信封过滤的规则性太强的缺点,降低将正常邮件判断为垃圾邮件的风险。 为了提高系统性能,本文研究了垃圾邮件过滤系统所需的各种技术,包括中文分词技术、中文分词词典机制、自动文本分类技术等。通过对各种分词技术进行比较分析,本系统采用向左增字最小匹配与向右减字最大匹配算法相结合进行分词,并采用互信息方法消除歧义,提高分词精度;针对现有的词典机制,提出一种改进的基于PATRICIA tree的汉语自动分词词典机制,提高了查找的速度,并降低空间复杂度和创建维护的难度;比较了各种特征提取函数,采用期望交叉熵进行特征提取,为提高分类精度打好基础;分析了两种对朴素Bayes算法进行改进的方法,指出这两种方法的实质是相同的,采用改进的Bayes算法,降低误判的风险。
【关键词】:电子邮件 垃圾邮件 邮件过滤
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP393.098
【DOI】:CNKI:CDMD:2.2005.032833
【目录】:
  • 摘要5-6
  • Abstract6-7
  • 第一章 绪论7-12
  • 1.1 研究背景7-8
  • 1.2 研究现状8-11
  • 1.2.1 基于IP地址的过滤技术9
  • 1.2.2 基于信头和信封的过滤技术9-10
  • 1.2.3 基于内容的过滤技术10
  • 1.2.4 基于服务器的过滤技术10
  • 1.2.5 基于客户端的过滤技术10-11
  • 1.3 本课题的提出11
  • 1.4 论文结构11-12
  • 第二章 理论基础12-36
  • 2.1 Email简介12-15
  • 2.1.1 Email发展历史12-13
  • 2.1.2 电子邮件工作原理13-15
  • 2.2 几个重要协议和编码标准15-23
  • 2.2.1 TCP/IP15-17
  • 2.2.2 SMTP17-19
  • 2.2.3 POP/IMAP19-21
  • 2.2.4 电子邮件的三种编码标准21-23
  • 2.3 自动分词词典机制23-26
  • 2.3.1 基于Hash机制的分词词典机制23-26
  • 2.3.2 基于PATRICIA树的词典机制26
  • 2.4 自动分词技术26-31
  • 2.4.1 自动分词方法分类27-29
  • 2.4.2 分词中的两大难题29-31
  • 2.5 自动文本分类技术31-36
  • 2.5.1 文本分类中的特征值提取31-34
  • 2.5.2 贝叶斯分类法34-35
  • 2.5.4 文本分类质量评定35-36
  • 第三章 系统设计36-44
  • 3.1 设计目标36
  • 3.2 系统流程36-38
  • 3.3 系统总体框架38-39
  • 3.4 模块设计39-44
  • 3.4.1 协议代理模块39-40
  • 3.4.2 预处理模块40-41
  • 3.4.3 过滤模块41-42
  • 3.4.4 数据模块42
  • 3.4.5 主控模块42-44
  • 第四章 系统实现44-62
  • 4.1 预处理模块实现44-55
  • 4.1.1 基于PATRICIA tree的分词词典机制44-49
  • 4.1.2 分词的实现49-53
  • 4.1.3 构造特征向量53-55
  • 4.2 过滤模块实现55-58
  • 4.2.1 Bayes算法在垃圾邮件过滤系统中的应用55-56
  • 4.2.2 Bayes算法的不足与改进56-58
  • 4.3 系统应用58-60
  • 4.3.1 训练模式58-59
  • 4.3.2 应用模式59-60
  • 4.4 试验结果及分析60-62
  • 第五章 总结62-64
  • 参考文献64-68
  • 致谢68
全文下载: CAJ格式
不支持迅雷等加速下载工具,请取消加速工具后下载
CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式

【引证文献】
中国期刊全文数据库 前1条
1 程卫华;尤晋元;;基于内容过滤的反垃圾邮件系统的设计与实现[J];安徽大学学报(自然科学版);2007年03期
中国硕士学位论文全文数据库 前3条
1 黄国玉;基于神经网络的邮件分类识别研究[D];长安大学;2006年
2 程卫华;基于内容过滤的反垃圾邮件系统的设计与实现[D];上海交通大学;2007年
3 张丽;基于Winnow算法的反垃圾邮件引擎的设计与实现[D];东南大学;2006年
【参考文献】
中国期刊全文数据库 前10条
1 赵曾贻,陈天娥,朱兰;一种基于语词的分词方法[J];苏州大学学报(自然科学版);2002年03期
2 蔡立军,施荣华;一种新的电子邮件过滤系统模型的设计[J];计算机工程;2003年16期
3 吴光远,何丕廉,曹桂宏,聂颂;基于向量空间模型的词共现研究及其在文本分类中的应用[J];计算机应用;2003年S1期
4 杨文峰,陈光英,李星;基于PATRICIA tree的汉语自动分词词典机制[J];中文信息学报;2001年03期
5 韩客松,王永成,陈桂林;无词典高频字串快速提取和统计算法研究[J];中文信息学报;2001年02期
6 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期
7 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期
8 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
9 王科,高常波,翟雪峰,罗万伯;汉语分词的主要技术及其应用展望[J];通信技术;2003年06期
10 谭琼,史忠植;分词中的歧义处理[J];计算机工程与应用;2002年11期
【共引文献】
中国期刊全文数据库 前10条
1 余炳惠,王克刚;排序算法的选择及一些改进[J];安康师专学报;2004年04期
2 覃遵跃;在左边是单属性的函数依赖集中寻找关系模式候选码的算法[J];安庆师范学院学报(自然科学版);2003年02期
3 赵成龙,薛欣;基于WEB的智能答疑系统的设计与实现[J];安阳师范学院学报;2004年02期
4 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
5 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
6 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
7 彭飞,柳重堪,张其善;车辆定位与导航系统中的快速路径规划算法[J];北京航空航天大学学报;2002年01期
8 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
9 张发平;孙厚芳;焦黎;;面向CAPP的装夹规程模型与算法研究[J];北京理工大学学报;2006年12期
10 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
中国重要会议论文全文数据库 前10条
1 隋岩;张普;;基于动态流通语料库的“动态词典”编纂[A];中国辞书论集2000[C];2000年
2 杨峰;纪凯;陈涛焘;韩栋;;一种公交最佳路径选择方法[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
3 刘金朋;魏长江;;启发式算法求最短路径的一种高效率实现方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
4 何浩;杨义先;;一种基于大容量短消息存储的用户识别模块的时间管理方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
5 赵熙;杨义先;钮心忻;;一种基于智能卡的大容量号簿的数据管理方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
6 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
8 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
9 林和平;周颜军;李永旭;;线索二叉树[A];2005全国计算机程序设计类课程教学研讨会论文集[C];2005年
10 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 董建华;面向大规模定制生产模式的产品设计技术研究[D];大连理工大学;2000年
2 张习文;基于单义域邻接图的扫描工程图样自组织智能识别理论与技术研究[D];大连理工大学;2000年
3 张建华;选择性激光烧结技术应用研究[D];南京航空航天大学;2001年
4 吴安德;数控喷射电铸技术研究[D];南京航空航天大学;2002年
5 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
6 廖瑞金;变压器绝缘故障诊断黑板型专家系统和基于遗传算法的故障预测研究[D];重庆大学;2003年
7 李方义;机电产品绿色设计若干关键技术的研究[D];清华大学;2002年
8 张庆年;公共交通车辆调度决策系统现代非线性数学方法的研究[D];武汉理工大学;2003年
9 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
10 倪景峰;矿井通风仿真系统可视化研究[D];辽宁工程技术大学;2004年
中国硕士学位论文全文数据库 前10条
1 高亚波;文本分类系统的设计与实现[D];北京交通大学;2008年
2 蔡灿民;基于词典的智能分词系统的研究与实现[D];昆明理工大学;2008年
3 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年
4 吴雪敏;汉语语句的计算机分析[D];电子科技大学;2001年
5 陈永兵;遗传算法及其在结构工程优化中的应用研究[D];西北工业大学;2001年
6 王静;产品层析图像的轮廓匹配技术研究[D];西北工业大学;2001年
7 李鹏涛;逆向工程中基于DMIS的自动测量关键技术研究与实现[D];西北工业大学;2001年
8 刘文莉;结构试验载荷设计自动化方法研究[D];西北工业大学;2001年
9 景韶宇;面向并行工程的网络协同设计系统的研究[D];西北工业大学;2001年
10 吴思;聚类分析及其在农业物种信息自动提取中的应用[D];湘潭大学;2001年
【同被引文献】
中国期刊全文数据库 前10条
1 赵英男,张秉权;MIME邮件结构格式分析[J];兵工自动化;2001年02期
2 刘明川,彭长生;基于贝叶斯概率模型的邮件过滤算法探讨[J];重庆邮电学院学报(自然科学版);2005年05期
3 余战秋;中文分词技术及其应用初探[J];电脑知识与技术;2004年32期
4 胡金滨,唐旭清;人工神经网络的BP算法及其应用[J];信息技术;2004年04期
5 孙国菊,张杰;中文文本分类的特征选取评价[J];哈尔滨理工大学学报;2005年01期
6 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
7 刘雄;基于QMAIL-LDAP的反垃圾邮件系统[J];计算机工程与应用;2005年10期
8 王宁;张建忠;何云;申庆永;徐敬东;;基于改进贝叶斯模型的中文邮件分类算法[J];计算机工程与应用;2006年31期
9 蔡立军,施荣华;一种新的电子邮件过滤系统模型的设计[J];计算机工程;2003年16期
10 张羿;周建国;晏蒲柳;;垃圾邮件过滤系统的研究与实现[J];计算机工程;2006年18期
中国硕士学位论文全文数据库 前6条
1 姚松源;文本自动分类系统的研究与实现[D];北京工业大学;2003年
2 李洋;基于数据挖掘的邮件分类识别研究[D];重庆大学;2004年
3 李扬继;垃圾邮件特征的判别模型研究[D];四川大学;2005年
4 王金森;文本分类算法在垃圾邮件过滤中的研究与应用[D];吉林大学;2006年
5 庞剑锋;基于向量空间模型的自反馈的文本分类系统的研究与实现[D];中国科学院研究生院(计算技术研究所);2001年
6 孙艳华;垃圾邮件过滤技术的研究[D];大连海事大学;2007年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 张鹏鹏;基于ARTMAP神经网络的垃圾邮件过滤研究[D];西南大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
2 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
3 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
4 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
5 殷建平;汉语自动分词方法[J];计算机工程与科学;1998年03期
6 陈浪舟,黄泰翼;一种新颖的词聚类算法和可变长统计语言模型[J];计算机学报;1999年09期
7 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
8 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
9 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
10 沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法[J];中文信息学报;1997年02期
【相似文献】
中国期刊全文数据库 前10条
1 方积乾,杨周南;多母体离散型序贯判别树及其应用[J];数值计算与计算机应用;1980年01期
2 L.Kanal ,陈祖荫;模式辨认工作综述:1968—1974(上)[J];机器人;1980年05期
3 何国伟;评估电子产品平均寿命的一种变动统计方法[J];电子学报;1981年03期
4 牛存义;决策分析引论(讲座)——据哈佛大学何毓琦(Y.C.Ho)教授的讲稿整理[J];信息与控制;1982年04期
5 周源泉;确定电子产品MTBF增长的Bayes方法[J];电子学报;1983年02期
6 周源泉;估计逐次提高试制产品精度的Bayes方法[J];电子学报;1984年04期
7 王欣;叠加白噪声图象的“双向Kalman滤波”[J];电子学报;1985年01期
8 邬小青,成瑜;改进最近邻算法及其在雷达目标识别中的应用[J];航空学报;1986年04期
9 沈世镒;关于保密系统中Bayes对手的若干注记[J];通信学报;1986年03期
10 周源泉;正态可靠寿命的Bayes限、Fiducial限及经典限[J];电子学报;1986年02期
中国重要会议论文全文数据库 前10条
1 柳金甫;桂文豪;;射表中的小予样理论研究[A];中国现场统计研究会第九届学术年会论文集[C];1999年
2 郭朝良;徐耀华;姚德源;;用Bayes法对导弹武器系统总体可靠性的评价[A];第二届全国人—机—环境系统工程学术会议论文集[C];1995年
3 ;THE AFFECTING ANALYSIS OF APPRAISAL MODEL TO APPRAISAL RELIABILITY[A];Systems Science and Systems Engineering--Proceedings of the Second International Conference on Systems Science and Systems Engineering(ICSSSE'93)[C];1993年
4 韩明;;人的可靠性研究进展及Bayes方法的应用[A];第一届全国人—机—环境系统工程学术会议论文集[C];1993年
5 ;DIFFUSION OF INNOVATIONS AND CONTROL OF ADVERTISING[A];Systems Science and Systems Engineering--Proceedings of the Second International Conference on Systems Science and Systems Engineering(ICSSSE'93)[C];1993年
6 刘伟;周月梅;;贝叶斯决策中后验概率的分析[A];管理科学与系统科学进展——全国青年管理科学与系统科学论文集(第4卷)[C];1997年
7 Bong-SeokKang;Chul-HeeHan;Sang-TaeLee;Dae-HeeYoun;ChungyongLee;;SPEAKER DEPENDENT EMOTION RECOGNITION USING SPEECH SIGNALS[A];The Proceedings of the 6~(th) International Conference on Spoken Language Processing (Volume Ⅱ)[C];2000年
8 ToddA.Stephenson;HervéBourlard;SamyBengio;AndrewC.Morris;;AUTOMATIC SPEECH RECOGNITION USING DYNAMIC BAYESIAN NETWORKS WITH BOTH ACOUSTIC AND ARTICULATORY VARIABLES[A];The Proceedings of the 6~(th) International Conference on Spoken Language Processing (Volume Ⅱ)[C];2000年
9 MarcoLoog;ReinholdHaeb-Umbach;;MULTI-CLASS LINEAR DIMENSION REDUCTION BY GENERALIZED FISHER CRITERIA[A];The Proceedings of the 6~(th) International Conference on Spoken Language Processing (Volume Ⅱ)[C];2000年
10 George Saon;Mukund Padmanabhan;;MINIMUM BAYES ERROR FEATURE SELECTION[A];The Proceedings of the 6~(th) International Conference on Spoken Language Processing (Volume Ⅲ)[C];2000年
中国重要报纸全文数据库 前10条
1 周江文;有特色的测量误差理论研究[N];光明日报;2000年
2 美国明尼苏达州罗切斯特市Mayo医院心血管病科,等 树根译;妊娠相关血浆蛋白A可用作急性冠脉综合征的标志物[N];中国医学论坛报;2001年
3 实习生 严婷;微软再次起诉垃圾邮件制造者[N];国际金融报;2004年
4 本报记者 马文方;信息安全应贯穿软件生命周期[N];中国计算机报;2004年
5 本报记者 李刚;曝光垃圾邮件“黑”源头[N];中国计算机报;2004年
6 中国反垃圾邮件联盟 王兴宇;伪造发信人身份 不可行[N];中国计算机报;2004年
7 山枫;赛门铁克Gateway Security 5400系列集成防火墙、IDS/IDP、病毒防护、内容过滤、反垃圾邮件、VPN技术[N];中国计算机报;2004年
8 高岚;反垃圾邮件是一项事业[N];中国计算机报;2004年
9 ;全面防护混合威胁[N];中国计算机报;2004年
10 文/王翌;E-mail需要几个马甲?[N];计算机世界;2004年
中国博士学位论文全文数据库 前9条
1 张荣涛;复杂装备远程智能监测、诊断与维护系统研究[D];南京理工大学;2002年
2 岳博;Bayes网络模型及其学习算法研究[D];西安电子科技大学;2002年
3 郭金运;由星载GPS数据进行CHAMP卫星定轨和地球重力场模型解算[D];山东科技大学;2004年
4 Nyongesa L.Kennedy;[D];四川大学;2004年
5 汪荣贵;Bayes网络理论及其在目标检测中应用研究[D];合肥工业大学;2004年
6 刘琦;液体火箭发动机可靠性增长试验评定方法研究[D];国防科学技术大学;2003年
7 张湘平;小子样统计推断与融合理论在武器系统评估中的应用研究[D];国防科学技术大学;2003年
8 王华伟;液体火箭发动机可靠性增长管理研究[D];国防科学技术大学;2003年
9 陈伟;通信网内容安全集成系统研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前10条
1 康会光;经验Bayes统计分析及其应用的研究[D];西北工业大学;2001年
2 谢莉萍;仿真结果用于试验鉴定的理论与方法研究[D];国防科学技术大学;2002年
3 程正东;线性回归模型中的一类有偏估计[D];安徽大学;2002年
4 翟艳敏;威布尔分布场合的贝叶斯统计推断[D];西南交通大学;2002年
5 王晓华;引信决策异常值处理算法研究[D];西南交通大学;2003年
6 周威成;信息过滤方法的研究与应用[D];华北电力大学(北京);2003年
7 樊建聪;使用贝叶斯方法的数据挖掘及应用研究[D];山东科技大学;2003年
8 刘于;基于MEMS的微型电磁极化继电器设计[D];电子科技大学;2003年
9 许伟河;多次判别法[D];福州大学;2003年
10 李建峰;Poisson分布参数的区间估计分析[D];安徽大学;2003年
关于知网|版权声明|学术会议服务|广告服务|在线咨询
京ICP证040431号互联网出版许可证新出网证(京)字008号北京市公安局海淀分局备案号:110 1081725
订购咨询热线:800-810-6613、010-62985026免费送卡上门
主办:清华大学
数字出版:中国学术期刊电子杂志社
在线发行:同方知网(北京)技术有限公司
关 闭
关 闭
关 闭