收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于内容的垃圾邮件过滤技术研究

孙晶涛  
【摘要】:随着Internet的迅速普及,垃圾邮件问题引起了社会广泛的关注。目前解决垃圾邮件问题有众多的途径和思路,其中基于内容的垃圾邮件过滤是一个较为重要的方法。 本文从国内垃圾邮件泛滥的现状出发,以中文垃圾邮件过滤的相关技术为研究方向,重点对潜在语义分析方法、“邮件指纹”生成策略、基于模糊支持向量机的邮件过滤方法、模糊聚类算法在邮件过滤中的应用方式以及基于博弈论的邮件特征选择对过滤性能所产生的影响进行了深入研究: 1为了解决潜在语义分析方法(LSA)在权重计算上因继承向量空间模型,而忽视自身特点,导致缺乏文档先验信息和文档全局信息植入,使得在实际应用中过分机械的问题,提出一种新的权重函数来改进原有权重的定义方式,使得基于主动学习的潜在语义分析方法能构造出更适合于实际应用的垃圾邮件过滤模型。并针对现阶段在拥有数万用户的大型局域网中,多数垃圾邮件采用动态改变主体或发件人地址,而其正文及附件内容却基本一致的群发方式在网内传播的现象,提出利用Message-Digest Algorithm 5(MD5)算法,在LSA分析的基础上,对群发型垃圾邮件生成“邮件指纹”,来解决传统过滤技术在处理群发型垃圾邮件中低效的问题,进一步提高了垃圾邮件识别的准确率。 2在模糊支持向量机(FSVM)分类方法的研究基础上,通过分析模糊支持向量机在中文垃圾邮件识别时误判样本的特性,提出一种将LSA方法与FSVM方法相结合的垃圾邮件过滤模型,并对FSVM方法中,隶属函数的确定还主要采用基于样本到类中心之间的距离来度量其隶属度大小,而忽略样本与类相融性的问题,依据中文邮件识别的特殊要求,在原有基于距离的隶属函数定义基础上,引入样本与类的融合程度来拓展隶属函数的定义形式,使FSVM方法更加符合中文垃圾邮件过滤这一特定应用需求。通过翔实的实验,验证了这种方法在垃圾邮件识别中的有效性。 3为解决在无太多可借鉴的先验知识情况下,对垃圾邮件进行高效、准确过滤的问题,文中采用在文本分类领域广泛应用的模糊聚类分析方法,对垃圾邮件进行无监督的识别。并通过对模糊聚类分析方法在处理大规模数据中所存在问题的分析,提出采用因子分析的方法,将邮件样本集合中的内容特性指标进行简化,在保留原始邮件内容的语义信息同时,简化信息的复杂性,增强后续模糊聚类分析的可操作性;通过在选定的邮件测试集上进行实验,利用DCAFEM对经过特性指标预处理后的邮件样本进行聚类,以计算各类中心点,并采用中心点对比的方法进行邮件的识别。也证实了该方法能够大大提高邮件过滤的精度和对未知垃圾邮件的识别能力。 4通过对基于内容的垃圾邮件过滤方法在特征选择方面所存在不足的分析,研究了如何在邮件特征空间中选择出对邮件分类最佳的特征采样点,从而减小邮件过滤方法在问题处理中的空间复杂度,以提高垃圾邮件识别的正确率。通过利用邮件样本自身在二分问题中的隶属度与特征点在邮件样本集中的权重,来定义特征采样点对邮件类别的区分程度,从而达到消除噪声特征点、提高邮件过滤性能的目的。采用博弈论建立邮件特征选择模型,选择出样本集中最佳特征子集,从而减少特征采样点的数量,使得被选出的特征点能够在较全面反映邮件内容信息的同时,也能提高垃圾邮件过滤方法的识别效率。通过在CCERT Data Sets of Chinese Emails(CDSCE)语料库上的实验表明,采用文中方法能够使邮件过滤性能得到显著提高。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 叶振宇,刘晶;基于模糊模式识别的中文邮件过滤探讨[J];计算机时代;2004年11期
2 李雯;刘培玉;;基于贝叶斯的垃圾邮件过滤算法的研究[J];计算机工程与应用;2007年23期
3 付爱英,徐鹰,段小荣;实时反垃圾邮件系统的应用[J];计算机与现代化;2003年09期
4 林祥,荆涛,李生红;前置式邮件过滤系统的设计与实现[J];计算机工程与应用;2005年02期
5 陆青梅;尹四清;;基于贝叶斯定理的垃圾邮件分类技术研究[J];信息技术;2008年02期
6 尹军,谭晓兰;校园网络中如何防范垃圾邮件[J];衡阳师范学院学报;2005年03期
7 王继克;;立体防御垃圾邮件的技术实战[J];教育信息化;2006年07期
8 肖丹燕;;论析垃圾邮件产生机理及防范技术[J];重庆教育学院学报;2006年06期
9 石艳荣;;反垃圾邮件技术[J];内蒙古石油化工;2006年01期
10 赵治国;谭敏生;李志敏;;基于改进贝叶斯的垃圾邮件过滤算法综述[J];南华大学学报(自然科学版);2006年01期
11 张启峰;;垃圾邮件的长尾现象分析及应用[J];通信技术;2010年05期
12 岳丽;冯新桓;唐宁九;;基于可追查性检查思想的垃圾邮件控制[J];电脑应用技术;2009年02期
13 石义;钱步仁;;基于内容与行为特征的反垃圾邮件系统[J];网络安全技术与应用;2009年04期
14 赵坤;马世军;;基于贝叶斯的垃圾邮件过滤技术[J];硅谷;2010年02期
15 南丽丽;;垃圾邮件过滤方法浅析[J];运城学院学报;2005年05期
16 刘震;佘堃;周明天;;基于Bayes参数估计的垃圾邮件过滤算法研究[J];计算机科学;2005年09期
17 肖仁礼;谢峰;孙文锐;;贝叶斯过滤在邮件安全网关中的应用[J];电脑学习;2008年02期
18 张天丹;;行为识别与反垃圾邮件技术研究[J];吉林省教育学院学报(学科版);2008年05期
19 王倩倩;段震;;基于神经网络的垃圾邮件过滤[J];合肥学院学报(自然科学版);2006年01期
20 夏成锋;;基于n-gram及SVM的中文垃圾邮件过滤[J];广东广播电视大学学报;2008年01期
中国重要会议论文全文数据库 前10条
1 李劲;岳昆;杭菲璐;;一种基于自适应Markov模型的中文垃圾邮件过滤方法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
2 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
3 李军;何晓宁;黄成哲;齐浩亮;雷国华;;基于特征贡献度的垃圾邮件过滤方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 薛亚楠;廖闻剑;彭艳兵;;垃圾邮件行为识别研究[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
5 张尼;方滨兴;;垃圾邮件过滤技术综述[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
6 赵利;廖闻剑;彭艳兵;;基于中文主题的垃圾邮件过滤方法研究[A];中国通信学会第六届学术年会论文集(上)[C];2009年
7 王振旗;刘静;;一种基于地址与内容过滤的垃圾电子邮件过滤器模型[A];2005中国控制与决策学术年会论文集(下)[C];2005年
8 张相於;陈继东;李玉坤;孟小峰;;TEXEM:一种基于实体的邮件任务提取策略[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
9 孙东红;陈光英;刘勇;段海新;;SpamAssassin中文规则研究及实践[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
10 李婧;张焕国;;应用于贝叶斯过滤器的噪音消除算法研究[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
2 邓蔚;垃圾邮件过滤中的敌手分类问题研究[D];电子科技大学;2011年
3 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
4 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
5 陈彬;垃圾邮件的特征选择及检测方法研究[D];华南理工大学;2010年
6 王会珍;文本内容分类和主题追踪关键技术研究[D];东北大学;2008年
7 王美珍;垃圾邮件行为模式识别与过滤方法研究[D];华中科技大学;2009年
8 董大凡;基于度量空间的P2P网络相似搜索技术研究及应用[D];南开大学;2010年
9 程红蓉;垃圾图像特征提取与选择研究[D];电子科技大学;2011年
10 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 杨大伟;基于Sendmail的电子邮件网关系统设计与实现[D];哈尔滨工程大学;2005年
2 徐卫;电子邮件预处理与过滤管理系统的研究与设计[D];苏州大学;2006年
3 肖明;基于SVM的智能邮件过滤系统研究与实现[D];电子科技大学;2005年
4 张青;中文垃圾邮件过滤技术研究[D];武汉理工大学;2011年
5 周俊怡;一种混合垃圾邮件过滤技术研究[D];电子科技大学;2009年
6 罗琴;一种垃圾邮件混合过滤技术研究[D];电子科技大学;2007年
7 杨慧娟;基于语义体与模糊聚类的中文垃圾邮件过滤方法研究[D];兰州理工大学;2011年
8 赵海涛;基于模糊支持向量机的垃圾邮件过滤技术研究[D];重庆师范大学;2010年
9 苏哲;基于Linux透明网桥的反垃圾邮件系统设计与实现[D];电子科技大学;2007年
10 毛岩;基于行为识别的垃圾邮件过滤技术的研究[D];大庆石油学院;2010年
中国重要报纸全文数据库 前10条
1 合 文;阻止垃圾邮件的蔓延[N];网络世界;2002年
2 于新俊;阻止垃圾邮件蔓延[N];中国计算机报;2002年
3 海南省海口市人民检察院 王琳;应对“信骚扰”[N];计算机世界;2003年
4 ;狙击垃圾邮件[N];中国电脑教育报;2004年
5 ;砍断垃圾邮件黑手[N];计算机世界;2003年
6 Linning;NIS 2004对垃圾邮件说NO[N];中国电脑教育报;2004年
7 ;常见垃圾邮件问题的解答[N];中国计算机报;2002年
8 曹;拒绝垃圾邮件[N];中国电脑教育报;2003年
9 ;阻击垃圾邮件[N];通信信息报;2001年
10 ;天融信: 高效应对四类攻击行为[N];计算机世界;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978