收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

垃圾邮件过滤理论和关键技术研究

刘震  
【摘要】: 作为Internet的重大“灾难”之一,日益泛滥的垃圾邮件问题引起了人们的普遍关注。自上世纪80年代中期出现首封垃圾邮件以来,各种反垃圾邮件策略与技术也应运而生并得到了迅速发展,至今方兴未艾。然而,研究反垃圾邮件问题已经逐渐把研究者引入到了一个“不确定性花园”。由于对垃圾邮件的判别存在着主观和客观上的不确定性,造成了目前针对垃圾邮件的机器自动分类和过滤技术存在较大的性能瓶颈。经过多年的研究,有很多学者已经注意到利用不确定智能计算技术可以在一定程度上较好地处理实际工程应用中的某些不确定性推理问题,虽然相关研究尚不成熟,但正如很多研究者相信上帝并不是简单地通过掷骰子来创造人类一样,不确定性背后的某些奇妙的确定性规律正吸引着人们不懈地深入探索,并取得了阶段性的研究成果。本文认为不确定智能计算技术在某些层面上,同样可以有效处理垃圾邮件识别过程中存在的诸多主观和客观不确定性问题,因此研究不确定计算理论并应用相关理论改进现有邮件过滤算法和设计新的邮件过滤算法成为了本文的工作重点。不确定智能计算技术的引入,使研究反垃圾邮件问题成为了一件充满乐趣又富有挑战的工作。 本文在全面吸取和借鉴目前在不确定智能计算领域和反垃圾邮件领域取得的最新技术成果的基础上,从理论和应用两个层面,深入细致地研究了不确定智能计算理论和反垃圾邮件技术。取得了如下的主要研究成果,包括: 1、系统地分析了垃圾邮件问题的背景,指出研究反垃圾邮件技术的理论价值和现实意义。通过跟踪国内外反垃圾邮件技术的最新进展,较全面地归纳概括了现有反垃圾分类技术的发展状况,比较分析了各种方法的优点和不足。指出基于统计理论的不确定智能学习和分类方法是值得深入研究,并能够提高反垃圾邮件技术水平的重要理论手段。 2、深入地研究了Bayesian网络理论,提出了一些改进和创新的方法。(1)对于一般复杂网络,提出了一种基于全局消息传播的PPJT算法。新算法可以将推理计算的时间复杂度有效降低,同时能够在较小规模观察样本条件下,保证一般复杂贝叶斯网络推理的精度需求。(2)对于Polytree条件下的复杂Bayesian网络,考虑将推理算法扩展到多机模式,通过分析Polytree条件下的中大型贝叶斯网络的结构,定义新的适用于多处理机环境下的并行证据处理格式,并提出基于多处理机的并行推理算法,为提高Polytree条件下中大型贝叶斯网络的全局证据传播效率提供了一种并行解决方案。(3)研究了不完备证据条件下的参数学习问题,基于标准似然函数构建证据丢失的计算模型,利用χ2距离近似估计证据丢失导致的误差距离,推导出了包含学习率的EM算法。实验结果表明,新算法与传统处理算法相比,在不降低估计精度的前提下具有更快的收敛速度,能够较好地保证不完备证据条件下可信高效的Bayesian网络参数估计。 3、提出了一种包含核函数的Bayesian参数估计方法,提高了Bayesian参数估计的实用性。结合邮件内容和报文格式两个方面分析和提取邮件的重要特征,建立了对应的Bayesian邮件分类网络。将包含核函数的Bayesian参数估计方法应用到邮件分类网络,在对不同邮件测试集的在线学习试验结果证明,这种新的分类模型能够比较有效地实现垃圾邮件的分类过滤。 4、尝试采用拟合Logistic Regression模型对邮件分类问题建模,并在建模的过程中通过引入偏依赖系数函数模拟了邮件过滤中的偏依赖特性。在不同邮件样本集中的实验结果显示,新的邮件分类模型对垃圾邮件的误报误差和漏报误差具有良好的不对称区分性,因而从算法的层次上实现了具有偏依赖特征的邮件分类器。 5、为了规避目前反垃圾邮件技术在文本关联和内容理解方面所存在的诸多困难,提出从另一个角度研究垃圾邮件分类过滤问题,即从垃圾邮件发送者的行为模式角度出发研究邮件类别。通过从邮件发送者的行为紧密相关的邮件特征提取对应特征向量,并应用支持向量机的方法构建分类函数,提出一种基于行为特征的垃圾邮件模式分类模型。经过仿真实验我们发现采用这种全新的行为特征分类模型判定邮件的类别具有较精确的判定效果和较强的鲁棒性。 6、构建了一个位于邮件服务器前端的、多层次的垃圾邮件过滤系统—SpamWeeder。SpamWeeder系统集成了本文提出的基于多级属性集的Naive Bayes邮件分类,基于Bayesian网络的邮件分类,基于Logistic回归模型的邮件分类和基于行为特征的邮件分类等多种方法,各种方法之间相互协作、互相补充,形成一个比较准确、快速、高效、易管理和满足不同个性化要求的反垃圾邮件过滤系统。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨玲;孟传良;;基于启发式分析的木马检测技术研究[J];现代机械;2006年04期
2 杨忠明;武玉刚;秦勇;蔡昭权;;基于回报期望的入侵检测系统性能评估[J];计算机工程与科学;2011年05期
3 刘震;周明天;;基于有监督Bayesian网络的垃圾邮件过滤[J];计算机应用;2006年03期
4 王振飞;;行为识别防垃圾邮件技术[J];科技信息(科学教研);2007年14期
5 谢金晶;张艺濒;;基于贝叶斯公式的最小损失垃圾邮件过滤算法[J];现代电子技术;2006年24期
6 刘震,佘堃,周明天;基于多级属性集的垃圾邮件过滤技术[J];计算机应用研究;2005年07期
7 陈志贤;;垃圾邮件过滤技术研究综述[J];计算机应用研究;2009年05期
8 YATE;;怎样防范垃圾邮件[J];电脑校园;2001年09期
9 张岩;坐看云起时 CHIP每月评话[J];新电脑;2002年04期
10 沈建苗;多管齐下治“垃圾”[J];微电脑世界;2003年20期
11 ;如何终结垃圾邮件[J];每周电脑报;2003年16期
12 晓齐;启明星辰推出 天澄防垃圾邮件系统[J];信息网络安全;2004年08期
13 ;启明星辰公司天澄防垃圾邮件系统问世[J];电力信息化;2004年06期
14 刘震;周明天;;基于核方法的贝叶斯邮件分类网络研究[J];电子科技大学学报;2007年03期
15 ;垃圾邮件杀手[J];电脑知识与技术;2001年Z1期
16 王军;如何应对垃圾邮件[J];家庭电子;2001年01期
17 阿文;;恼人的垃圾邮件[J];大众科技;2001年05期
18 志杰;垃圾邮件大清除[J];计算机与农业;2002年03期
19 ;周律师话维权[J];电脑爱好者;2002年24期
20 熊伟;且以小人之心[J];新电脑;2003年09期
中国重要会议论文全文数据库 前10条
1 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
2 朱玲赞;马桂珍;;辐射监测中误报率和漏报率的讨论[A];全国第六届核仪器及其应用学术会议论文集[C];2007年
3 王景新;戴葵;王志英;;入侵检测系统的特征提取研究[A];第六届全国计算机应用联合学术会议论文集[C];2002年
4 何华锋;胡昌华;叶雪梅;;基于模型的鲁棒故障检测残差分析与评价[A];2005中国控制与决策学术年会论文集(上)[C];2005年
5 王雪章;;基于证据理论的消防安全评价[A];中国航海科技优秀论文集(2010)[C];2010年
6 李军;何晓宁;黄成哲;齐浩亮;雷国华;;基于特征贡献度的垃圾邮件过滤方法[A];第六届全国信息检索学术会议论文集[C];2010年
7 孙怀江;杨静宇;;证据理论的改进及其应用[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
8 李存华;孙志挥;陈耿;胡云;;核密度估计及其在聚类算法构造中的应用[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 李劲;岳昆;杭菲璐;;一种基于自适应Markov模型的中文垃圾邮件过滤方法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
10 马永一;沈怀荣;彭颖;;对D-S证据理论几种改进方法的分析与讨论[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 刘震;垃圾邮件过滤理论和关键技术研究[D];电子科技大学;2008年
2 陈彬;垃圾邮件的特征选择及检测方法研究[D];华南理工大学;2010年
3 梁伟光;基于证据理论的在轨航天器故障诊断方法研究[D];中国科学技术大学;2011年
4 杨建平;证据理论及其复杂系统可靠性分析方法与应用研究[D];电子科技大学;2012年
5 李海生;基于证据理论的分类方法研究[D];华南理工大学;2013年
6 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
7 肖建于;证据理论研究及其在矿井突水预测中的应用[D];中国矿业大学;2012年
8 孙锐;基于D-S证据理论的信息融合及在可靠性数据处理中的应用研究[D];电子科技大学;2012年
9 李俊林;可适应不良数据的数据分类若干方法研究[D];电子科技大学;2012年
10 肖文;基于证据理论的多属性决策关联问题研究[D];江西财经大学;2011年
中国硕士学位论文全文数据库 前10条
1 杨慧娟;基于语义体与模糊聚类的中文垃圾邮件过滤方法研究[D];兰州理工大学;2011年
2 郭学敏;基于语义的广告图像垃圾邮件过滤技术研究[D];燕山大学;2010年
3 毛岩;基于行为识别的垃圾邮件过滤技术的研究[D];大庆石油学院;2010年
4 孙吉谭;基于内容的垃圾邮件意图分析方法研究[D];吉林大学;2011年
5 张青;中文垃圾邮件过滤技术研究[D];武汉理工大学;2011年
6 宋文;图像垃圾邮件过滤技术的研究[D];淮北师范大学;2011年
7 杨兴华;基于多模态特征的垃圾邮件过滤技术研究[D];西安电子科技大学;2011年
8 赵海涛;基于模糊支持向量机的垃圾邮件过滤技术研究[D];重庆师范大学;2010年
9 任贤;电子邮件个性化过滤系统研究[D];长沙理工大学;2007年
10 刘菊新;垃圾图像过滤系统的实现[D];浙江大学;2010年
中国重要报纸全文数据库 前10条
1 侯海龙;McAfee 垃圾邮件的终结者[N];中国计算机报;2003年
2 边一;对付垃圾邮件的四种技术[N];网络世界;2003年
3 记者 李梅影;电子邮件立法对抗垃圾邮件泛滥[N];国际金融报;2004年
4 ;6个僵尸网络发出85%垃圾邮件[N];人民邮电;2008年
5 本报记者 余世琳;任金强:治理垃圾邮件要立法与自律并行[N];通信信息报;2003年
6 IT Boy;拿什么拯救你我们的电子邮件[N];中国电脑教育报;2004年
7 《周刊》记者 张旭东;中国反垃圾邮件要立法[N];中国计算机报;2004年
8 策划 孙定 林江艳 执笔 王翌;邮件灾祸[N];计算机世界;2004年
9 孟广业;从源头遏制垃圾邮件传播[N];人民邮电;2004年
10 朱杰;当垃圾邮件穿上“图片”马甲[N];中国计算机报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978