收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于内容的垃圾邮件检测特征降维算法研究

冯禹  
【摘要】:当今社会,电子邮件已经成为人们日常生活中通信和交流的重要方式之一但是垃圾邮件也伴随着互联网信息技术的发展而严重泛滥,带来诸多危害。基于内容的垃圾邮件检测是目前最主流的反垃圾邮件技术之一,在反垃圾邮件领域得到了广泛应用。 特征降维是基于内容的垃圾邮件检测中的一项关键技术。由于通常使用向量空间模型来表示邮件文本,特征向量空间通常呈现高维特性,引发“维数灾难”。因此,必须对原始高维特征空间进行降维处理。文本特征降维方法一般分为两类:特征提取和特征选择。特征选择算法因其实现简单,计算复杂度小,性能比较好等优点,被广泛应用在基于内容的垃圾邮件检测中。 常用的特征选择算法如信息增益(IG),卡方统计(CHI)等,均基于特征项之间相互独立的假设,只考虑了特征项与目标类别之间的关联度来构造评价函数,而忽略了实际情况下,不同特征项之间存在不同程度的关联,使得特征子集中存在了大量的冗余,因而分类性能不够理想。 文本采用互信息量(MI)来衡量特征项之间的冗余程度,提出了一种新型的特征选择算法OMFS (OCFS-mRMR Feature Selection)。实验证明,OMFS算法能够保持很高的计算效率,有效去除特征子集中的冗余,使垃圾邮件的分类性能得到很大的改善。 本文的主要工作和创新点主要有以下几点: (1)针对垃圾邮件特征空间冗余问题,从文本分类领域引入mRMR特征选择算法并对其进行改进,提出了一种新型的特征选择算法OMFS。 (2)基于(?)natlab平台,WEKA Java API和Eclipse开发环境,通过程序设计,构建了基于内容的垃圾邮件检测仿真实验系统。基于中英文五种不同的公共垃圾邮件语料库和三种分类算法,设计并实现了一系列垃圾邮件检测分类对比实验。 (3)采用分类精准度和CPU实时运算时间作为评价指标,并从有效性和计算效率两个方面对实验结果进行了科学、详细的分析,总结了实验规律,验证了OMFS特征选择算法能够有效去除特征项之间的冗余同时保持很高的计算效率,性能较传统算法得到显著改善。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陶卓彬,邓元庆;反垃圾邮件技术[J];信息网络安全;2003年09期
2 尹健慧;;反垃圾邮件技术分析及比较[J];科技信息(科学教研);2007年32期
3 YATE;;怎样防范垃圾邮件[J];电脑校园;2001年09期
4 张岩;坐看云起时 CHIP每月评话[J];新电脑;2002年04期
5 沈建苗;多管齐下治“垃圾”[J];微电脑世界;2003年20期
6 ;如何终结垃圾邮件[J];每周电脑报;2003年16期
7 晓齐;启明星辰推出 天澄防垃圾邮件系统[J];信息网络安全;2004年08期
8 ;启明星辰公司天澄防垃圾邮件系统问世[J];电力信息化;2004年06期
9 王军;如何应对垃圾邮件[J];家庭电子;2001年01期
10 阿文;;恼人的垃圾邮件[J];大众科技;2001年05期
11 志杰;垃圾邮件大清除[J];计算机与农业;2002年03期
12 ;周律师话维权[J];电脑爱好者;2002年24期
13 熊伟;且以小人之心[J];新电脑;2003年09期
14 Michael J.Miller;铲除垃圾邮件[J];个人电脑;2003年10期
15 李瑞江;浅谈反垃圾邮件技术的应用[J];新疆师范大学学报(自然科学版);2003年02期
16 ;祭起Sendmail番天印[J];微电脑世界;2003年07期
17 史兵;企业电子邮件系统的困境和对策[J];计算机安全;2004年05期
18 David H.Crocker,胡晓女;E-mail之父力促大国际组织联手“反垃圾”[J];当代通信;2004年09期
19 田青;个人用户如何对付垃圾邮件[J];电子世界;2004年07期
20 何绍华;运用贝叶斯方法过滤垃圾邮件[J];现代计算机;2004年05期
中国重要会议论文全文数据库 前10条
1 周立兵;柳景超;;贝叶斯理论在垃圾邮件过滤中的应用分析[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年
2 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
3 李军;何晓宁;黄成哲;齐浩亮;雷国华;;基于特征贡献度的垃圾邮件过滤方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 杜俊俐;王海龙;;基于内容的图像检索系统研究[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
5 孙芮英;王永海;;基于内容管理技术的博物馆网站管理和发布系统[A];数字博物馆研究与实践(2009)[C];2010年
6 李志宏;史元春;;Web上基于内容的病理图像检索的设计与展望[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
7 舒后;何薇;;基于内容的多媒体数据库检索技术[A];第一届全国数字媒体技术专业规范建设研讨会论文集[C];2010年
8 李劲;岳昆;杭菲璐;;一种基于自适应Markov模型的中文垃圾邮件过滤方法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
9 徐忠强;;电视新闻节目基于内容的视频检索技术及其实现[A];2009中国电影电视技术学会影视技术文集[C];2010年
10 冯松;欧阳鑫;朱志宁;;基于内容检测Symbian手机短信拦截设计与实现[A];第二十七届中国控制会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
2 陈彬;垃圾邮件的特征选择及检测方法研究[D];华南理工大学;2010年
3 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
4 张一飞;基于内容的医学图像检索关键技术研究[D];东北大学;2009年
5 刘宇翔;基于内容的音乐分析研究[D];清华大学;2011年
6 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
7 唐磊;基于内容和用户历史的音乐可视分析[D];山东大学;2012年
8 周良;基于内容的工程图档检索及其关键技术研究[D];南京航空航天大学;2008年
9 王文惠;基于内容的图像检索技术研究[D];国防科学技术大学;2001年
10 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 孙吉谭;基于内容的垃圾邮件意图分析方法研究[D];吉林大学;2011年
2 杨慧娟;基于语义体与模糊聚类的中文垃圾邮件过滤方法研究[D];兰州理工大学;2011年
3 毛岩;基于行为识别的垃圾邮件过滤技术的研究[D];大庆石油学院;2010年
4 郭学敏;基于语义的广告图像垃圾邮件过滤技术研究[D];燕山大学;2010年
5 张青;中文垃圾邮件过滤技术研究[D];武汉理工大学;2011年
6 宋文;图像垃圾邮件过滤技术的研究[D];淮北师范大学;2011年
7 杨兴华;基于多模态特征的垃圾邮件过滤技术研究[D];西安电子科技大学;2011年
8 赵海涛;基于模糊支持向量机的垃圾邮件过滤技术研究[D];重庆师范大学;2010年
9 刘菊新;垃圾图像过滤系统的实现[D];浙江大学;2010年
10 周璐;基于内容的垃圾邮件过滤系统的研究[D];吉林大学;2011年
中国重要报纸全文数据库 前10条
1 记者 李梅影;电子邮件立法对抗垃圾邮件泛滥[N];国际金融报;2004年
2 ;6个僵尸网络发出85%垃圾邮件[N];人民邮电;2008年
3 本报记者 余世琳;任金强:治理垃圾邮件要立法与自律并行[N];通信信息报;2003年
4 IT Boy;拿什么拯救你我们的电子邮件[N];中国电脑教育报;2004年
5 《周刊》记者 张旭东;中国反垃圾邮件要立法[N];中国计算机报;2004年
6 策划 孙定 林江艳 执笔 王翌;邮件灾祸[N];计算机世界;2004年
7 孟广业;从源头遏制垃圾邮件传播[N];人民邮电;2004年
8 朱杰;当垃圾邮件穿上“图片”马甲[N];中国计算机报;2007年
9 陈翔;垃圾邮件7月忙换招[N];中国计算机报;2007年
10 ;把握特征阻断垃圾邮件[N];中国计算机报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978