收藏本站
《哈尔滨工程大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于SVM的中文垃圾邮件过滤

于洪霞  
【摘要】:随着Internet的迅猛发展,电子邮件得到了越来越广泛的应用。电子邮件因其快捷、方便和成本低的特点给人们的生活带来很大的便利。然而垃圾邮件的泛滥也给人们的生活带来许多苦恼,因此如何有效地对垃圾邮件进行过滤成为一个迫在眉睫的问题。 随着文本分类技术的发展,基于内容的垃圾邮件过滤成为一种有效的垃圾邮件过滤方法。SVM在文本分类中得到了广泛的应用,并取得了很好的分类效果。本文研究基于内容的垃圾邮件过滤方法,主要针对垃圾邮件过滤中的特征选择方法进行深入研究,并将SVM应用到垃圾邮件过滤中。本文主要工作如下: (1)由于中文电子邮件的分词准确性直接影响到垃圾邮件过滤的精度,而电子邮件是通过网络传播,所以经常会出现很多新词,对这些新词的识别很大程度的影响到最后的分类结果。针对这种情况,本文在垃圾邮件过滤系统中采用基于字符串匹配和基于统计的分词方法。基于字符串匹配的方法能够识别机器词典存在的词,其速度快、精度高。而基于统计的分词方法则可以识别很多新词,把网络新流行的词通过计算识别出来。 (2)由于垃圾邮件过滤系统中的特征选择至关重要,合理的特征选择方法不但可以减少邮件的特征个数,提高计算的速度,而且可以消除冗余特征,提高垃圾邮件过滤算法的精度,因此本文对垃圾邮件过滤系统中的特征选择方法进行研究,提出一种改进的CHI特征选择方法和一种新的联合特征选择方法。实验结果表明,与传统的特征选择方法相比,本文提出的两种特征选择方法使垃圾邮件过滤的精度有了很大提高,这充分验证了本文方法的有效性。 (3)由于SVM在解决小样本、高维和非线性模式识别问题中有其特殊优势,因此本文在垃圾邮件过滤系统中采用SVM作为垃圾邮件过滤系统的分类器。另外,为了提高SVM的训练速度,本文在SVM的训练过程中采用LIBSVM快速算法。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP393.098

【引证文献】
中国硕士学位论文全文数据库 前2条
1 石珍生;跨平台赤潮藻显微图像分析库设计与实现[D];中国海洋大学;2012年
2 祝冰洋;粒子群优化的SVM垃圾邮件过滤研究[D];郑州大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 马建斌;李滢;滕桂法;王芳;赵洋;;KNN和SVM算法在中文文本自动分类技术上的比较研究[J];河北农业大学学报;2008年03期
2 陈超;陈盛雄;;一种基于SMO算法的垃圾邮件过滤系统设计[J];福建电脑;2007年03期
3 付祝财,杨莘元,王阳;电子邮件SMTP/POP3收发协议的研究与实现[J];信息技术;2004年08期
4 王维娜;康耀红;伍小芹;;文本分类中特征选择方法研究[J];信息技术;2008年12期
5 王涛;裘国永;何聚厚;张娇艳;;Naive Bayes邮件过滤模型的特征词选取方法研究[J];航空计算技术;2008年02期
6 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
7 孙涛;;MIME邮件格式分析及信息提取[J];计算机与信息技术;2007年06期
8 范婕婷;赖惠成;;一种基于SVM算法的垃圾邮件过滤方法[J];计算机工程与应用;2008年28期
9 孙晋文;肖建国;;基于SVM文本分类中的关键词学习研究[J];计算机科学;2006年11期
10 曹丽娟;王小明;;训练支持向量机的并行序列最小优化方法[J];计算机工程;2007年18期
中国硕士学位论文全文数据库 前1条
1 李春玲;文本挖掘在垃圾邮件过滤中的应用研究[D];中国人民大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 程卫华;尤晋元;;基于内容过滤的反垃圾邮件系统的设计与实现[J];安徽大学学报(自然科学版);2007年03期
2 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
3 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
4 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
5 钟尚平;林静;;一个基于TSVM的GIF图像通用隐写检测方法[J];北京交通大学学报;2009年02期
6 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
7 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
8 蔡华利;刘鲁;王理;;突发事件Web新闻多层次自动分类方法[J];北京工业大学学报;2011年06期
9 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
10 耿增民;刘万春;朱玉文;;受限领域的自动文摘方法研究[J];北京理工大学学报;2006年08期
中国重要会议论文全文数据库 前10条
1 ;Next-Day Electricity Price Forecasting Based on Support Vector Machines and Data Mining Technology[A];第二十七届中国控制会议论文集[C];2008年
2 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中国自动化学会控制理论专业委员会D卷[C];2011年
3 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
7 朱明华;张国栋;冯亿生;张富巨;李志远;;基于支持向量机模型的激光相变硬化性能预测研究[A];第七届全国表面工程学术会议暨第二届表面工程青年学术论坛论文集(一)[C];2008年
8 朱春江;陆宇旻;李陶深;杜衡斌;唐晟;;分布式网络监控系统中网页安全挖掘的研究[A];广西计算机学会2008年年会论文集[C];2008年
9 李毅;顾健;;反垃圾邮件产品检测技术研究及检测工具开发[A];第二十次全国计算机安全学术交流会论文集[C];2005年
10 张艳;李毅;顾健;;垃圾邮件与反垃圾邮件新技术追踪[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 杨宁;计算机辅助卷烟配方设计关键技术研究[D];中国海洋大学;2010年
3 任广波;基于半监督学习的遥感影像分类技术研究[D];中国海洋大学;2010年
4 赵玉凤;图像检索中自动标注技术的研究[D];北京交通大学;2009年
5 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
6 曹葵康;支持向量机加速方法及应用研究[D];浙江大学;2010年
7 刘运通;产品设计过程知识配送服务关键技术研究[D];浙江大学;2011年
8 王冬丽;基于可扩展的支持向量机分类算法及在信用评级中的应用[D];东华大学;2011年
9 韩晓明;基于符号有向图和支持向量机的故障诊断方法的研究[D];太原理工大学;2011年
10 钱鹏江;大规模数据集聚类方法研究及应用[D];江南大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘志强;基于数据挖掘的客户行为分析和预测研究[D];山东科技大学;2010年
2 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
3 刘维会;不平衡数据集上支持向量机算法研究[D];山东科技大学;2010年
4 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
5 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
6 张磊;基于支持向量机的反垃圾电话技术研究[D];哈尔滨工程大学;2010年
7 朱文龙;基于行为分析的垃圾邮件过滤技术研究[D];哈尔滨工程大学;2010年
8 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
9 蒋延生;基于图的适应性相似度估算的半监督学习[D];大连理工大学;2010年
10 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 邓文韬;王国胤;董振兴;;一种改进KNN个性化邮件过滤的方法[J];重庆邮电大学学报(自然科学版);2011年06期
2 周名江;朱明远;;“我国近海有害赤潮发生的生态学、海洋学机制及预测防治”研究进展[J];地球科学进展;2006年07期
3 汪振兴;佘焱;姜建国;;赤潮藻类图像自动识别的研究[J];海洋环境科学;2007年01期
4 王铌;于新生;唐颖;刘西锋;;图像自动识别技术在海洋浮游生物分析中的应用[J];海洋科学;2007年10期
5 高波;邵爱杰;;我国近海赤潮灾害发生特征、机理及防治对策研究[J];海洋预报;2011年02期
6 田泽;颜松远;徐敬东;;基于改进K近邻的垃圾邮件过滤技术[J];计算机工程与应用;2007年25期
7 张玉芳;陈小莉;熊忠阳;;基于信息增益的特征词权重调整算法研究[J];计算机工程与应用;2007年35期
8 邓春燕;陶多秀;吕跃进;;粗糙集与决策树在电子邮件分类与过滤中的应用[J];计算机工程与应用;2009年16期
9 王祖辉;姜维;;基于支持向量机的垃圾邮件过滤方法[J];计算机工程;2009年13期
10 杨凯峰;张毅坤;李燕;;基于文档频率的特征选择方法[J];计算机工程;2010年17期
中国博士学位论文全文数据库 前1条
1 李莉;计算机视觉系统若干关键问题研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 吕梁;有害赤潮数据采集与诊断系统的设计与实现[D];中国海洋大学;2010年
2 袁鹏;无角毛有害赤潮藻显微图像自动识别系统[D];中国海洋大学;2010年
3 赵丹;基于SVM分类机的DNA序列分类方法[D];南昌大学;2010年
4 陈孝礼;基于改进SVM的垃圾邮件过滤系统研究与实现[D];山东师范大学;2011年
5 周璐;基于内容的垃圾邮件过滤系统的研究[D];吉林大学;2011年
6 汪洵潇;基于OpenCV的视频监控数据管理系统的设计与实现[D];北京交通大学;2011年
7 张青;中文垃圾邮件过滤技术研究[D];武汉理工大学;2011年
8 吴想想;基于Android平台软件开发方法的研究与应用[D];北京邮电大学;2011年
9 罗少华;基于LAMP的高校成绩管理系统的设计与实现[D];复旦大学;2011年
10 尹力;基于OpenCV的计算机视觉三维重建方法研究[D];安徽大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 易军凯;颜婷婷;;垃圾邮件的改进贝叶斯过滤算法[J];北京化工大学学报(自然科学版);2008年06期
2 赵晓明,郑少仁;电子邮件过滤器的分析与设计[J];东南大学学报(自然科学版);2001年05期
3 张长君;电子邮件的一种过滤方法[J];计算机安全;2002年02期
4 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期
5 景丽萍,黄厚宽,石洪波;用于文本挖掘的特征选择方法TFIDF及其改进[J];广西师范大学学报(自然科学版);2003年01期
6 湛燕,陈昊,袁方,王丽娟;文本挖掘研究进展[J];河北大学学报(自然科学版);2003年02期
7 钱升华;武优西;柴欣;陈冀川;;文本分类综述及手机垃圾短信过滤方法的研究[J];河北工业大学学报;2007年01期
8 李凡,林爱武,陈国社;一种基于VSM文本分类系统的设计与实现[J];华中科技大学学报(自然科学版);2005年03期
9 落红卫,刘建毅,王枞,钟义信;智能邮件过滤系统的研究与实现[J];机电产品开发与创新;2003年01期
10 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国硕士学位论文全文数据库 前2条
1 苏力华;基于向量空间模型的文本分类技术研究[D];西安电子科技大学;2006年
2 潘文锋;基于内容的垃圾邮件过滤研究[D];中国科学院研究生院(计算技术研究所);2004年
【相似文献】
中国期刊全文数据库 前10条
1 赵文清;一种混合型垃圾邮件过滤系统的研究与设计[J];山西电子技术;2004年06期
2 陈长伟;刘罡;洪跃枫;;电子垃圾邮件过滤技术的应用[J];办公自动化;2004年06期
3 刘震,佘堃,周明天;基于多级属性集的垃圾邮件过滤技术[J];计算机应用研究;2005年07期
4 陈治平;王雷;;基于自学习K近邻的垃圾邮件过滤算法[J];计算机应用;2005年S1期
5 李星;田莹;段海新;;中文垃圾邮件过滤系统的实现和评估[J];大连理工大学学报;2005年S1期
6 刘红翼;;一种垃圾邮件过滤器的设计与实现[J];广西科学院学报;2005年04期
7 詹川;卢显良;周旭;侯孟书;袁连海;;基于贝叶斯公式的垃圾邮件过滤方法[J];计算机科学;2005年02期
8 张强;;基于阻断发送源的垃圾邮件过滤技术[J];网络安全技术与应用;2006年02期
9 胡永杰;卜红霞;;垃圾邮件过滤技术研究[J];河北师范大学学报;2006年02期
10 王倩倩;段震;;基于神经网络的垃圾邮件过滤[J];合肥学院学报(自然科学版);2006年01期
中国重要会议论文全文数据库 前10条
1 李军;何晓宁;黄成哲;齐浩亮;雷国华;;基于特征贡献度的垃圾邮件过滤方法[A];第六届全国信息检索学术会议论文集[C];2010年
2 潘文锋;王斌;谭松波;;贝叶斯垃圾邮件过滤研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
3 刘红翼;;一种垃圾邮件过滤器的设计与实现[A];广西计算机学会2005年学术年会论文集[C];2005年
4 张尼;方滨兴;;垃圾邮件过滤技术综述[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
5 张志斌;施水才;吕学强;;基于贝叶斯方法的中文垃圾邮件过滤技术综述[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 周立兵;柳景超;;贝叶斯理论在垃圾邮件过滤中的应用分析[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年
7 张海雷;王会珍;王安慧;朱靖波;;基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
8 米淑云;辛阳;罗群;;一种新型垃圾邮件过滤系统的设计和研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
9 岑芳明;王明文;王鹏鸣;戴玉娟;;基于核偏最小二乘分类的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 牛明珠;;病毒和垃圾邮件过滤技术浅析[A];二○○九年全国电力企业信息化大会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 ;“垃圾邮件过滤系统”几乎没有一个完善的[N];新华每日电讯;2003年
2 ;测试垃圾邮件过滤系统[N];网络世界;2003年
3 本报记者 高颖;清除网络“牛皮癣”胜算几何?[N];计算机世界;2003年
4 John D. Halamka;IT手段的两面性[N];计算机世界;2007年
5 ;不止是垃圾邮件过滤[N];网络世界;2005年
6 ;2003十大网络应用电子邮箱[N];中国电脑教育报;2003年
7 本报记者 李建平;Comdex走向专注[N];计算机世界;2003年
8 张颖;东西方交流不会被“垃圾”阻断[N];中国经营报;2002年
9 ;如何选择和使用UTM设备[N];网络世界;2009年
10 ;用户关心的问题:MSN 8值吗?[N];计算机世界;2002年
中国博士学位论文全文数据库 前5条
1 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
2 惠孛;基于即时分类的垃圾邮件过滤关键技术的研究[D];电子科技大学;2009年
3 邓蔚;垃圾邮件过滤中的敌手分类问题研究[D];电子科技大学;2011年
4 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
5 张泽明;人工免疫算法及其应用研究[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈俊伟;图片垃圾邮件过滤系统[D];华东师范大学;2009年
2 徐隽;基于流数据特性的垃圾邮件过滤技术研究[D];复旦大学;2009年
3 林伟;基于贝叶斯分类的垃圾邮件过滤系统研究与实现[D];西华大学;2009年
4 徐熙;基于内容的多级垃圾邮件过滤系统研究[D];西华大学;2009年
5 卢扬竹;基于内容的垃圾邮件过滤技术研究[D];西南交通大学;2009年
6 郑春光;基于免疫的垃圾邮件过滤技术研究[D];哈尔滨理工大学;2009年
7 欧德宁;垃圾邮件过滤技术研究[D];山东大学;2009年
8 王志波;基于数据挖掘的垃圾邮件过滤技术研究[D];陕西师范大学;2009年
9 王剑;惰性学习分类法在垃圾邮件过滤中的应用研究[D];上海师范大学;2009年
10 孙雪;基于内容的垃圾邮件过滤系统研究[D];河北大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026