收藏本站
《山西财经大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于SVM的中文垃圾邮件的识别研究

乔素娟  
【摘要】: 随着Internet的迅猛发展,电子邮件作为一种主要的交流方式已得到了广泛应用。但是,许多商业广告、宣传广告、恶作剧等垃圾邮件也在网络中传送,这些垃圾邮件占据了邮件服务器的大量存储空间,同时也需要用户花费大量时间处理,不仅降低了企业的应用效率,也损害了广大用户的合法权益。因此,如何对中文邮件进行处理,识别出垃圾邮件是用户关心的一大问题。目前某些研究中已采用一些技术进行垃圾邮件的特征提取与识别,但这些技术都存在一定的不足,且在中文垃圾邮件的识别上仍存在问题。因此,研究一种有效的方法用于中文垃圾邮件的识别具有十分重要的意义。 数据挖掘中的支持向量机分类方法是一种基于统计学习理论的机器学习方法,该方法在解决有限样本、非线性及高维模式识别问题中表现出许多特有的性能。另外,支持向量机在文本分类领域方面的研究已取得令人满意的效果。 针对目前中文垃圾邮件识别技术的不足,本文在支持向量机分类算法的启发下,深入研究了中文垃圾邮件的序列极小化特征提取算法,提出了应用该算法进行中文垃圾邮件识别的过程,该过程分为三个阶段:(1)利用改进的正向最大匹配法对中文邮件文本进行分词;(2)运用向量空间模型把分词后的文本转化为向量形式;(3)采用序列极小化特征提取算法对中文垃圾邮件进行识别。另外,本文还对当前比较通用的各种支持向量机训练算法进行了分析研究,比较了各种算法的优劣,尤其深入研究了序列最小最优化算法,并运用特征提取的序列极小化算法对中文邮件文本进行特征提取。 本文通过对中文垃圾邮件自身特点分析,针对其特征维数高的特点,运用支持向量机中的特征提取序列极小化算法对中文垃圾邮件进行特征识别,挖掘出能够识别中文垃圾邮件的特征。同时,对有限的模拟测试样本集进行了测试,取得了比较满意的结果,表明此方法适用于中文垃圾邮件的识别。
【学位授予单位】:山西财经大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP393.098

【参考文献】
中国期刊全文数据库 前10条
1 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
2 刘晓英;汉语自动分词研究的发展趋势[J];高校图书馆工作;2005年04期
3 林珊,宁国宁,赵之霖;中文分词在邮件过滤系统中的应用[J];华南理工大学学报(自然科学版);2004年S1期
4 王晓国,朱炜,黄韶坤,李启炎;一种E-mail挖掘方法及其在CRM中的应用[J];计算机工程;2003年15期
5 李雪蕾,张冬茉;一种基于向量空间模型的文本分类方法[J];计算机工程;2003年17期
6 贾泂,梁久祯;基于支持向量机的中文网页自动分类[J];计算机工程;2005年10期
7 沈丽虹,周昌乐;基于语义空间的支持向量机的文本过滤[J];计算机应用;2005年03期
8 胡于进,周小玲,凌玲,王学林;基于向量空间模型的贝叶斯文本分类方法[J];计算机与数字工程;2004年06期
9 唐述敏,方景龙;基于支持向量机的人脸识别[J];计算机与数字工程;2005年07期
10 王科,高常波,翟雪峰,罗万伯;汉语分词的主要技术及其应用展望[J];通信技术;2003年06期
【共引文献】
中国期刊全文数据库 前10条
1 范进;;产业结构对产业集群影响力的实证分析[J];安徽广播电视大学学报;2006年04期
2 于立红;杜芸;;数据挖掘中数据预处理方法与技术[J];安徽电子信息职业技术学院学报;2009年04期
3 干娟;;基于决策树算法的学生综合测评系统的设计[J];安徽电子信息职业技术学院学报;2011年04期
4 李玲玲;辛浩;;FCM算法及其有效性度量方法[J];安徽电子信息职业技术学院学报;2011年05期
5 舒坚;郑诚;陈振;;基于关联分类方法的Web使用挖掘研究[J];安徽大学学报(自然科学版);2006年02期
6 李岚;胡学钢;;基于回归分析的COCOMO模型改进[J];安徽建筑工业学院学报(自然科学版);2010年06期
7 唐超礼;魏圆圆;;基于数据挖掘的植保预测系统[J];安徽农业科学;2008年12期
8 刘秋生;吴小倩;;基于数据挖掘的固定资产投资效益评价[J];安徽农业科学;2011年11期
9 邱文教,潘晓卉;数据挖掘技术在教务管理中的应用[J];安徽工业大学学报(社会科学版);2005年03期
10 郭有强;胡学钢;;基于项目增长法高效求解最大频繁项集[J];安徽科技学院学报;2006年06期
中国重要会议论文全文数据库 前10条
1 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年
2 杨青;刘晔;张东旭;刘畅;;快速查找最优初始聚类数K的改进K-means算法[A];中国自动化学会控制理论专业委员会A卷[C];2011年
3 赵云鹏;石丽;刘莹;;基于数据挖掘的高校规模分析及应用研究[A];第九届全国信息获取与处理学术会议论文集Ⅰ[C];2011年
4 王伟珍;刘春红;张漫;李民赞;刘刚;;基于BP神经网络的温室番茄光合作用速率预测模型研究[A];中国农业工程学会2011年学术年会论文集[C];2011年
5 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
6 王皓;曹永锋;孙洪;;基于流域变换的聚类分析[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
7 吴栋;张京华;王玉成;胡伍生;;前兆信息模型在地震预测中的应用[A];数字测绘与GIS技术应用研讨交流会论文集[C];2008年
8 孟少朋;骆红云;李盛;;基于数据挖掘的汽车可靠性分析方法研究[A];2007年全国失效分析学术会议论文集[C];2007年
9 杨雯怡;郑康锋;杨义先;;一种自适应的网络安全防护方案[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
10 杨纪军;朱培栋;;关联规则挖掘技术在蜜罐系统中的应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
2 王俊杰;基于ArcGIS Server的震害风险管理系统研究[D];中国海洋大学;2010年
3 罗彬;基于MMOI方法的电信客户流失预测与挽留研究[D];电子科技大学;2010年
4 韩明华;基于情境分析的集群企业知识转移机理与模型研究[D];浙江工商大学;2011年
5 王冬丽;基于可扩展的支持向量机分类算法及在信用评级中的应用[D];东华大学;2011年
6 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
7 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
8 郜峦;基于文献分析的“肺与大肠相表里”证治规律及其关系研究[D];北京中医药大学;2011年
9 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
10 卢又燃;放射科随访数据库建立与粗糙集方法辅助诊断胶质瘤分级的应用分析[D];复旦大学;2009年
中国硕士学位论文全文数据库 前10条
1 蔡浩;基于Web使用挖掘的协同过滤推荐算法研究[D];浙江理工大学;2010年
2 李翠;基于车辆自动识别的智能计重监控系统的研究与设计[D];郑州大学;2010年
3 王利明;一种基于PMIPv6的智能辅助高效切换方案[D];郑州大学;2010年
4 刘春燕;教学网络DIDS数据分析方法的研究与改进[D];郑州大学;2010年
5 梁大圣;空间数据仓库的设计与构建[D];山东农业大学;2010年
6 史文财;省级政务网安全检测系统的设计与实现[D];哈尔滨工程大学;2010年
7 曾祥莉;ETL在经济普查信息发布系统中的应用研究[D];哈尔滨工程大学;2010年
8 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
9 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
10 姜雪飞;基于SNMP的网络安全态势可视化技术[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 穗志方,俞士汶;汉语单句谓语中心词识别知识的获取及应用[J];北京大学学报(自然科学版);1998年Z1期
2 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
3 文庭孝;情报检索中汉语语词自动切分研究[J];图书与情报;2001年02期
4 王国胜,钟义信;支持向量机的若干新进展[J];电子学报;2001年10期
5 林绮屏;基于词形的最佳路径分词算法[J];华南师范大学学报(自然科学版);2002年04期
6 郑延斌;书面汉语自动分词及歧义分析[J];河南师范大学学报(自然科学版);1997年04期
7 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
8 吴胜远;并行分词方法的研究[J];计算机研究与发展;1997年07期
9 朱明,王军,王俊普;Web网页识别中的特征选择问题研究[J];计算机工程;2000年08期
10 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
【相似文献】
中国期刊全文数据库 前10条
1 王丽;周新立;尉询楷;;基于支持向量机的故障诊断方法及其应用[J];火力与指挥控制;2006年04期
2 于春梅;潘泉;程咏梅;张洪才;;基于核主元提取的支持向量机辨识[J];数学的实践与认识;2009年01期
3 杨晓敏,吴炜,黎涛,何小海;基于Gabor变换和支持向量机的车牌字符识别算法[J];四川大学学报(工程科学版);2005年05期
4 范伊红;韩爱意;;一种基于不变矩和SVM的车型识别器设计[J];软件导刊;2007年21期
5 杜选;;基于支持向量机的车牌字符识别研究与应用[J];计算机系统应用;2008年08期
6 曹伟炯;李玉杰;;一种基于支持向量机的数字调制识别方法[J];电子测量技术;2009年02期
7 周松华;肖靓;郭鸣;;基于SVM的图像分类研究[J];井冈山学院学报;2009年03期
8 赵立志;李辉;陈海东;魏士勇;;支持向量机在说话人识别系统中的应用[J];China's Foreign Trade;2011年14期
9 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[J];微电子学与计算机;2006年09期
10 陈若珠;于小宁;李战明;;基于DSP的啤酒瓶缺陷识别系统的研究[J];微计算机信息;2007年11期
中国重要会议论文全文数据库 前10条
1 郭小荟;马小平;;基于EMD近似熵特征提取和支持向量机的故障诊断方法[A];中国自动化学会控制理论专业委员会D卷[C];2011年
2 朱晓霞;孙同景;陈桂友;;基于支持向量机理论的两级指纹分类实现方法[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
3 蔡蕾;朱永生;;基于稀疏性非负矩阵分解和支持向量机的轴心轨迹图识别[A];2008年全国振动工程及应用学术会议暨第十一届全国设备故障诊断学术会议论文集[C];2008年
4 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
5 罗云林;徐文君;;基于支持向量机的航空发动机内窥损伤识别[A];2006中国控制与决策学术年会论文集[C];2006年
6 徐继伟;李建中;柳勃;杨昆;;使用支持向量机和改进特征提取方法的蛋白质分类[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
7 郭相科;刘进忙;曹学斌;张玉鹏;;子类独立分量分析在声目标识别中的应用[A];中国声学学会2007年青年学术会议论文集(上)[C];2007年
8 李泽辉;聂生东;陈兆学;;应用多类SVM分割MR脑图像特征选择与优化的实验研究[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
9 詹玉龙;刘明明;李邦辉;;基于支持向量机的船用主柴油机气缸盖故障诊断[A];第十五届全国大功率柴油机学术会议论文集[C];2007年
10 李巍华;刘雯;;基于主元分析和直推式支持向量机的齿轮早期故障诊断[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
中国重要报纸全文数据库 前10条
1 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
2 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
3 王竣;深入开发CAD系统对疾病诊断有重要意义[N];中国医药报;2007年
4 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
5 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
6 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
7 记者 何腾江 通讯员 周汇成;验钞新技术通过鉴定[N];中山日报;2008年
8 李水根;计算机详解配伍与药效关系[N];健康报;2005年
9 中科院自动化所 何鹏 陶建华 谭铁牛;看懂人的“脸色”[N];计算机世界;2005年
10 张东方;沙明;杨松松;人工神经网络在中药领域中的应用[N];中国医药报;2003年
中国博士学位论文全文数据库 前10条
1 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年
2 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年
3 唐静远;模拟电路故障诊断的特征提取及支持向量机集成方法研究[D];电子科技大学;2010年
4 张超;基于支持向量机的汽轮机轴系振动故障智能诊断研究[D];华北电力大学(河北);2009年
5 周喜川;非可信环境下的支持向量机研究[D];浙江大学;2010年
6 蒋永华;旋转机械非平稳信号微弱特征提取方法研究[D];重庆大学;2010年
7 冯坤;基于内积变换的机械故障特征提取原理与早期识别方法研究[D];北京化工大学;2012年
8 赵海滨;脑—机接口的特征提取和分类方法研究[D];东北大学;2009年
9 翟永杰;基于支持向量机的故障智能诊断方法研究[D];华北电力大学(河北);2004年
10 王立鹏;特征提取及分类算法在膜蛋白分类预测问题中的应用[D];兰州理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 乔素娟;基于SVM的中文垃圾邮件的识别研究[D];山西财经大学;2006年
2 陈卫;基于支持向量机的说话人识别系统研究[D];华北电力大学(河北);2005年
3 陈军;基于支持向量机的脱机手写体汉字识别方法的研究[D];合肥工业大学;2006年
4 任爽;基于XML和SVM的Web文本挖掘研究[D];大连理工大学;2006年
5 唐孝;支持向量机(SVM)及其在心电图(ECG)分类识别中的应用[D];四川师范大学;2007年
6 王晓晶;支持向量机在脑功能模式识别和分类中的研究[D];天津师范大学;2009年
7 张淼;基于支持向量机的文本分类系统研究[D];大庆石油学院;2008年
8 周辉;齿轮故障的特征提取与模式识别技术研究[D];郑州大学;2005年
9 朱丹红;数字图书馆基于内容的图像检索技术的研究[D];福州大学;2006年
10 赵智超;基于数据挖掘的沙尘暴智能预报系统的研究[D];天津大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026