收藏本站
《郑州大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Winnow算法和CAPTCHA的垃圾短信过滤研究

张燕丽  
【摘要】: 随着移动通信技术的发展,手机短信已成为人们生活中必不可少的通信方式之一。然而日益增多的垃圾短信给人们的生活带来很多不便。垃圾短信过滤问题已成为全球性的具有重大现实意义的课题。 本文深入研究了基于内容的垃圾短信过滤技术,改进了Winnow算法,并提出一种新的基于CAPTCHA的垃圾短信过滤方法,主要工作包括: 1)Winnow算法是一种可以在线更新的分类算法,它通过改变权重向量进行更新。为了降低算法的复杂度,本文提出在每次更新权值后加入剪枝过程,剪掉那些对分类结果几乎没有影响的特征。 2)利用用户交互式学习思想,根据用户的反馈信息随时更新Winnow分类器。本文提出的方法根据用户判定的误分类短信的信息找出未被判定的误分类短信,然后纠正分类器以前产生的错误,同时更新分类器的分类规则,避免以后的分类过程中产生同样的错误。更新分类器时采用Adaboosting算法提升分类器性能,并对Adaboosting算法进行了两方面的改进:针对退化问题,采用在各样本集内部调整短信样本的权重的方法;针对垃圾短信和正常短信的不对称问题,采用修改分类器加权因子的方法。 3)提出多Winnow分类器模型,根据多个分类器的分类结果对短信分类。利用同样的训练集选择出不同的特征集,根据各个特征集训练出不同的分类器。本文只实现了双Winnow分类器。 4)针对计算机程序经常发送恶意的组垃圾短信的现状,本文提出了基于CAPTCHA (全自动人机识别系统)的过滤方法,并提出一种新的基于图片识别的CAPTCHA方法。
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TN929.5

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 牟肖光;宫丽宁;;基于朴素贝叶斯的中文垃圾短信过滤系统的设计[J];电脑知识与技术;2008年32期
2 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
3 罗勇;;文本分类中改进的互信息特征选择方法研究[J];福建电脑;2009年04期
4 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
5 李军;董元方;;Boosting算法的理论分析[J];长春工业大学学报(自然科学版);2008年05期
6 潘文锋,孙健,王斌;一种Winnow线性分类器及其在TREC Novelty任务中的应用[J];计算机工程与应用;2004年23期
7 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
8 吴建胜,战学刚,迟呈英;一种基于自动机的分词方法[J];计算机工程与应用;2005年08期
9 孙铁利;李晓微;张妍;;信息过滤中的中文自动分词技术研究[J];计算机工程与科学;2009年03期
10 李闯;丁晓青;吴佑寿;;一种改进的AdaBoost算法——AD AdaBoost[J];计算机学报;2007年01期
【共引文献】
中国期刊全文数据库 前10条
1 白晓梅;张福利;;校园网中文搜索引擎系统的设计[J];鞍山师范学院学报;2006年06期
2 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
3 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
4 林正奎;唐焕玲;鲁明羽;王敬东;;基于特征多视图提升Naive Bayesian的Boosting改进算法[J];北京交通大学学报;2009年06期
5 董妍汝;;中文分词技术在搜索引擎中的应用[J];办公自动化;2010年04期
6 杨尔弘;;媒体5年词语使用情况调查分析[J];北华大学学报(社会科学版);2011年04期
7 刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期
8 张彦峰;何佩琨;;一种改进的AdaBoost算法——M-Asy AdaBoost[J];北京理工大学学报;2011年01期
9 樊宁;苏菲;;改进的人脸检测训练方法[J];北京邮电大学学报;2008年04期
10 徐光侠;封雷;涂演;李成;;基于Android和Google Maps的生活辅助系统的设计与实现[J];重庆邮电大学学报(自然科学版);2012年02期
中国重要会议论文全文数据库 前10条
1 李金;宋阳;梁洪;;语言残障患者医疗辅助系统设计[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 郑新奇;刘晓丽;;基于Clementine决策树的空间数据挖掘方法探讨——以平阴县安城乡为例[A];中国测绘学会2006年学术年会论文集[C];2006年
6 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
7 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
8 童灿;;基于boosting HMM的语音情感识别[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年
9 万中英;王明文;廖海波;左家莉;;维数约简在网页分类中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 郑亚斌;曹嘉伟;刘知远;;基于最大匹配和马尔科夫模型的对联系统[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
2 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
3 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
4 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
5 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
6 陈俊;笑脸表情分类识别的研究[D];华南理工大学;2011年
7 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
8 郭耸;人脸检测若干关键技术研究[D];哈尔滨工程大学;2011年
9 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
10 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
中国硕士学位论文全文数据库 前10条
1 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
2 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
3 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
4 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
5 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
6 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
7 林渌;基于新闻主题模型的热点工作挖掘系统[D];浙江大学;2011年
8 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
9 王林平;基于内容的电子邮件过滤系统的研究[D];电子科技大学;2010年
10 葛世海;基于J2EE的站群管理平台的设计与实现[D];电子科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 刘舸;;垃圾短信的“双维度”分析和治理探讨[J];北京邮电大学学报(社会科学版);2007年04期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报(自然科学版);2003年02期
4 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期
5 蔡勇智;;未登录词识别算法的改进[J];福建电脑;2006年03期
6 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
7 李静梅,孙丽华,张巧荣,张春生;一种文本处理中的朴素贝叶斯分类器[J];哈尔滨工程大学学报;2003年01期
8 韩利凯;;一种快速Web中文分词算法的研究[J];航空计算技术;2007年06期
9 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
10 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
中国硕士学位论文全文数据库 前4条
1 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
2 张晓淼;基于神经网络的中文分词算法的研究[D];大连理工大学;2006年
3 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
4 潘文锋;基于内容的垃圾邮件过滤研究[D];中国科学院研究生院(计算技术研究所);2004年
【相似文献】
中国期刊全文数据库 前10条
1 浦海晨,万晓冬;一种基于文本分类技术的邮件过滤系统设计[J];科技广场;2005年06期
2 浦海晨,万晓冬;一种基于文本分类技术的邮件过滤系统设计[J];福建电脑;2005年11期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前3条
1 车万翔;刘挺;李生;;实体关系自动抽取[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 朱巧明;周志军;李培峰;;中文邮件语料库建设及其分类研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
3 刘子豪;庄毅;;一种电子邮件敏感信息检测算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
中国硕士学位论文全文数据库 前5条
1 周志军;中文邮件分类系统的研究及其实现[D];苏州大学;2005年
2 张丽;基于Winnow算法的反垃圾邮件引擎的设计与实现[D];东南大学;2006年
3 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
4 李晓飞;垃圾邮件过滤算法研究及系统实现[D];南京理工大学;2008年
5 潘文锋;基于内容的垃圾邮件过滤研究[D];中国科学院研究生院(计算技术研究所);2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026