收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于内容挖掘的垃圾邮件过滤技术

王新梅  
【摘要】:随着Internet的迅速普及,电子邮件以其快速、便捷的优势成为了现代通信的主要手段。但人们也惊异的发现,他们的收件箱中有为数不少的垃圾邮件。本课题的研究内容是基于内容挖掘的邮件分类与过滤,它不仅可以解决垃圾邮件的过滤问题,而且可以广泛地应用于电子政务和电子商务。在电子政务和电子商务的平台上,邮件是使用十分广泛的交互手段。采用基于内容挖掘的邮件分类可以实现对每天收到的大量邮件进行自动分类和转发,有效地减少系统分发邮件的工作量。 本课题主要包括邮件采集与预处理、文本分词、特征选取、邮件分类器和过滤器等功能模块,并且分析了各模块的核心技术和部分Java实现。论文的结构如下: 第1章:对目前的邮件分类技术进行了分析,提出了研究的主要内容。 第2章:对邮件分类器和过滤器的实现进行了总体设计,制订了它的各个功能模块及每个模块的主要功能。 第3章:讲述了邮件采集与预处理的相关内容,主要介绍了JavaMail API,并且分析了对邮件内容进行结构化解析的主要技术。 第4章:分析和比较了多种中文分词实现方法,提出了运用最大匹配法实现分词。 第5章:分析和比较了多种特征选取算法,提出了用改进后的互信息方法作为本课题的特征选取算法。 第6章:分析和比较了多种分类器的优缺点,提出了运用贝叶斯机器学习的方法,并对其用于邮件分类的原理进行了剖析,详细介绍了贝叶斯分类器的算法实现。 第7章:总结研究成果,指出不足并提出展望。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
2 胥桂仙,朴泰雄,杨丹丹,徐小博,高旭;中文文本挖掘中最长频繁序列的发现算法[J];中央民族大学学报(自然科学版);2004年01期
3 苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期
4 胥桂仙,苏筱蔚,陈淑艳;中文文本挖掘中的无词典分词的算法及其应用[J];吉林工学院学报(自然科学版);2002年01期
5 沈静;;基于串频统计和词形匹配的分词系统[J];中国高新技术企业;2008年13期
6 邓子平;张传宏;;面向医学的本体学习方法[J];计算机时代;2010年10期
7 王继明;杨国林;;基于Lucene的中文文本分词[J];内蒙古工业大学学报(自然科学版);2007年03期
8 许高建;胡学钢;王庆人;;文本挖掘中的中文分词算法研究及实现[J];计算机技术与发展;2007年12期
9 魏博诚;王爱平;沙先军;王永;;一种消除中文分词中交集型歧义的方法[J];计算机技术与发展;2011年05期
10 ;浅析大规模文本数据挖掘技术在媒体中的创新应用[J];中国传媒科技;2007年11期
11 赵慧勤;基于因特网的信息检索特点与发展趋势[J];情报理论与实践;2000年05期
12 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
13 刘革平;黄智兴;李立新;邱玉辉;;基于文本挖掘的e-Learning学习评价研究[J];计算机科学;2005年05期
14 渡部勇;;文本挖掘技术应用于专利检索分析[J];微电脑世界;2007年12期
15 付国瑜;;Web文本分类挖掘[J];科学咨询(决策管理);2008年03期
16 曹丽君;刘西印;杨燕萍;;WEB页面文本挖掘的价值与未来探究[J];商场现代化;2008年09期
17 韩洁;;Web文本挖掘技术在信息生产领域的应用研究[J];硅谷;2010年08期
18 胥桂仙,杨丹丹,高旭,陈立新;中文文本挖掘中姓名特征提取技术的研究[J];中央民族大学学报(自然科学版);2003年04期
19 刘春艳,张爱连,胡铁军;数据挖掘及其在信息服务业应用的研究现状[J];医学情报工作;2004年06期
20 吕冬煜,党齐民;基于文本挖掘的可视化竞争情报提取[J];计算机应用与软件;2005年02期
中国重要会议论文全文数据库 前10条
1 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
2 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
3 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
7 陈林;王晓华;李殿赟;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年
8 陈林;王晓华;李殿赟;文俊浩;;基于Web的自增模式文本挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
9 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
2 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
3 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
4 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
5 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
6 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
7 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
8 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
9 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
10 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
2 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
3 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
4 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
5 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
6 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年
7 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
8 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
9 贾俊凯;公安业务文本信息挖掘的研究与实现[D];东华大学;2011年
10 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
4 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
5 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
6 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
7 日报记者 董明;微车传奇就是他的人生[N];柳州日报;2009年
8 汪洋 编译;BI平民化[N];计算机世界;2004年
9 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
10 老姜;老业务员的6大询盘回复技巧[N];民营经济报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978