收藏本站
《国防科学技术大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向垃圾信息过滤的主动多域学习文本分类方法研究

刘伍颖  
【摘要】:垃圾信息过滤是提高网络信息可用性的关键技术之一。虽然该领域已有许多研究成果,但随着社会对垃圾信息过滤的迫切需要,以及垃圾信息过滤技术在实际应用和测试中表现出的许多不足,近年来许多研究机构都在十分活跃地进一步深入研究垃圾信息过滤领域的各种关键技术,以提高垃圾信息过滤的性能和解决实际应用中的问题。目前的研究大多采用基于统计的文本分类方法来解决垃圾信息过滤问题。在这种背景下,本文对用于垃圾信息过滤的基于统计的在线二值文本分类总体框架问题、域文档分割问题、域分类结果组合问题、时空高效域分类问题和有代价反馈问题进行了深入研究,提出了一系列针对这些问题的应对方法。我们采用TREC07P邮件语料上的垃圾邮件过滤实验、CSMS中文手机短信语料上的垃圾手机短信过滤实验以及TanCorp网页新闻语料上的多类别文档分类实验来验证提出方法的有效性。本文主要的研究工作包括: (1)分析了信息文档的文本结构,揭示了信息文档普遍具有多域结构特性。根据这一特性,提出了一种多域学习框架。该框架采用分而治之的研究思路,把一个复杂的多域文档的文本分类问题划分成几个简单的域分类子问题,每个域分类子问题有其自身的特征空间和统计文本分类模型。实验结果表明多域学习框架是一种有效的基于统计的在线二值文本分类总体框架。在多域学习框架下,域间文本特征的独立性更强,而域内文本分类模型针对性更强;并且在每个域分类子问题中,无论是文本特征抽取还是文本分类模型构造都更加简洁高效。 (2)研究了域文档分割问题,提出了自然域文档分割策略和特定属性域文档分割策略。自然域文档分割就是根据文档本身具有的多域结构化特点,通过识别域分隔点,将一个文本文档分割成几个域文本文档。特定属性域文档分割是一种文本特征复用技术,它将那些具备较强区分能力的文本通过某种规则抽取出来,组成一个原来并不真实存在的文本域。实验结果表明前一种策略具有较强的通用性,因为信息文档普遍具有多域结构特性;而后一种策略更加适合短文本文档,因为可以克服短文本文档的特征稀少问题。 (3)研究了域分类结果组合问题,提出了均权组合策略、支持向量模型权组合策略、域分类器历史性能权组合策略、域文档信息量权组合策略和复合权组合策略。实验结果表明在多域学习框架下,这五种组合策略都能提高已有文本分类算法的性能,其中综合考虑域分类器历史性能和当前域文档信息量两方面因素的复合权组合策略在时间复杂度和分类准确率上都能达到更理想的性能。 (4)分析了信息文档集合中的Token频率分布,揭示了Token频率分布普遍服从幂律的特性。根据这一特性,提出了一种基于Token频率索引的文本分类算法。该算法采用文本检索的研究思路解决文本分类问题,利用等概率随机采样方法进行在线标注文档压缩,能够有效应对传统在线文本分类研究中难以将离线批处理后验规则变成在线可计算的先验规则的困难。由于Token频率索引数据结构具备每次查询和增量更新的时间复杂度都很低的优势,还具备索引的原始文本压缩特性和基于随机采样的压缩特性,所以能够高效地捕获文档内容的变化和垃圾概念的漂移。实验结果表明基于Token频率索引的文本分类算法能够很好地解决时空高效域分类问题,而且将该算法集成到多域学习框架下,能够达到低时空复杂度和高分类准确率的最佳性能。此外,还扩展了Token频率索引的研究思路,提出了一种基于多类别Token频率索引的文本分类算法。实验结果表明该算法在多类别文档分类中也是有效的。 (5)研究了有代价反馈问题,提出了时序优先主动学习策略、先验区间主动学习策略和基于方差的非确定采样主动学习策略。其中基于方差的非确定采样主动学习策略充分利用了多个域分类器之间的决策差异,通过比较域分类结果间的当前方差和历史方差阈值,挑选信息丰富的文档请求用户反馈。实验结果表明在这三种主动学习策略中,基于方差的非确定采样效果最好,它能够在大量减少用户反馈的情况下,仍然达到较理想的分类性能,而且由于计算方差的时空复杂度比较低,所以基于方差的非确定采样是一种有效的主动学习策略。 综上所述,本文研究了垃圾信息过滤面临的若干关键问题,提出了以多域学习为核心的一系列文本分类方法,较好地满足了垃圾信息过滤的实际应用需求。进一步的工作仍然围绕多域学习这一核心,可以预见多域学习的进一步完善和发展能够获得更好的效果。
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 刘伍颖;王挺;;基于词模型索引的短文本在线过滤方法[J];华中科技大学学报(自然科学版);2010年04期
2 姜远;周志华;;基于词频分类器集成的文本分类方法[J];计算机研究与发展;2006年10期
3 王涛;李舟军;颜跃进;陈火旺;;数据流挖掘分类技术综述[J];计算机研究与发展;2007年11期
4 刘赫;刘大有;裴志利;高滢;;一种基于特征重要度的文本分类特征加权方法[J];计算机研究与发展;2009年10期
5 樊兴华;孙茂松;;一种高性能的两类中文文本分类方法[J];计算机学报;2006年01期
6 王修君;沈鸿;;一种基于增量学习型矢量量化的有效文本分类算法[J];计算机学报;2007年08期
7 李文波;孙乐;张大鲲;;基于Labeled-LDA模型的文本分类新算法[J];计算机学报;2008年04期
8 刘伍颖;王挺;;适于垃圾文本流过滤的条件概率集成方法[J];计算机科学与探索;2010年05期
9 王斌,潘文锋;基于内容的垃圾邮件过滤技术综述[J];中文信息学报;2005年05期
10 刘伍颖;王挺;;基于多过滤器集成学习的在线垃圾邮件过滤[J];中文信息学报;2008年01期
中国博士学位论文全文数据库 前6条
1 刘震;垃圾邮件过滤理论和关键技术研究[D];电子科技大学;2008年
2 黄文良;垃圾短信过滤关键技术研究[D];浙江大学;2008年
3 惠孛;基于即时分类的垃圾邮件过滤关键技术的研究[D];电子科技大学;2009年
4 王美珍;垃圾邮件行为模式识别与过滤方法研究[D];华中科技大学;2009年
5 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
6 陈彬;垃圾邮件的特征选择及检测方法研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前9条
1 潘文锋;基于内容的垃圾邮件过滤研究[D];中国科学院研究生院(计算技术研究所);2004年
2 林丹宁;反垃圾邮件关键技术研究与实现[D];浙江大学;2007年
3 胡睿;基于贝叶斯分类的中文垃圾邮件过滤方法研究和改进[D];清华大学;2006年
4 吕英杰;基于全球IP信誉系统的垃圾邮件过滤技术研究[D];哈尔滨工业大学;2007年
5 徐隽;基于流数据特性的垃圾邮件过滤技术研究[D];复旦大学;2009年
6 曾志中;基于贝叶斯算法的垃圾邮件过滤系统的分析与实现[D];北京邮电大学;2009年
7 胡英飞;基于行为识别的垃圾邮件过滤研究[D];北京邮电大学;2009年
8 于穆晴;垃圾邮件处理模型的研究与应用[D];北京邮电大学;2010年
9 熊石一;智能垃圾邮件过滤系统贝叶斯过滤器的设计与实现[D];北京邮电大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 程卫华;尤晋元;;基于内容过滤的反垃圾邮件系统的设计与实现[J];安徽大学学报(自然科学版);2007年03期
2 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
3 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
4 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
5 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期
6 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
7 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
8 王斌;;基于聚类的决策树在玉米种质筛选中的应用[J];安徽农业科学;2011年33期
9 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
10 覃爱明,胡昌振,谭惠民;网络攻击检测中的机器学习方法综述[J];安全与环境学报;2001年01期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
3 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
5 刘海霞;钟晓妮;周燕荣;田考聪;;决策树在居民就诊卫生服务利用影响因素研究中的应用[A];重庆市预防医学会2010年论文集[C];2011年
6 刘子豪;庄毅;;一种电子邮件敏感信息检测算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
7 汪云亮;吕久明;刘孝刚;;基于信息熵的辐射源属性分类方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
8 叶中行;陆青;余敏杰;;计算智能在银行信贷信用分类中的应用[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
9 邓蔚;秦志光;;基于Kolmogorov复杂性的垃圾信息过滤研究综述[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
10 刘红翼;;一种垃圾邮件过滤器的设计与实现[A];广西计算机学会2005年学术年会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
4 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
5 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
6 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
7 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年
8 陈进;高光谱图像分类方法研究[D];国防科学技术大学;2010年
9 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
10 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 刘维会;不平衡数据集上支持向量机算法研究[D];山东科技大学;2010年
4 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
5 王利明;一种基于PMIPv6的智能辅助高效切换方案[D];郑州大学;2010年
6 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
7 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
8 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
9 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
10 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 李文斌,刘椿年,黄佳进;基于数据挖掘的垃圾E-mail过滤方法[J];北京工业大学学报;2003年02期
2 刘明川,彭长生;基于贝叶斯概率模型的邮件过滤算法探讨[J];重庆邮电学院学报(自然科学版);2005年05期
3 唐武生;田立红;曹伟;;Base64编码的实现与应用研究[J];长春大学学报;2006年04期
4 吕安民,林宗坚,李成名;数据挖掘和知识发现的技术方法[J];测绘科学;2000年04期
5 王波,黄迪明;遗传神经网络在邮件过滤器中的应用[J];电子科技大学学报;2005年04期
6 刘震;周明天;;基于核方法的贝叶斯邮件分类网络研究[J];电子科技大学学报;2007年03期
7 李星;田莹;段海新;;中文垃圾邮件过滤系统的实现和评估[J];大连理工大学学报;2005年S1期
8 赵晓明,郑少仁;电子邮件过滤器的分析与设计[J];东南大学学报(自然科学版);2001年05期
9 张长君;电子邮件的一种过滤方法[J];计算机安全;2002年02期
10 钟义信;知识论:核心问题——信息-知识-智能的统一理论[J];电子学报;2001年04期
中国博士学位论文全文数据库 前2条
1 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
2 欧灵;基于文本分类的本体匹配及其应用研究[D];重庆大学;2007年
中国硕士学位论文全文数据库 前8条
1 肖明;基于SVM的智能邮件过滤系统研究与实现[D];电子科技大学;2005年
2 张羽;基于支持向量机理论的垃圾邮件过滤模型[D];电子科技大学;2006年
3 张耀龙;行为识别技术在反垃圾邮件系统中的研究与应用[D];北京邮电大学;2006年
4 庞剑锋;基于向量空间模型的自反馈的文本分类系统的研究与实现[D];中国科学院研究生院(计算技术研究所);2001年
5 黄志刚;基于贝叶斯的中文垃圾邮件过滤系统的设计与实现[D];电子科技大学;2007年
6 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
7 苏映雪;特征选择算法研究[D];国防科学技术大学;2006年
8 王美方;信息过滤系统中特征选择算法的研究[D];山东师范大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 郑海,林鸿飞;基于段落匹配的文本分类机制[J];计算机工程与应用;2004年28期
2 王丁,运海红,张辉;文本自动分类系统的研究与实现[J];信息技术;2005年03期
3 杜志文;曾文华;;网格计算在文本分类中的应用[J];微电子学与计算机;2006年S1期
4 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
5 马忠宝;刘冠蓉;;基于支持向量机的中文文本分类模型研究[J];计算机技术与发展;2006年11期
6 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
7 祝晓鲁;白振兴;贾海燕;;自动文本分类技术研究[J];现代电子技术;2007年03期
8 张桂芸;刘洋;王元元;;基于模糊认知图的文本分类推理算法[J];计算机工程与应用;2007年12期
9 陈莲娜;姚伏天;;用于文本分类的多核SVM算法研究[J];计算机工程;2007年09期
10 王倩倩;段震;张燕平;;基于交叉覆盖算法的文本分类[J];计算机技术与发展;2007年06期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 本报记者 黄继新;反垃圾信息:技术抑或法律?[N];经济观察报;2004年
2 杨永猛;西藏移动维护消费者权益[N];人民邮电;2008年
3 本报记者 秦国防;绿色联盟能否扫清信息垃圾[N];河南日报;2008年
4 苗莎莎;内蒙古移动遏制不良信息出新举[N];人民邮电;2008年
5 何宗卯 本报特约记者 李典胜;向垃圾信息说不[N];解放军报;2011年
6 本报记者 刘燕;各大社区联手打响垃圾信息围歼战[N];科技日报;2011年
7 ;垃圾信息有望缴清[N];中国电脑教育报;2011年
8 记者 周国勇 实习生 金丹;手文明:你会丢东西吗?[N];绍兴日报;2011年
9 张英;权威调查:用户平均每周收到8.29条垃圾短信[N];人民邮电;2006年
10 谷慧;垃圾短信重打不下[N];民营经济报;2006年
中国博士学位论文全文数据库 前10条
1 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
2 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
3 廖一星;文本分类及其特征降维研究[D];浙江大学;2012年
4 郑文斌;基于正则化线性统计模型的文本分类研究[D];浙江大学;2012年
5 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
6 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
7 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
8 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
9 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
10 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
2 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
3 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
4 闫晨;KNN文本分类研究[D];燕山大学;2010年
5 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
6 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
7 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
8 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
9 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
10 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026