收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向垃圾信息过滤的主动多域学习文本分类方法研究

刘伍颖  
【摘要】:垃圾信息过滤是提高网络信息可用性的关键技术之一。虽然该领域已有许多研究成果,但随着社会对垃圾信息过滤的迫切需要,以及垃圾信息过滤技术在实际应用和测试中表现出的许多不足,近年来许多研究机构都在十分活跃地进一步深入研究垃圾信息过滤领域的各种关键技术,以提高垃圾信息过滤的性能和解决实际应用中的问题。目前的研究大多采用基于统计的文本分类方法来解决垃圾信息过滤问题。在这种背景下,本文对用于垃圾信息过滤的基于统计的在线二值文本分类总体框架问题、域文档分割问题、域分类结果组合问题、时空高效域分类问题和有代价反馈问题进行了深入研究,提出了一系列针对这些问题的应对方法。我们采用TREC07P邮件语料上的垃圾邮件过滤实验、CSMS中文手机短信语料上的垃圾手机短信过滤实验以及TanCorp网页新闻语料上的多类别文档分类实验来验证提出方法的有效性。本文主要的研究工作包括: (1)分析了信息文档的文本结构,揭示了信息文档普遍具有多域结构特性。根据这一特性,提出了一种多域学习框架。该框架采用分而治之的研究思路,把一个复杂的多域文档的文本分类问题划分成几个简单的域分类子问题,每个域分类子问题有其自身的特征空间和统计文本分类模型。实验结果表明多域学习框架是一种有效的基于统计的在线二值文本分类总体框架。在多域学习框架下,域间文本特征的独立性更强,而域内文本分类模型针对性更强;并且在每个域分类子问题中,无论是文本特征抽取还是文本分类模型构造都更加简洁高效。 (2)研究了域文档分割问题,提出了自然域文档分割策略和特定属性域文档分割策略。自然域文档分割就是根据文档本身具有的多域结构化特点,通过识别域分隔点,将一个文本文档分割成几个域文本文档。特定属性域文档分割是一种文本特征复用技术,它将那些具备较强区分能力的文本通过某种规则抽取出来,组成一个原来并不真实存在的文本域。实验结果表明前一种策略具有较强的通用性,因为信息文档普遍具有多域结构特性;而后一种策略更加适合短文本文档,因为可以克服短文本文档的特征稀少问题。 (3)研究了域分类结果组合问题,提出了均权组合策略、支持向量模型权组合策略、域分类器历史性能权组合策略、域文档信息量权组合策略和复合权组合策略。实验结果表明在多域学习框架下,这五种组合策略都能提高已有文本分类算法的性能,其中综合考虑域分类器历史性能和当前域文档信息量两方面因素的复合权组合策略在时间复杂度和分类准确率上都能达到更理想的性能。 (4)分析了信息文档集合中的Token频率分布,揭示了Token频率分布普遍服从幂律的特性。根据这一特性,提出了一种基于Token频率索引的文本分类算法。该算法采用文本检索的研究思路解决文本分类问题,利用等概率随机采样方法进行在线标注文档压缩,能够有效应对传统在线文本分类研究中难以将离线批处理后验规则变成在线可计算的先验规则的困难。由于Token频率索引数据结构具备每次查询和增量更新的时间复杂度都很低的优势,还具备索引的原始文本压缩特性和基于随机采样的压缩特性,所以能够高效地捕获文档内容的变化和垃圾概念的漂移。实验结果表明基于Token频率索引的文本分类算法能够很好地解决时空高效域分类问题,而且将该算法集成到多域学习框架下,能够达到低时空复杂度和高分类准确率的最佳性能。此外,还扩展了Token频率索引的研究思路,提出了一种基于多类别Token频率索引的文本分类算法。实验结果表明该算法在多类别文档分类中也是有效的。 (5)研究了有代价反馈问题,提出了时序优先主动学习策略、先验区间主动学习策略和基于方差的非确定采样主动学习策略。其中基于方差的非确定采样主动学习策略充分利用了多个域分类器之间的决策差异,通过比较域分类结果间的当前方差和历史方差阈值,挑选信息丰富的文档请求用户反馈。实验结果表明在这三种主动学习策略中,基于方差的非确定采样效果最好,它能够在大量减少用户反馈的情况下,仍然达到较理想的分类性能,而且由于计算方差的时空复杂度比较低,所以基于方差的非确定采样是一种有效的主动学习策略。 综上所述,本文研究了垃圾信息过滤面临的若干关键问题,提出了以多域学习为核心的一系列文本分类方法,较好地满足了垃圾信息过滤的实际应用需求。进一步的工作仍然围绕多域学习这一核心,可以预见多域学习的进一步完善和发展能够获得更好的效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 梅海燕;信息过滤问题的研究[J];现代图书情报技术;2002年02期
2 陈红英,李卫华,刘树勋;智能信息过滤Agent的设计与实现技术[J];广东工业大学学报;2001年03期
3 谭汉松,李红;基于信息过滤后的Web内容挖掘[J];计算机工程与应用;2003年30期
4 陈彩云,李治国;一种基于SVD和Rough集的信息过滤方法[J];计算机工程与应用;2003年34期
5 王开选;张永奎;;信息过滤中用户模型的表示方法[J];计算机工程;2006年05期
6 周序生,周咏梅,阳爱民;基于内容的中文网络信息自动过滤及发布系统[J];计算机工程与应用;2003年18期
7 苏贵洋,马颖华,李建华;一种基于内容的信息过滤改进模型[J];上海交通大学学报;2004年12期
8 张美香,陈俊杰,赵栓柱;信息过滤中用户兴趣模型的表示[J];电脑开发与应用;2005年05期
9 丁传奉;;数字图书馆中的个性化服务[J];图书馆杂志;2006年04期
10 杨桂芝;;个性化搜索引擎关键技术初探[J];科技情报开发与经济;2007年03期
11 石玉强;;Vague(值)集间的接近度及其在网络信息过滤中的应用[J];琼州学院学报;2007年05期
12 李蓓;;政治博客及其信息过滤问题研究[J];电子政务;2009年12期
13 傅忠谦,王新跃,周佩玲,彭虎,陶小丽;个性化网上信息过滤智能体的实现[J];计算机应用;2000年03期
14 姜恩波;搜索引擎的信息过滤技术[J];现代图书情报技术;2001年03期
15 徐小琳,阙喜戎,程时端;信息过滤技术和个性化信息服务[J];计算机工程与应用;2003年09期
16 何静,刘海燕;信息检索与过滤中的信息需求表示方法[J];计算机工程与设计;2003年08期
17 石福荣;;论图书馆的信息过滤与控制功能[J];图书馆研究与工作;2003年02期
18 宓永迪;金中仁;;基于利用率的检索结果过滤[J];图书馆杂志;2007年03期
19 王宏生;高岩;;基于本体的信息过滤研究[J];科技信息;2009年29期
20 席萌,郭巧;基于语境关联的Web信息过滤算法[J];华中科技大学学报(自然科学版);2003年S1期
中国重要会议论文全文数据库 前10条
1 苏贵洋;王永成;马颖华;;信息自动获取的结构模型[A];第一届学生计算语言学研讨会论文集[C];2002年
2 李荣陆;张永奎;牛伟霞;;基于概念的信息过滤技术探讨[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 毛颖;周源远;王继成;;信息过滤技术研究[A];第一届学生计算语言学研讨会论文集[C];2002年
4 白硕;程学旗;郭莉;王斌;余智华;刘群;;大规模内容计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 王岩;;基于内容的垃圾邮件过滤技术[A];中国通信学会第六届学术年会论文集(中)[C];2009年
6 胡熠;郑德权;赵铁军;于浩;王青松;;WWW页面信息中特定内容的过滤研究[A];第一届学生计算语言学研讨会论文集[C];2002年
7 杨忠伟;王轩;姚霖;;基于双拼映射的中文多模式模糊匹配算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 潘文锋;王斌;于满泉;谭松波;;Winnow算法在垃圾邮件过滤中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 薄晓军;姚珺;刘芳;;产品开发过程中数字化核心模型的研究与应用[A];先进制造技术论坛暨第二届制造业自动化与信息化技术交流会论文集[C];2003年
10 许洪波;王斌;程学旗;白硕;;TREC自适应信息过滤中的目标优化技术研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
2 杜阿宁;互联网舆情信息挖掘方法研究[D];哈尔滨工业大学;2007年
3 何军;Internet中多媒体信息过滤技术的研究[D];电子科技大学;2002年
4 辜志强;中小企业产能柔性及其在车间生产控制中的应用研究[D];武汉理工大学;2006年
5 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年
6 张亮;基于机器学习的信息过滤和信息检索的模型和算法研究[D];天津大学;2007年
7 夏虎;移动社交网络结构和行为研究及其应用[D];电子科技大学;2012年
8 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
9 许洪波;大规模信息过滤技术研究及其在Web问答系统中的应用[D];中国科学院研究生院(计算技术研究所);2003年
10 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 张立伟;网络信息过滤中反馈机制的研究及应用[D];山东师范大学;2010年
2 曲建华;Web上的信息过滤问题研究[D];山东师范大学;2003年
3 陈晋川;基于CoP建模的信息过滤技术研究[D];中国科学院研究生院(软件研究所);2004年
4 陈红莲;面向互联网的信息过滤技术研究[D];浙江大学;2003年
5 许明英;反馈增量学习算法及其在网络信息过滤中的应用研究[D];山东师范大学;2012年
6 赵海雁;基于数据链路层数据捕获与信息过滤[D];华北工学院;2004年
7 张伟;短信监控系统代理的设计[D];南京理工大学;2004年
8 周威成;信息过滤方法的研究与应用[D];华北电力大学(北京);2003年
9 吴福英;面向用户的信息过滤研究与实现[D];江西师范大学;2004年
10 李世明;专业搜索引擎中信息过滤的研究与实现[D];北京化工大学;2005年
中国重要报纸全文数据库 前10条
1 李北陵;谷歌退出无损中国却只贻害自己[N];证券时报;2010年
2 彭骏孙小宁;澳大利亚启动网络有害信息过滤工程[N];人民邮电;2007年
3 Naomi Fine;信息过滤护驾知识产权[N];计算机世界;2006年
4 记者 颜维琦;“绿坝”发行将采用赠送安装盘方式[N];光明日报;2009年
5 卢东祥;校园网防火墙的选购[N];中国电脑教育报;2003年
6 记者 李忠发 王慧慧;中国坚决反对商业问题政治化[N];人民日报海外版;2010年
7 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
8 王萍;Web文本的知识化管理[N];计算机世界;2006年
9 杨恩荣;管好人生的“U盘”[N];中国国防报;2008年
10 汤光华;为何卖出总比买入难[N];中国证券报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978