收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

文本内容分类和主题追踪关键技术研究

王会珍  
【摘要】: 互联网成为人们快速获取信息以及交换信息工具的同时,也给人们带来了更多新的挑战。人们迫切需要一种高效快速准确的技术来帮助自己处理浩瀚的信息。各种信息检索、信息过滤、分类、主题检测与追踪等文本信息处理技术应运而生,并且得到了越来越多的关注。目前,文本内容分类和主题追踪技术的研究逐渐成为了自然语言处理领域的研究热点。根据具体应用和需求通常需要对文本进行深入分析和处理。因此,本文分析和研究了文本内容分类和主题追踪任务的关键问题,提出了相应的解决方案,并通过大量的实验证明了这些方案的有效性。主要工作包括以下几点: (1)研究特征对不同类别之间的判别能力来提高文本分类的性能。采用合理的评价方式选择出对类别具有较强判别能力的特征来参与文本分类过程。以此来增强分类器对类别的判别能力。本文提出了基于判别能力的特征选取方法,该方法采用overall-divergence评价方式直接度量每个特征对不同类别之间的判别能力。实验结果显示,本文提出的特征选取方法在混淆数据集中很好地提高了文本分类的性能。在通用数据集中,基于判别能力的特征选取方法与最好的特征选取方法性能稍高或者相当。 (2)针对文本分类中存在混淆类别的现象,主要研究混淆类判别技术,进而改善文本分类性能。首先本文提出了一种基于分类错误分布(Classification Error Distribution, CED)的混淆类识别技术,该技术能够识别预定义类别中的混淆类集合。为了有效地对属于混淆类的文本进行分类,识别预定义类别中的混淆类集合。为了有效判别混淆类,本文采用上述提出的基于判别能力的特征选取技术参与混淆类的判别过程,构建判别能力较强的混淆类分类器。本文设计并实现了基于两阶段的分类器设计框架。将初始分类器和混淆类分类器进行集成,组合两个阶段的分类结果作为最后输出。实验结果显示,在Newsgroup和863中文评测语料上,针对单标签、多类分类器体系,混淆类识别和判别技术有效地改善了分类性能。 (3)研究垃圾邮件过滤任务中的关键技术。首先,本文研究计算简便并且速度要快的过滤算法;其次,考虑到垃圾邮件的内容特征随时间变化较快,本文研究需要具备反馈学习和自适应能力的垃圾邮件过滤技术。本文提出了基于两层内容分析的垃圾邮件过滤技术。设计并实现了基于两层内容分析的垃圾邮件过滤器。第一层是快速内容过滤,选用运行和更新较快的朴素贝叶斯分类器对邮件进行第一次过滤,将疑似的邮件送给第二层过滤。采用第二级内容过滤模块对疑似邮件再进行判别。由于垃圾邮件的内容特征随时间变化较快,本文还提出了基于反馈学习和自适应技术的垃圾邮件过滤技术。并将这些技术应用到初审/复审协作式垃圾邮件过滤框架中。在公开语料和实时网络环境下,垃圾邮件过滤性能较好。 (4)针对主题追踪任务中主题没有明确描述的问题,本文研究了主题表示方式,提出了多向量模型。它采用多个向量表示文本,将文本中重要的特征提取出来,表示成单独的向量,并将多向量模型用于改善中文话题追踪的性能。由于命名实体名词对描述文本内容非常重要,因此在多向量模型中,将命名实体抽取出来成为单独的向量,再进行主题追踪。在TDT4中文语料上进行测试,实验结果显示采用多向量模型能够提高主题追踪系统的性能。 (5)针对主题追踪任务中的主题漂移的问题,本文分析了主题漂移现象出现的原因和特点,提出了时间自适应提升(boosting)模型,该方法采用了自适应提升的思想。本文还提出了基于主动学习的自适应技术,该技术采用了基于流的主动学习框架。这两种方法都能够在追踪的过程中无监督地通过转移主题向量并对特征的权值进行调整来自适应地完善主题模型。根据主题时序性特点,在追踪系统中,引入时间因子的概念。在TDT4中文语料上进行测试,实验结果显示这两种技术能够部分地解决主题漂移问题,进而提高主题追踪的性能。 目前文本内容处理技术大都是基于特征独立假设的,这种假设并不符合实际情况。而贝叶斯网络只进行条件独立假设,特征间的关系可以用在学习过程中。因此,下一步我们将研究贝叶斯网络用于文本分类、信息过滤和主题追踪任务中。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王清翔;广凯;潘金贵;;基于支持向量机的邮件过滤[J];计算机科学;2007年09期
2 肖旻;;一种基于向量空间模型的邮件自动过滤算法研究[J];福建电脑;2006年08期
3 南丽丽;;垃圾邮件过滤方法浅析[J];运城学院学报;2005年05期
4 巩玉玺;张春海;韩彦稳;;邮件过滤中基于关联分析的潜在特征词挖掘[J];青岛理工大学学报;2006年02期
5 张健沛,徐华;支持向量机(SVM)主动学习方法研究与应用[J];计算机应用;2004年01期
6 王强;贾银山;;支持向量机及其在邮件过滤中的应用[J];微处理机;2010年03期
7 夏克俭;张涛;;基于贝叶斯算法的垃圾邮件过滤的研究[J];微计算机信息;2008年09期
8 王彦明;奉永桃;奉国和;;1999-2008年我国SVM文本分类文献计量分析[J];图书情报工作;2009年20期
9 卢扬竹;张新有;祁玉;;邮件过滤中特征选择算法的研究及改进[J];计算机应用;2009年10期
10 谭建龙;张吉;郭莉;;基于通用后缀树模型的垃圾邮件过滤方法[J];计算机工程;2007年09期
11 孙强;李建华;李生红;;基于Python的文本分类系统开发研究[J];计算机应用与软件;2011年03期
12 杨清;李方敏;;基于LSI和SVM分类法的定题邮件过滤研究[J];计算机工程与应用;2006年35期
13 夏成锋;;基于n-gram及SVM的中文垃圾邮件过滤[J];广东广播电视大学学报;2008年01期
14 林伟;柳荣其;徐熙;;一种基于N-Gram的垃圾邮件过滤方法研究[J];计算机应用与软件;2010年02期
15 姚学礼;;基于内容过滤垃圾邮件综述[J];科技风;2009年11期
16 许增福,梁静国,田晓宇;基于FVSM和自组织映射网络的Web文本自动分类方法[J];哈尔滨工业大学学报;2004年09期
17 郑海,林鸿飞;基于段落匹配的文本分类机制[J];计算机工程与应用;2004年28期
18 王丁,运海红,张辉;文本自动分类系统的研究与实现[J];信息技术;2005年03期
19 杜志文;曾文华;;网格计算在文本分类中的应用[J];微电子学与计算机;2006年S1期
20 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 王岩;;基于内容的垃圾邮件过滤技术[A];中国通信学会第六届学术年会论文集(中)[C];2009年
5 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
7 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
2 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
3 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
4 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
5 邓蔚;垃圾邮件过滤中的敌手分类问题研究[D];电子科技大学;2011年
6 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
7 王会珍;文本内容分类和主题追踪关键技术研究[D];东北大学;2008年
8 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
9 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
10 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 杨盛;电子邮件过滤系统的研究与设计[D];中南大学;2005年
2 杨丽华;基于内容的垃圾邮件过滤技术研究[D];西南交通大学;2006年
3 黄诠;基于多贝叶斯并行融合模型的邮件过滤算法研究[D];湖南大学;2008年
4 洪艳芬;基于网格的垃圾邮件过滤系统的研究与应用[D];南昌大学;2008年
5 胡锡衡;垃圾邮件的分析与过滤[D];辽宁科技大学;2008年
6 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
7 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
8 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
9 闫晨;KNN文本分类研究[D];燕山大学;2010年
10 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
中国重要报纸全文数据库 前10条
1 乔珊;备份你的邮件过滤规则[N];电脑报;2004年
2 郑惠荣;利用人工智能进行邮件过滤[N];中国计算机报;2003年
3 ;冠群金辰赤宵KILL邮件过滤网关— 采用独立的硬件平台杀毒[N];计算机世界;2003年
4 黄智军;IronMail帮保险业过滤邮件[N];计算机世界;2007年
5 唐慧;让电子邮件更安全[N];网络世界;2002年
6 ;不止是垃圾邮件过滤[N];网络世界;2005年
7 温远;构筑E-mail安全堡垒[N];中国电子报;2003年
8 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
9 《计算机世界》评测实验室 李韬;构建一体化安全方案[N];计算机世界;2006年
10 吴倩;让E-mail更安全[N];中国计算机报;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978