收藏本站
《东北大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

文本内容分类和主题追踪关键技术研究

王会珍  
【摘要】: 互联网成为人们快速获取信息以及交换信息工具的同时,也给人们带来了更多新的挑战。人们迫切需要一种高效快速准确的技术来帮助自己处理浩瀚的信息。各种信息检索、信息过滤、分类、主题检测与追踪等文本信息处理技术应运而生,并且得到了越来越多的关注。目前,文本内容分类和主题追踪技术的研究逐渐成为了自然语言处理领域的研究热点。根据具体应用和需求通常需要对文本进行深入分析和处理。因此,本文分析和研究了文本内容分类和主题追踪任务的关键问题,提出了相应的解决方案,并通过大量的实验证明了这些方案的有效性。主要工作包括以下几点: (1)研究特征对不同类别之间的判别能力来提高文本分类的性能。采用合理的评价方式选择出对类别具有较强判别能力的特征来参与文本分类过程。以此来增强分类器对类别的判别能力。本文提出了基于判别能力的特征选取方法,该方法采用overall-divergence评价方式直接度量每个特征对不同类别之间的判别能力。实验结果显示,本文提出的特征选取方法在混淆数据集中很好地提高了文本分类的性能。在通用数据集中,基于判别能力的特征选取方法与最好的特征选取方法性能稍高或者相当。 (2)针对文本分类中存在混淆类别的现象,主要研究混淆类判别技术,进而改善文本分类性能。首先本文提出了一种基于分类错误分布(Classification Error Distribution, CED)的混淆类识别技术,该技术能够识别预定义类别中的混淆类集合。为了有效地对属于混淆类的文本进行分类,识别预定义类别中的混淆类集合。为了有效判别混淆类,本文采用上述提出的基于判别能力的特征选取技术参与混淆类的判别过程,构建判别能力较强的混淆类分类器。本文设计并实现了基于两阶段的分类器设计框架。将初始分类器和混淆类分类器进行集成,组合两个阶段的分类结果作为最后输出。实验结果显示,在Newsgroup和863中文评测语料上,针对单标签、多类分类器体系,混淆类识别和判别技术有效地改善了分类性能。 (3)研究垃圾邮件过滤任务中的关键技术。首先,本文研究计算简便并且速度要快的过滤算法;其次,考虑到垃圾邮件的内容特征随时间变化较快,本文研究需要具备反馈学习和自适应能力的垃圾邮件过滤技术。本文提出了基于两层内容分析的垃圾邮件过滤技术。设计并实现了基于两层内容分析的垃圾邮件过滤器。第一层是快速内容过滤,选用运行和更新较快的朴素贝叶斯分类器对邮件进行第一次过滤,将疑似的邮件送给第二层过滤。采用第二级内容过滤模块对疑似邮件再进行判别。由于垃圾邮件的内容特征随时间变化较快,本文还提出了基于反馈学习和自适应技术的垃圾邮件过滤技术。并将这些技术应用到初审/复审协作式垃圾邮件过滤框架中。在公开语料和实时网络环境下,垃圾邮件过滤性能较好。 (4)针对主题追踪任务中主题没有明确描述的问题,本文研究了主题表示方式,提出了多向量模型。它采用多个向量表示文本,将文本中重要的特征提取出来,表示成单独的向量,并将多向量模型用于改善中文话题追踪的性能。由于命名实体名词对描述文本内容非常重要,因此在多向量模型中,将命名实体抽取出来成为单独的向量,再进行主题追踪。在TDT4中文语料上进行测试,实验结果显示采用多向量模型能够提高主题追踪系统的性能。 (5)针对主题追踪任务中的主题漂移的问题,本文分析了主题漂移现象出现的原因和特点,提出了时间自适应提升(boosting)模型,该方法采用了自适应提升的思想。本文还提出了基于主动学习的自适应技术,该技术采用了基于流的主动学习框架。这两种方法都能够在追踪的过程中无监督地通过转移主题向量并对特征的权值进行调整来自适应地完善主题模型。根据主题时序性特点,在追踪系统中,引入时间因子的概念。在TDT4中文语料上进行测试,实验结果显示这两种技术能够部分地解决主题漂移问题,进而提高主题追踪的性能。 目前文本内容处理技术大都是基于特征独立假设的,这种假设并不符合实际情况。而贝叶斯网络只进行条件独立假设,特征间的关系可以用在学习过程中。因此,下一步我们将研究贝叶斯网络用于文本分类、信息过滤和主题追踪任务中。
【学位授予单位】:东北大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前5条
1 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
2 周水庚,关佶红,俞红奇,胡运发;基于Ngram信息的中文文档分类研究[J];中文信息学报;2001年01期
3 宫秀军,刘少辉,史忠植;一种增量贝叶斯分类模型[J];计算机学报;2002年06期
4 王庆波,方滨兴,云晓春;电子邮件过滤检测系统的设计与实现[J];计算机应用研究;2000年10期
5 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
【共引文献】
中国期刊全文数据库 前10条
1 陈文亮;朱靖波;朱慕华;姚天顺;;基于领域词典的文本特征表示[J];计算机研究与发展;2005年12期
2 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
3 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
4 江爱朋;邵之江;方学毅;郑小青;钱积新;;基于有限存储的简约空间序列二次规划算法研究[J];电路与系统学报;2007年05期
5 檀林,张永奎;一种基于迭代学习的文本分类器构造方法[J];电脑开发与应用;2004年02期
6 庄世宇,薛纪善,朱国富,赵军,朱宗申;GRAPES全球三维变分同化系统——基本设计方案与理想试验[J];大气科学;2005年06期
7 刘茂旺;林世平;;BOOSTING算法在多类多标签文本分类中的应用[J];福建电脑;2006年03期
8 顾桂定,王德人;成组Broyden修正矩阵的紧凑形式与成组记忆修正算法[J];高等学校计算数学学报;1998年02期
9 尹中航,王永成,蔡巍;应用支持向量机进行网上信息自动分类[J];高技术通讯;2001年11期
10 李菁菁,邵培基,黄亦潇;数据挖掘在中国的现状和发展研究[J];管理工程学报;2004年03期
中国重要会议论文全文数据库 前10条
1 穆穆;王家城;;非线性全局及局部最优扰动和第一类可预报性[A];自然、工业与流动——第六届全国流体力学学术会议论文集[C];2001年
2 王周宏;;符号几何规划的全局解方法[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
3 杨月婷;纪颖;王大力;;改进的有限内存BFGS算法的二次终止性质[A];中国运筹学会第七届学术交流会论文集(下卷)[C];2004年
4 赖英旭;李征;;未知病毒检测技术的研究[A];2006年全国理论计算机科学学术年会论文集[C];2006年
5 朱艳辉;王平;周咏梅;;一种基于Agent的中文Web信息自动检索系统(英文)[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
6 SHI Yong-feng. ZHAO Yan-ping School of Management and Economics, Beijing Institute of Technology , Beijing 100081, China;Comparison of Text Categorization Algorithms[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
7 梁飞;吕洪波;姚锦峰;;舆情分析中语料库降维[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
8 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
9 马后锋;樊兴华;;一种改进的增量贝叶斯分类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
10 潘宁;郁凡;;用一维变分法校正卫星资料反演湿度的试验研究[A];全国优秀青年气象科技工作者学术研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 黄解军;贝叶斯网络结构学习及其在数据挖掘中的应用研究[D];武汉大学;2005年
2 张爱军;最优变分伴随方法及在近岸水位资料同化中的应用[D];中国科学院海洋研究所;2000年
3 韩桂军;伴随法在潮汐和海温数值计算中的应用研究[D];中国科学院海洋研究所;2001年
4 时贞军;约束优化问题的参数控制算法研究[D];大连理工大学;2002年
5 吴涛;构造性知识发现方法研究[D];安徽大学;2003年
6 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
7 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
8 连淑君;共轭梯度算法的全局收敛性研究[D];大连理工大学;2004年
9 郭秀娟;基于关联规则数据挖掘算法的研究[D];吉林大学;2004年
10 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前10条
1 黄辉宇;基于神经网络的不良信息实时监测系统研究[D];燕山大学;2003年
2 周威成;信息过滤方法的研究与应用[D];华北电力大学(北京);2003年
3 胡吉祥;基于频繁模式的消息文本聚类研究[D];中国科学院研究生院(计算技术研究所);2006年
4 李悛;基于移动代理的分布式数据挖掘研究[D];浙江工业大学;2005年
5 刘辉;基于贝叶斯分类技术的电信客户欺诈分析[D];西南交通大学;2005年
6 葛强;亲属关系逻辑推理专家系统的研究[D];河南大学;2005年
7 赵巍;基于聚类的网页相关性挖掘技术研究[D];东北师范大学;2005年
8 郭亚光;基于粗糙集合和朴素贝叶斯模型的分类问题研究[D];合肥工业大学;2005年
9 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
10 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 苟格;整数规划中的割平面法与分枝定界法比较[J];达县师范高等专科学校学报;2005年02期
2 刘俊华,窦延平;自动识别技术在质量追溯中的应用[J];计算机仿真;2005年02期
3 苏海涛,杨世元,董华,沈毛虎;基于因果追溯的制造业质量信息获取方法研究[J];制造业自动化;2005年09期
4 叶明海;赵敏;;缺陷汽车产品召回的批次性质量追溯方法[J];汽车工程;2006年06期
5 周劲;潘玉奇;张平;;扩展的最优分割法在有序样本分类中的应用[J];计算机工程与设计;2006年04期
6 陈文亮;朱靖波;朱慕华;姚天顺;;基于领域词典的文本特征表示[J];计算机研究与发展;2005年12期
7 郭炜强;戴天;文贵华;;基于领域知识的专利自动分类[J];计算机工程;2005年23期
8 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
9 刘华;专利制度与经济增长:理论与现实——对中国专利制度运行绩效的评估[J];中国软科学;2002年10期
10 姜晓曦;;2000~2005年我国竞争情报研究述评[J];情报杂志;2006年10期
中国硕士学位论文全文数据库 前3条
1 黄婕;制造企业产品质量追溯系统研究[D];武汉科技大学;2006年
2 王青亮;基于批次管理的产品追踪溯源的研究[D];哈尔滨工业大学;2006年
3 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
【二级参考文献】
中国期刊全文数据库 前9条
1 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
2 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期
3 战学刚,林鸿飞,姚天顺;中文文献的层次分类方法[J];中文信息学报;1999年06期
4 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[J];中文信息学报;2006年01期
5 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
6 宫秀军,史忠植;基于Bayes潜在语义模型的半监督Web挖掘[J];软件学报;2002年08期
7 宋丹;王卫东;陈英;;基于改进向量空间模型的话题识别与跟踪[J];计算机技术与发展;2006年09期
8 唐征,武景宁,陈荦;电子邮件服务的集成应用技术[J];小型微型计算机系统;1999年06期
9 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
【相似文献】
中国期刊全文数据库 前10条
1 王清翔;广凯;潘金贵;;基于支持向量机的邮件过滤[J];计算机科学;2007年09期
2 肖旻;;一种基于向量空间模型的邮件自动过滤算法研究[J];福建电脑;2006年08期
3 南丽丽;;垃圾邮件过滤方法浅析[J];运城学院学报;2005年05期
4 巩玉玺;张春海;韩彦稳;;邮件过滤中基于关联分析的潜在特征词挖掘[J];青岛理工大学学报;2006年02期
5 张健沛,徐华;支持向量机(SVM)主动学习方法研究与应用[J];计算机应用;2004年01期
6 王强;贾银山;;支持向量机及其在邮件过滤中的应用[J];微处理机;2010年03期
7 夏克俭;张涛;;基于贝叶斯算法的垃圾邮件过滤的研究[J];微计算机信息;2008年09期
8 王彦明;奉永桃;奉国和;;1999-2008年我国SVM文本分类文献计量分析[J];图书情报工作;2009年20期
9 卢扬竹;张新有;祁玉;;邮件过滤中特征选择算法的研究及改进[J];计算机应用;2009年10期
10 谭建龙;张吉;郭莉;;基于通用后缀树模型的垃圾邮件过滤方法[J];计算机工程;2007年09期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 王岩;;基于内容的垃圾邮件过滤技术[A];中国通信学会第六届学术年会论文集(中)[C];2009年
5 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
7 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 乔珊;备份你的邮件过滤规则[N];电脑报;2004年
2 郑惠荣;利用人工智能进行邮件过滤[N];中国计算机报;2003年
3 ;冠群金辰赤宵KILL邮件过滤网关— 采用独立的硬件平台杀毒[N];计算机世界;2003年
4 黄智军;IronMail帮保险业过滤邮件[N];计算机世界;2007年
5 唐慧;让电子邮件更安全[N];网络世界;2002年
6 ;不止是垃圾邮件过滤[N];网络世界;2005年
7 温远;构筑E-mail安全堡垒[N];中国电子报;2003年
8 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
9 《计算机世界》评测实验室 李韬;构建一体化安全方案[N];计算机世界;2006年
10 吴倩;让E-mail更安全[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
2 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
3 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
4 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
5 邓蔚;垃圾邮件过滤中的敌手分类问题研究[D];电子科技大学;2011年
6 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
7 王会珍;文本内容分类和主题追踪关键技术研究[D];东北大学;2008年
8 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
9 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
10 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 杨盛;电子邮件过滤系统的研究与设计[D];中南大学;2005年
2 杨丽华;基于内容的垃圾邮件过滤技术研究[D];西南交通大学;2006年
3 黄诠;基于多贝叶斯并行融合模型的邮件过滤算法研究[D];湖南大学;2008年
4 洪艳芬;基于网格的垃圾邮件过滤系统的研究与应用[D];南昌大学;2008年
5 胡锡衡;垃圾邮件的分析与过滤[D];辽宁科技大学;2008年
6 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
7 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
8 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
9 闫晨;KNN文本分类研究[D];燕山大学;2010年
10 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026