收藏本站
《山东大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于类别结构的文本层次分类方法研究

祝翠玲  
【摘要】:文本分类是文本数据挖掘中的一项关键技术,其主要任务是在预先给定的类别标记集合下,根据文本内容利用有监督学习的方法判定它的类别。文本分类在自然语言处理、信息组织与管理等领域都有着广泛地应用。但是,近年来文本分类的类别规模越来越庞大,如Yahoo! Directo、Open Direct Project (ODP)等都已经有成千上万个类别,如果把这些类别并列组织,那么将一个文本进行正确分类的难度非常大,同时用户从中找到感兴趣的类别也需要花费大量的时间。因此,现实生活中的分类体系往往将类别组织成层次结构。由于这种层次结构经常以树的形式,因此被称作“类树”。基于这种类树结构,研究者们引入了层次型文本分类方法,它不但能够符合用户的行为习惯,方便用户检索、浏览文档,而且可以通过限制搜索范围减少分类过程中的计算量,提高分类质量。 由于在层次型文本分类中,类别被组织成层次结构,在某一层中对类别有较好区分作用的特征词可能在其他层中对类别的区分作用不大,而且在能减少阻滞的阈值降低策略中,阈值降低的度一直很难把握;而在类树中不仅各个类别之间存在着一定的联系,其训练样本之间也都存在着一定的联系,这些在层次分类的特征选择、层次分类模型的训练以及分类器阈值的确定方面都是不可忽视的因素。相对于爆发式方法,自顶向下式层次分类方法由于能够更好的利用层次结构所提供的信息而备受关注,然而这种方法却存在着“阻滞”问题,而且由于分类器自身性能的限制,“阻滞”问题又是不可避免的,那么,如何利用这些类树和样本的层次结构信息和“阻滞”问题中携带的一些隐含信息来减少“阻滞”带来的影响,提高分类质量仍然是一个值得研究的课题。 本文的主要研究内容和创新点包括以下几个方面: 1.提出了一种面向层次分类的文本特征选择方法 在借鉴已有的特征选择方法的基础上,提出了一种面向层次分类的文本特征选择方法。首先根据类别在类树中的语义关系给出了类别层次相关和类别层次不相关的概念,并根据类树的层次结构和各类别的训练样本的分布情况,提出了一种利用数学手段进行度量的方法;然后,考虑到各层次的训练样本对特征词的类别区分能力的不同贡献和类别之间的层次相关性,根据提出的类别层次相关度的计算方法,可以为类树中每个类别根据其所在层次赋予不同的重要度;再利用概率的方法获得特征词的类别相关性;最后,基于前面的结果,计算每个特征对类别的识别能力。实验结果表明:该方法不管在选取的特征质量上还是在accuracy、F1和micro-Precision等分类测度上均优于传统方法。 本部分的创新点:(1)通过分析类树中类别之间的语义关系,提出了类别层次相关的概念,并提出了一种度量方法。(2)根据类树的层次结构特点和各层次的训练样本对特征词的类别区分能力的不同贡献,为在类树中构建的每个分类器选择不同的特征词进行特征表示,为层次分类的特征选择开辟了一个新的思路。 2.提出了一种基于类树全局信息的文本层次分类方法 在自顶向下式层次分类过程中,由于“阻滞”现象的存在,使得在上层分类器中产生的错误分类将会在下层分类器中得到进一步增强,根据这一特点,定义了一种新的层次损失函数,可以对产生阻滞的分类器根据其所在的层次以及其影响范围给予不同的惩罚。以该层次损失函数最小化为目标,将“阻滞”现象中的一些隐含信息以及类树中类别和样本的层次结构信息引入boosting方法的框架中,通过调整各迭代过程中训练样本的质量来改进分类模型的质量,最后将在各个迭代过程中构建的分类器进行组合来建立一个更好的层次分类模型,以减少在高层结点上“阻滞”现象的产生,实现改善层次分类整体性能的目的。实验结果表明:训练出来的分类器在accuracy、precision、recall、F1和microPrecicion等分类测度上均优于传统的AdaBoost方法;同时也说明“阻滞”现象中所隐含的一些信息对训练层次分类器有一定的作用,可以在一定程度上提高层次分类的分类效果,减少在上层发生阻滞的机会,为以后对“阻滞”信息的使用提供了一定的借鉴作用。 本部分的创新点:将层次型文本分类引入boosting框架中,并能结合层次型文本分类中类别和文档的层次结构信息以及发生“阻滞”时的一些隐含信息,提出一种新的层次损失函数和调整各训练样本权重的方法,以改进层次分类模型的质量,提高层次分类的整体性能。 3.提出了一种基于回溯算法的文本层次分类方法 考虑到不同层次的训练样本对特征词区分作用的不同贡献,我们将信息增益方法和文档的层次信息相结合进行特征选择,使得选取的特征词能更符合层次分类的特点。 在能减少阻滞的阈值降低策略中,阈值降低的度一直很难把握。为了给每个分类器确定一个合适的阈值,通过对训练样本在各类中分布的特点进行分析,结合类别之间的关系,将在某类别结点上构建的分类器的训练样本分成三个子集对KNN分类器进行训练,使类树中的每个分类器都能获得一个阈值的取值范围,为阈值的选择提供了一定的依据。然后,利用回溯方法,获得文档的候选类别集合,最后利用文档与候选类别质心之间距离的远近来确定文档的最后类别。实验结果表明:该方法可以减少上层阻滞的发生,其整体分类效果要优于KNN方法。 本部分的创新点:(1)根据类别和样本的层次分布特点,对信息增益特征选择方法进行了适当的改进,使选择的特征词能更适合层次分类的特点。(2)在阈值降低策略的基础上,通过分析层次型文本分类中各类别的训练样本的分布特点,结合KNN分类方法,提出了一种新的确定各结点阈值取值范围的方法。并结合回溯方法对文档进行层次分类获得文档的候选类别集合,最终根据文档和候选类别的质心之间的距离远近决定文档的最终类别。 综上所述,本文主要围绕类别组成的层次结构进行展开,根据层次型文本分类的特点,在层次型文本分类的特征选择、“阻滞”信息的使用以及减少“阻滞”的策略方面做了更进一步研究,并通过实验进行了验证。本文的研究丰富和完善了层次型文本分类的内容,为更好的使用类树的层次结构信息提供了一个新的思路。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 蒋健安;陆介平;倪巍伟;孙志挥;;一种面向专利文献数据的文本自动分类方法[J];计算机应用;2008年01期
2 鲍翠梅;;支持向量机在文本特征提取中的应用研究[J];计算机应用与软件;2010年05期
3 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期
4 陶兰,申军霞;文本信息自动分类系统ITC98(Ⅰ)──ITC98总体结构与编码子系统[J];中国农业大学学报;1999年04期
5 王海涌,郑丽英,刘丽艳;基于文本表示的特征项权值确定方法研究[J];甘肃科学学报;2005年03期
6 史晶蕊,郑玉明,韩希;人工神经网络在文本分类中的应用[J];计算机应用研究;2005年10期
7 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
8 胡学钢;董学春;谢飞;;基于词向量空间模型的中文文本分类方法[J];合肥工业大学学报(自然科学版);2007年10期
9 刘玉琴;赖院根;雷孝平;;基于IPC知识结构的专利自动分类模型[J];小型微型计算机系统;2007年12期
10 卢娇丽,郑家恒;基于粗糙集的文本分类方法研究[J];中文信息学报;2005年02期
11 马金娜;田大钢;;基于SVM的中文文本自动分类研究[J];计算机与现代化;2006年08期
12 李文;王炜立;洪胜华;;基于互信息的特征提取方法在中文法律案情文本分类中的改进及应用[J];科技广场;2006年11期
13 魏晓宁;朱巧明;梁惺彦;;结合中文分词的贝叶斯文本分类[J];苏州市职业大学学报;2008年01期
14 周朴雄;;基于神经网络集成的WEB文档分类研究[J];图书情报工作;2008年07期
15 崔彩霞;;停用词的选取对文本分类效果的影响研究[J];太原师范学院学报(自然科学版);2008年04期
16 陈键;胡学刚;;词分布均衡度评价特征词选取方法的文本分类[J];安徽科技学院学报;2009年02期
17 李家兵;;中文文本分类特征选择的研究[J];皖西学院学报;2009年02期
18 张华;;文本分类技术[J];电脑知识与技术;2009年24期
19 刘沛骞;冯晶晶;;一种改进的朴素贝叶斯文本分类算法[J];微计算机信息;2010年27期
20 程传鹏;;一种改进的X~2统计量方法[J];中原工学院学报;2010年06期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
6 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
8 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
9 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
10 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
3 本报记者 胡珉琦;论文反抄袭软件被“攻克”[N];北京科技报;2011年
4 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
5 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
6 希安;微软试水信息检索[N];经济日报;2004年
7 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
8 俞扬;“洪武赶散”与泰州方言[N];泰州日报;2006年
9 应晓敏 窦文华;技术架构[N];计算机世界;2003年
10 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
中国博士学位论文全文数据库 前10条
1 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
2 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
3 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
4 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
5 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
6 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
7 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
8 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
9 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
10 郝立柱;汉语文本自动分类[D];吉林大学;2008年
中国硕士学位论文全文数据库 前10条
1 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
2 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
3 闫晨;KNN文本分类研究[D];燕山大学;2010年
4 张玉杰;基于偏斜数据集的中文文本分类问题的改进特征权重算法研究[D];东北师范大学;2010年
5 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
6 赵小华;KNN文本分类中特征词权重算法的研究[D];太原理工大学;2010年
7 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
8 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
9 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年
10 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978