收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

文本分类及其相关技术研究

李荣陆  
【摘要】:随着Internet的迅猛发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。 本文对文本分类及其相关技术进行了研究。从提高分类方法的快速性、准确性和稳定性出发,提出多种有效的解决或改进的方法和技术。同时,对文本分类技术的一个新的研究方向——文本流派分类,文本分类的一个重要应用领域——文本信息过滤,进行了研究。本文研究内容和创新工作主要包括以下五点。 (1)训练样本的选择 训练样本的选择对分类器的创建非常重要,非典型样本不仅增加了分类器的训练时间,而且容易给训练样本集中引入一些“噪声”。论文针对KNN这种常用的文本分类方法,分析了什么是它的典型样本,提出了一种基于密度的样本选择算法。根据样本ε邻域内的样本数目估计样本周围的密度,根据样本ε邻域内不同类别样本的数目确定类别之间的边界。裁剪高密度区域的样本,减少非典型样本的数量。同时,尽量保留类别边界部分的样本,以保证分类器的准确性。 (2)基于最大熵模型的中文文本分类研究 中文本文分类和英文文本分类有许多不同之处,文本特征的提取方式、稀疏程度都有所不同,所以分类结果亦有所不同。对于最大熵模型来说尤为不同,因为汉语的熵高于英语。论文从中文文本特征的生成方法入手,使用了分词和N-Gram两种文本特征生成方法,使用了绝对折扣技术对特征的概率进行平滑处理,对最大熵模型和Naive Bayes、KNN、SVM三种方法的性能进行了比较分析。在实验中发现最大熵模型的稳定性不够好,所以将Bagging和最大熵模型结合起来,提高了最大熵模型的稳定性。 (3)使用层次分类改善平面分类的性能 不同于以往的层次化分类,论文中使用了一种本质为图的层次结构,利用这种层次结构解决平面分类问题,从而提高平面分类的查准率和查全率。在普通的类别层次结构中,同一父类的兄弟类别之间的混淆关系是对称的,但事实上类别之间的混淆关系不是对称的。论文从分类器的混淆矩阵入手,引入了混淆类别的概念。利用混淆类别构造的类别层次结构,从查准率和查全率的角度来考虑类别之间的关系,表达出了混淆关系的非对称性。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 王潇;;一种改进的粗糙集文本分类模型[J];福建电脑;2008年03期
2 周咏梅,陈旭日;基于支持向量机的文本分类研究[J];中国包装工业;2002年05期
3 龚静;胡平霞;李春媚;;一种用于文本分类的特征项权值计算方法的研究[J];惠州学院学报;2013年06期
4 刘霞;卢苇;;SVM在文本分类中的应用研究[J];计算机教育;2007年02期
5 刘冬雪;;文本分类及其相关技术的研究[J];科技创新导报;2010年16期
6 霍亮;杨柳;霍烽;;谈文本分类中的相关技术[J];合作经济与科技;2012年13期
7 谭冠群;丁华福;;支持向量机方法在文本分类中的改进[J];信息技术;2008年01期
8 张启蕊;董守斌;张凌;;文本分类的性能评估指标[J];广西师范大学学报(自然科学版);2007年02期
9 张桂芸;刘洋;王元元;;基于模糊认知图的文本分类推理算法[J];计算机工程与应用;2007年12期
10 张征杰;王自强;;文本分类及算法综述[J];电脑知识与技术;2012年04期
11 郝春风;王忠民;;一种用于大规模文本分类的特征表示方法[J];计算机工程与应用;2007年15期
12 孟杰;耿正;严莉莉;张燕平;;覆盖算法在文本分类中的应用[J];计算机技术与发展;2007年07期
13 张薇娟;张桂芸;;基于模糊认知图的文本分类模型研究[J];天津科技;2007年04期
14 姚学礼;;文本分类中的特征提取方法的研究[J];光盘技术;2009年06期
15 周晗;赵卫东;季军;;一种用于文本分类的特征选择方法[J];电脑知识与技术;2008年34期
16 邹晶;冯剑琳;李曲;王元珍;;基于句子级的最大频繁序列的文本分类[J];计算机科学;2006年01期
17 宋枫溪;陈才扣;刘树海;杨静宇;;文本表示方式对线性支持向量机分类性能的影响[J];模式识别与人工智能;2004年02期
18 毛文伟;;基于线性分析的日语文本分类模型构建研究[J];外语电化教学;2019年06期
19 曲凯扬;;基于支持向量机的文本分类研究[J];无线互联科技;2016年05期
中国重要会议论文全文数据库 前20条
1 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 包剑;冀明;冯军;;基于模糊支持向量机的文本分类[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
3 罗长升;段建国;许洪波;郭莉;;基于拉推策略的文本分类增量学习研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 岑艺明;;内外合璧,让非连续性文本阅读教学锦上添花——浅谈小学语文非连续性文本教学的现状及策略[A];教育理论研究(第六辑)[C];2019年
5 李长松;;引导学生走进文本的天地——阅读方法指导例谈[A];国家教师科研基金“十一五”成果集(中国名校卷)(五)[C];2009年
6 张智军;沈昉;朱伟;;文本组织方式对介绍性文章搜索绩效的影响研究[A];中国人类工效学学会第六次学术交流会论文摘要汇编[C];2003年
7 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 热依玛依·买买提;维尼拉·木沙江;;基于文本的图片检索中图片相关文本提取技术的研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
9 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
10 刘顺利;;在“元文本”与“文本”之间[A];东方丛刊(2004年第1辑 总第四十七辑)[C];2004年
11 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
12 王树西;白硕;姜吉发;;基于自由文本的模式推理[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
13 任函;何婷婷;;大规模在线文本的自动分类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
14 周忠敏;张荣军;;变了味的文本拓展[A];江苏省教育学会2006年年会论文集(文科专辑)[C];2006年
15 钟辉;黄洋;;基于版面特征的文档图像的文本定位方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
16 万中英;王明文;廖海波;;一种新的投影寻踪计算方法及在文本分类中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
17 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
18 曾青青;杨尔弘;;突发事件文本的信息结构分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
19 劉學;;英漢網絡旅游宣傳文本的人際功能差异與翻譯[A];东北亚外语论坛(2019 NO.3 总第13期)[C];2018年
20 曾青青;杨尔弘;;事件词驱动的文本事件信息结构初探[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前20条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
2 闫琰;基于深度学习的文本表示与分类方法研究[D];北京科技大学;2016年
3 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
4 宋胜利;文本语义表示及多层分类关键技术研究[D];西安电子科技大学;2012年
5 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
6 刘晓佩;自然场景文本信息提取关键技术研究[D];西安电子科技大学;2014年
7 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
8 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
9 郭顺;词和文本的表示与文本分类的研究[D];大连理工大学;2020年
10 王中卿;基于文本信息的社会关系分析与研究[D];苏州大学;2016年
11 章东平;视频文本的提取[D];浙江大学;2006年
12 肖翠云;行走在文本与文化之间[D];苏州大学;2006年
13 廖一星;文本分类及其特征降维研究[D];浙江大学;2012年
14 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
15 李岩;基于深度学习的短文本分析与计算方法研究[D];北京科技大学;2016年
16 张妍;自我指涉与表演:柯马丁解释《诗经》等文本的策略[D];浙江大学;2014年
17 李丽洁;视频中文本信息提取技术研究[D];哈尔滨工程大学;2012年
18 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
19 尹芳;场景文本识别关键技术研究[D];哈尔滨理工大学;2012年
20 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
中国硕士学位论文全文数据库 前20条
1 李偲;基于朴素贝叶斯的文本分类研究及其在微博分类中的应用[D];北京理工大学;2015年
2 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
3 仲梓源;基于遗传与反馈的分布式文本分类研究[D];北京邮电大学;2014年
4 张俊丽;文本分类中的关键技术研究[D];华中师范大学;2008年
5 牛肖潇;支持向量机及用于文本分类的研究[D];武汉理工大学;2006年
6 张华鑫;基于支持向量机的文本分类研究[D];西南科技大学;2016年
7 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
8 陈林;独立于语种的文本分类研究[D];重庆大学;2007年
9 王雪飞;词间相关性对文本分类的影响[D];南京理工大学;2007年
10 蒋子海;基于元信息的文本分类与优化技术研究与实现[D];国防科学技术大学;2010年
11 孙伟;基于中小学图书的文本分类和推荐研究[D];中央民族大学;2016年
12 谭小龙;基于微信公众号的文本分类研究[D];华中师范大学;2016年
13 项峻求;文本分类在电子政务平台中的应用与研究[D];南昌大学;2013年
14 刘超;基于主题挖掘和覆盖的文本分类研究[D];安徽大学;2011年
15 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
16 单单;文本情感分析的若干关键问题研究[D];北京邮电大学;2011年
17 台德艺;基于特征权重算法的文本分类研究[D];合肥工业大学;2007年
18 王培;面向中医知识的文本分类研究[D];华北理工大学;2021年
19 李钰曼;面向林业文本的关键信息抽取研究[D];北京林业大学;2020年
20 张春杰;基于主题模型的文本分类及主题词网络构建研究[D];中国民航大学;2015年
中国重要报纸全文数据库 前20条
1 南京师范大学外国语学院 姚婷婷;自然文本:生态符号学重要的方法论概念[N];中国社会科学报;2021年
2 记者 程静;市政府召开申报国家历史文化名城文本专题汇报会[N];九江日报;2019年
3 本报记者 王晓真 实习记者 陈禹同;推动中国古典文本国际化[N];中国社会科学报;2020年
4 记者 陈姝;拦截恶意文本只需“毫秒”[N];深圳商报;2020年
5 ;中美走到谈协议文本,双方更需理性[N];环球时报;2019年
6 记者 林嫔;完善申报历史文化名城文本[N];湄洲日报;2018年
7 本报记者 王婷婷;写好申遗文本 讲好梵净故事[N];铜仁日报;2018年
8 本报记者 袁欢;立一个自足于文本的“深度时间”[N];文学报;2018年
9 江苏省南京市长江路小学 宋韵;抵达文本深处[N];中国教师报;2019年
10 记者 王心见;联合国公布2015巴黎气候协定谈判文本[N];科技日报;2015年
11 晓春;里斯本协定日内瓦文本通过[N];中国工商报;2015年
12 南文;明清城墙联合申遗文本汇总编制第二次协调会召开[N];中国文物报;2012年
13 本报记者 过团木;文本短信:主流地位没有动摇[N];通信信息报;2004年
14 ;BI和文本分析的强强联手[N];网络世界;2007年
15 本报记者 孙妙凝;在流变视角下重新审视“文本之河”[N];中国社会科学报;2014年
16 本报记者 刘毅;图文本日益青睐经典之作[N];中华读书报;2000年
17 本报记者 王树民;《购售电合同(示范文本)》公布[N];中国电力报;2003年
18 记者 邱骏 张虎林;博物馆新馆布展文本方案通过专家论证[N];泰州日报;2010年
19 驻辽宁记者李一;辽宁推出《家装合同》示范文本规范家装行业[N];中国建材报;2009年
20 本报记者  李红兴;文本神话在网络[N];财经时报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978