收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

文本分类中的关键技术研究

张俊丽  
【摘要】: 随着Internet的大规模普及,信息量的迅猛增加,用户要在信息海洋里,快速、准确、全面地找到所需要的信息,就像大海捞针一样困难。如何有效地组织和管理数据,方便人们的检索?如何快速地区分有用信息和无用信息?如何从海量的数据中高效地获取有用知识?如何满足各种用户的个性化需求?所有这些问题都成了人们面临的挑战性课题。 文本分类是将自然文本根据内容自动分为预先定义的一个或者几个类别的过程。它作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱无章的问题,方便用户准确地定位所需的信息。在文本分类领域,有两个影响分类效果的主要因素,分别是特征选择算法和文本分类算法。特征选择主要是找出描述特定领域的相关词汇,去除影响分类效果的噪音词汇(如虚词、形容词等),它可以大大减少特征集合中的特征数,提高系统运行的速度和分类准确度;而好的分类算法则是取得满意的分类效果的保证。 χ~2统计量(Chi-square,CHI)是一种重要的特征选择算法,这种算法考虑了特征与类别出现的各种可能性,表现出了良好的分类效果和稳定性。但也存在着缺陷和不足,它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性。本文根据χ~2统计量算法存在的这两个缺点,对其进行了改进,提出了统计频率(StatisticalFrequency,SF)算法,实验结果表明,统计频率算法能够弥补这些不足,在文本分类中表现出了良好的分类效果。 在文本分类领域,本文在阐述几种常见的分类算法后,重点分析了K近邻(K-Nearest Neighbor,KNN)算法。经典KNN算法在文本分类中表现出了较高的分类准确率,应用较为广泛。但是经典KNN易受K值选择和训练文本分布的影响,使分类结果偏向于文本数较多的一类。本文对KNN算法进行了优化,实验结果表明,基于统计频率及改进的KNN算法能够减少样本库对分类效果的影响,改善了分类性能。


知网文化
【相似文献】
中国期刊全文数据库 前18条
1 霍亮;杨柳;霍烽;;谈文本分类中的相关技术[J];合作经济与科技;2012年13期
2 龚静;胡平霞;李春媚;;一种用于文本分类的特征项权值计算方法的研究[J];惠州学院学报;2013年06期
3 龚垒;;基于特征类别均衡的文本分类分类方法[J];电子世界;2017年13期
4 李东勤;王芳;周万怀;;自然场景图像中的文本检测方法研究[J];重庆科技学院学报(自然科学版);2016年06期
5 孙飞;郭嘉丰;兰艳艳;程学旗;;面向文本分类的有监督显式语义表示[J];数据采集与处理;2017年03期
6 王郝日钦;;基于自动编码器的文本分类实现[J];中国高新区;2017年16期
7 曲凯扬;;基于支持向量机的文本分类研究[J];无线互联科技;2016年05期
8 程南昌;侯敏;滕永林;;基于文本特征的短文本倾向性分析研究[J];中文信息学报;2015年02期
9 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
10 李均明;趙桂芳;;清華簡文本復原——以《清華大學藏戰國竹簡》第一、二輯為例[J];出土文献;2012年00期
11 朱迎春;;让语文课堂充满语文的味道[J];文学教育(上);2019年02期
12 杨帆;;对文学文本是否真实的辩证认识[J];语文教学通讯;2019年01期
13 余叶;;从细节处体味、挖掘文本之妙[J];读与写(教育教学刊);2019年01期
14 ;住建部、工商总局联合修订《建设工程施工合同(示范文本)》[J];建筑技术开发;2017年22期
15 ;2013版建设工程施工合同(示范文本)已废止,10月1日已执行2017版[J];建筑设计管理;2017年12期
16 李频;;高校官方微信公众号的文本传播解读[J];西部广播电视;2018年16期
17 何国跻;;高中非连续性文本的主要类型及其阅读意义[J];语文月刊;2014年06期
18 刘红玉;;朗读指导,不可忽视文本细微处[J];小学教学参考;2014年13期
中国重要会议论文全文数据库 前10条
1 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 岑艺明;;内外合璧,让非连续性文本阅读教学锦上添花——浅谈小学语文非连续性文本教学的现状及策略[A];教育理论研究(第六辑)[C];2019年
4 李长松;;引导学生走进文本的天地——阅读方法指导例谈[A];国家教师科研基金“十一五”成果集(中国名校卷)(五)[C];2009年
5 张智军;沈昉;朱伟;;文本组织方式对介绍性文章搜索绩效的影响研究[A];中国人类工效学学会第六次学术交流会论文摘要汇编[C];2003年
6 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
7 罗长升;段建国;许洪波;郭莉;;基于拉推策略的文本分类增量学习研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 热依玛依·买买提;维尼拉·木沙江;;基于文本的图片检索中图片相关文本提取技术的研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
9 刘顺利;;在“元文本”与“文本”之间[A];东方丛刊(2004年第1辑 总第四十七辑)[C];2004年
10 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 刘晓佩;自然场景文本信息提取关键技术研究[D];西安电子科技大学;2014年
2 闫琰;基于深度学习的文本表示与分类方法研究[D];北京科技大学;2016年
3 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
4 王中卿;基于文本信息的社会关系分析与研究[D];苏州大学;2016年
5 李岩;基于深度学习的短文本分析与计算方法研究[D];北京科技大学;2016年
6 张妍;自我指涉与表演:柯马丁解释《诗经》等文本的策略[D];浙江大学;2014年
7 李丽洁;视频中文本信息提取技术研究[D];哈尔滨工程大学;2012年
8 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
9 尹芳;场景文本识别关键技术研究[D];哈尔滨理工大学;2012年
10 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
中国硕士学位论文全文数据库 前10条
1 张俊丽;文本分类中的关键技术研究[D];华中师范大学;2008年
2 王珺瑶;面向微博文本的分类技术应用研究[D];广西大学;2015年
3 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
4 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
5 邱芸;小学英语教材整合中的文本再构实践研究[D];上海师范大学;2016年
6 黄志锋;中职语文教学“反文本”倾向探究[D];宁波大学;2015年
7 卢虹贝;木心文学创作中的“文本再生”现象研究[D];南京大学;2014年
8 仲梓源;基于遗传与反馈的分布式文本分类研究[D];北京邮电大学;2014年
9 韩霜;古代辞赋类文本教学探索[D];山东师范大学;2014年
10 胡晓平;新课程背景下阅读教学中的文本教学资源研究[D];陕西师范大学;2013年
中国重要报纸全文数据库 前10条
1 何建明;应当充分自信中国自己的文本书写[N];文艺报;2019年
2 周宪;数字时代,回归文本更需要[N];中国石化报;2019年
3 ;中美走到谈协议文本,双方更需理性[N];环球时报;2019年
4 何建明;应当对中国的文本书写充分自信[N];太原日报;2019年
5 任彦申;呼唤初心的美好文本[N];江西日报;2019年
6 记者 林嫔;完善申报历史文化名城文本[N];湄洲日报;2018年
7 本报记者 王婷婷;写好申遗文本 讲好梵净故事[N];铜仁日报;2018年
8 桫椤;文本位移和审美转场[N];文艺报;2018年
9 本报记者 袁欢;立一个自足于文本的“深度时间”[N];文学报;2018年
10 荣新江;《马可·波罗与元代中国:文本与礼俗》序[N];中华读书报;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978