收藏本站
《湖南大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

文本分类算法研究

杨昂  
【摘要】: WWW的出现导致网站上的文本成指数级增长,因此如何自动处理这些海量联机文本成为目前重要的研究课题。自动文本分类是文本信息处理中的一个重要环节。 本文研究文本的自动分类算法。本文对常用的文本分类算法进行了评价,并且对这些算法在文本分类的应用进行了讨论。文本分类算法是有监督的学习算法,它需要一个分类好的,类别已标识的文本数据集训练分类器,然后用训练好的分类器对未标识类别的文本分类。一般分类器的精度随着训练文本的增多而提高,但人工分类好的文本是一种昂贵的资源,文本分类算法要解决的一个重要问题是要减少训练集中人工分类的文本数量,同时保证其精度。针对这一问题,本文从以下两个方面进行了研究。 首先,研究了在训练集较小的条件下提高分类精度的问题。本文在最近特征线算法的基础上,结合k近邻算法的思想,提出一种k最近特征线文本分类算法。实验结果表明,该算法在训练集较小的情况下,算法可以具有较好的性能。 本文的另一贡献是采用未标识文本来扩充训练集,提出了迭代TFIDF算法。网上存在大量文本,这些文本一般都没有类别标签,该算法可以利用大量廉价的未标识文本,结合很少的手工标识文本,通过迭代训练出较高精度的TFIDF文本分类器。实验结果表明,在同等实验条件下,该算法精度高于已有的EM贝叶斯文本分类算法。迭代TFIDF算法属于爬山算法,初始值的选取对精度影响较大,算法容易收敛到局部最优值。 针对迭代TFIDF算法存在的局部最优问题,本文引入主动学习的概念,提出了基于主动学习的迭代TFIDF算法。实验结果表明,主动学习可以有效的抑制算法收敛到局部最优值,进一步提高了算法精度。
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2002
【分类号】:TP393.03.

【引证文献】
中国期刊全文数据库 前1条
1 郭飞;张先君;叶俊;;基于改进互信息的特征提取的文本分类系统[J];四川理工学院学报(自然科学版);2008年03期
中国博士学位论文全文数据库 前1条
1 郭勇;基于语义的网络知识获取相关技术研究[D];国防科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
2 郭飞;文本挖掘方法探讨及应用[D];成都理工大学;2006年
3 王进博;业务选择网关中IP分类算法研究与设计[D];西安电子科技大学;2006年
4 张琼;Web主题网页内容安全监管研究[D];西安电子科技大学;2008年
5 沙盛中;复杂场景视频图像中运动物体的检测与跟踪[D];苏州大学;2008年
6 阿雅娜;蒙古文停用词表和词干提取对蒙古文文本分类的影响[D];内蒙古大学;2009年
7 张筱丹;基于向量空间模型的web文本自动摘要系统的研究[D];合肥工业大学;2009年
8 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
9 叶西切忠;基于web的藏文文本自动分类研究与实现[D];青海民族大学;2012年
10 王伟;基于粗糙集的Web文本KNN分类方法及在金融中的应用研究[D];西南大学;2013年
【共引文献】
中国期刊全文数据库 前10条
1 刘兴远,方顺兴,姚忠国;建筑结构试验数据处理的几种方法[J];四川建筑科学研究;1993年02期
2 张燕平;提取特征规则的重复覆盖算法(RCA)[J];安徽大学学报(自然科学版);2002年02期
3 高湘萍;吴小培;沈谦;;基于脑电的意识活动特征提取与识别[J];安徽大学学报(自然科学版);2006年02期
4 吴凤凰;;模式识别在植物叶片识别中的应用[J];安徽农业科学;2007年01期
5 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
6 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
7 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
8 王继昌;庞祥武;;联机签名Bayes分类器设计算法[J];鞍山师范学院学报;2005年06期
9 胡煜;;偏最小二乘方法和二次判别分析方法应用于基因芯片数据分析[J];鞍山师范学院学报;2007年04期
10 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
中国重要会议论文全文数据库 前10条
1 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
3 王永骥;王琬;;基于支持向量机的运动神经控制建模[A];第二十四届中国控制会议论文集(下册)[C];2005年
4 宋宇莹;;行星状星云的三维重建[A];'2008系统仿真技术及其应用学术会议论文集[C];2008年
5 朱艳辉;王平;周咏梅;;一种基于Agent的中文Web信息自动检索系统(英文)[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
6 钱志远;郁正庆;;最近邻VQ码本法方言识别研究[A];第二届全国人机语音通讯学术会议论文集[C];1992年
7 梁飞;吕洪波;姚锦峰;;舆情分析中语料库降维[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
8 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
9 李爱新;孙铁;郭炎峰;;基于人工神经网络的脑电信号模式分类[A];自动化技术与冶金流程节能减排——全国冶金自动化信息网2008年会论文集[C];2008年
10 纪萌;张子明;施远征;刘礼;;基于ARM9处理器的运动员训练数据视频采集系统的设计[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
3 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
5 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
6 孙珂;大规模文档标签自动标注技术研究[D];哈尔滨工业大学;2011年
7 梁艳红;基于专利挖掘的创新设计关键技术研究[D];河北工业大学;2011年
8 刘君;融合计算智能的蛋白质结构预测研究[D];重庆大学;2011年
9 杨艳屏;主动学习算法及其在心血管疾病诊断中的应用研究[D];华中科技大学;2010年
10 姚拓中;结合主动学习的视觉场景理解[D];浙江大学;2011年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年
4 平金玉;基于组合核与主动学习的蛋白质交互关系抽取[D];大连理工大学;2010年
5 桑媛媛;基于非负稀疏表示的文本分类算法研究[D];大连理工大学;2010年
6 梁延峰;基于专家委员会的主动学习算法研究[D];中国海洋大学;2010年
7 熊超;基于潜在语义对偶空间的跨语言文本分类研究[D];江西师范大学;2010年
8 张庆久;近邻法与多视角学习的理论与算法研究[D];华东师范大学;2011年
9 孙海虹;基于模糊粗糙集的Web文本分类研究[D];哈尔滨理工大学;2010年
10 梁晔平;中文文本自动分类相关算法的研究与实现[D];华南理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李锐;Linux系统QoS原理与应用[J];安徽大学学报(自然科学版);2003年02期
2 曾绍良;关于哈希法查找效率的分析[J];经济管理与干部教育;1995年04期
3 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
4 何益斌,高景昌,杨亚红,赵君,李小琳;Microsoft SQL Server的索引结构及其优化[J];长春邮电学院学报;2001年Z1期
5 张煜东;霍元铠;吴乐南;董正超;;降维技术与方法综述[J];四川兵工学报;2010年10期
6 刘辉;邵良杉;;Web文本分类中特征项权重的研究[J];科技和产业;2010年02期
7 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报;2003年03期
8 周颜军,王双成,王辉;基于贝叶斯网络的分类器研究[J];东北师大学报(自然科学版);2003年02期
9 叶东毅;Jelonek属性约简算法的一个改进[J];电子学报;2000年12期
10 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
中国博士学位论文全文数据库 前8条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
4 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
5 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
6 赵晖;支持向量机分类方法及其在文本分类中的应用研究[D];大连理工大学;2006年
7 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
8 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
3 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
4 罗强;基于粗糙集理论的知识发现在web文本挖掘上的应用研究[D];广西大学;2003年
5 樊建聪;使用贝叶斯方法的数据挖掘及应用研究[D];山东科技大学;2003年
6 湛燕;K-近邻、K-均值及其在文本分类中的应用[D];河北大学;2003年
7 肖红;基于web的中文文本挖掘研究[D];大庆石油学院;2004年
8 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
9 费爱蓉;基于贝叶斯方法的Web服务分类的研究[D];合肥工业大学;2004年
10 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 孙铁利;张妍;李晓微;;文本挖掘中特征降维方法比较研究[J];电脑知识与技术;2008年02期
2 徐春雨;;基于RBF神经网络的Web文本分类的研究[J];电脑知识与技术;2011年13期
3 王娟;;Web文本分类技术研究[J];福建电脑;2008年09期
4 郭宇;;Web数据挖掘及其在人才引进方面的应用[J];硅谷;2011年24期
5 陈新元;;近年来我国分类检索语言研究热点综述[J];科技情报开发与经济;2009年20期
6 陈娜;;基于分类技术的Blog用户兴趣挖掘[J];科学之友;2010年03期
7 刘妮;;基于语义Web的知识检索技术研究[J];科技信息;2012年34期
8 寸待杰;刘韶涛;;采用内容挖掘的缅甸文字相似文档检索[J];华侨大学学报(自然科学版);2013年05期
9 吕彦红;陈基漓;阮百尧;;基于遗传算法的中文自动分类特征选择[J];山东理工大学学报(自然科学版);2009年01期
10 刘辉;;基于位置的特征项权重算法[J];中国新技术新产品;2011年14期
中国博士学位论文全文数据库 前4条
1 王萍;网络环境下的领域知识挖掘[D];华东师范大学;2010年
2 宋强;中国互联网低俗内容监管研究[D];北京邮电大学;2012年
3 常德海;GIS知识工程关键理论与方法研究[D];河南理工大学;2012年
4 马俊;专题地图总体设计智能化理论与方法研究[D];解放军信息工程大学;2013年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
3 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
4 罗亚平;面向网络舆情的中文评论文本情感倾向分析研究[D];东北财经大学;2010年
5 徐丽平;基于内容挖掘的中文垃圾邮件过滤技术研究[D];东北财经大学;2010年
6 李兆雄;基于图模型的中文小样本文本分类研究[D];西安电子科技大学;2009年
7 张宁;基于语义的中文文本预处理研究[D];西安电子科技大学;2011年
8 朱建新;SSG中负载均衡策略的研究与设计[D];西安电子科技大学;2009年
9 李坤;SSG中基于应用层协议的带宽管理的研究[D];西安电子科技大学;2009年
10 关高娃;蒙古文停用词和英文停用词比较研究[D];内蒙古大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 张欣欣,薛冰冰;基于数据挖掘技术的BBS的安全管理[J];洛阳工业高等专科学校学报;2003年04期
2 张婧;李珏峰;;数据挖掘技术在BBS管理中的应用[J];福建电脑;2008年04期
3 大鱼儿;;自动扩展大小的TEdit[J];软件;2001年07期
4 赵春红;刘国华;王柠;何玲玲;;外包数据库模型中文本数据的完整性检测方案[J];小型微型计算机系统;2010年09期
5 仲志平;刘渝妍;翟从鸿;;基于BWC的XML文本数据索引技术[J];安徽师范大学学报(自然科学版);2011年03期
6 仲志平;刘渝妍;孙建洪;;基于BWC的XML文本数据索引技术研究[J];昆明学院学报;2011年03期
7 杜德生;田小军;;Lucene应用中Pdf文档文本数据提取方法研究[J];自动化技术与应用;2009年03期
8 王成强;;基于不平衡数据集的文本分类技术[J];电脑知识与技术;2009年36期
9 孙开放;使用通信控件实现字节通信方式[J];微计算机信息;2002年03期
10 薛冰冰,普杰信;数据挖掘技术及其在电子邮件中的应用[J];信息技术;2003年07期
中国重要会议论文全文数据库 前10条
1 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
2 丁兆云;贾焰;周斌;;基于文本数据的多维层次式舆情计算模型的研究与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
4 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 杨艳;李巍;玄萍;;数字图书馆中基于Ontology的文本模型[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
6 彭泽映;俞晓明;许洪波;;大规模短文本的不完全聚类[A];第六届全国信息检索学术会议论文集[C];2010年
7 李虎;邹鹏;贾焰;周斌;;一种基于Map Reduce的分布式文本数据过滤模型研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
8 苏变萍;侯筱婷;;文本数据的非线性降维方法研究[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
9 张小琴;蒋秀凤;;基于句子级的领域倾向词表构建[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 张丹;王静;;水利系统档案馆信息化管理[A];第十届中国科协年会文化强省战略与科技支撑论坛文集[C];2008年
中国重要报纸全文数据库 前10条
1 曾华燊;化繁为简: 提升NGI服务质量[N];计算机世界;2006年
2 实习生 赵静记者 黄雪英;自贡馆藏文物数据库系统建立[N];自贡日报;2008年
3 Jim Goodnight;BI:演进中勾勒未来[N];网络世界;2007年
4 张耀南 杨海 韦五周 景通桥 张军强;寒区旱区数据管理平台[N];计算机世界;2006年
5 王;汇总通话、加速Web显示[N];中国计算机报;2001年
6 本报记者 谢斌鑫;视频的短板[N];中国计算机报;2004年
7 苏和;电子检务该如何推行[N];检察日报;2007年
8 ;BI的新方向[N];网络世界;2007年
9 金翔 王钰;全国文物普查通过验收[N];广元日报;2010年
10 杨前有;柞水建成土地利用现状数据库[N];商洛日报;2007年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
3 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
4 朱岩;面向文本数据的半监督学习研究[D];北京交通大学;2012年
5 崔安颀;微博热点事件的公众情感分析研究[D];清华大学;2013年
6 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
7 卢敏;具有自然分组特性文本的分类研究[D];南开大学;2013年
8 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
9 布凡;文本信息度量研究[D];清华大学;2013年
10 邓莎莎;支持决策研讨的文本分析方法研究[D];上海交通大学;2013年
中国硕士学位论文全文数据库 前10条
1 朱敏;基于丰心工学的情感信息可视化与充实度分析[D];北京邮电大学;2011年
2 徐淑坦;基于改进RBF神经网络的文本情感分类研究[D];吉林大学;2011年
3 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
4 李正林;中文文本数据分类研究[D];上海师范大学;2004年
5 罗晖霞;网络舆情监测系统研究与开发[D];中北大学;2010年
6 陈鸿;Web网页的时态文本索引研究[D];中国科学技术大学;2011年
7 暴自强;结合LSA的文本谱聚类算法研究[D];重庆大学;2010年
8 马桂香;评论文本的多方面观点挖掘研究[D];北京交通大学;2013年
9 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
10 暴艳;多领域的文本情感倾向分类方法研究[D];山西大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026