收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向文本分类的中文文本挖掘技术研究及实现

徐爱华  
【摘要】: 目前,随着信息技术的快速发展,特别是网络的普及,以文本形式表示的信息越来越多,如何在纷繁芜杂的信息海洋中找到自己需要的有用信息,具有广泛的应用背景和实用价值。文本挖掘作为从浩瀚的文本数据中发现潜在的有价值知识的一种有效技术,已经成为近年来的研究热点,许多研究人员对文本挖掘技术进行了大量的研究,但这些研究大部分是在英文环境下进行的,对中文的研究却很少。本文对中文文本挖掘技术进行了研究,在此基础上实现了一个文本分类系统。 对中文文本进行分析的一个前提条件是对中文文本进行分词处理,中文分词也是进行中文信息处理的一个难点。针对这一现状,本文在陈桂林博士的分词方法基础上,设计和实现了一种快速分词算法。该方法将常用静态词典分为停用词和非停用词两类词,在建立词典时,将是否停用词作为词的一个特性。分词词典建立首字Hash表和词索引表二级索引,使得在加载词典时将词索引加入内存,可以采用二分法对文本进行最大匹配分词,并在分词的同时根据词的类别将对分类没有意义的停用词去掉,大大降低了特征维数。这种分词算法将分词和特征集缩减结合在一起,从而减少了特征缩减过程而使时间复杂度大大降低。这种分词算法在实验中证明实用性强,效果好。 文本分类是文本数据挖掘领域的一个重要研究方面,采用支持向量机对文本进行分类是当前的一个研究热点。本文设计和实现了一个基于支持向量机的实用文本分类系统,介绍了系统实现中的一些主要技术问题。文本表示采用向量空间模型,文本的评价方法采用了查准率和查全率,文本的特征抽取采用了一种互信息方法。分类算法是文本分类的关键,介绍了线性支持向量机和非线性支持向量机,从结构风险最小化原则得到了支持向量机优于其它方法的结论。在实现上,采用串并行相结合的学习方法对支持向量机参数进行调整,利用工作集和缓存技术提高学习算法效率。最后采用支持向量机对文本进行分类,实验结果表明该系统查准率和查全率都较高。


知网文化
【相似文献】
中国期刊全文数据库 前16条
1 王珍珍;;关于文本挖掘中文本分类与文本聚类的研究[J];科技信息;2007年06期
2 曲凯扬;;基于支持向量机的文本分类研究[J];无线互联科技;2016年05期
3 朱建林;彭鲸桥;杨小平;王倩;;融入词和文本关系的文本表示模型研究[J];山西大学学报(自然科学版);2015年03期
4 龚静;胡平霞;李春媚;;一种用于文本分类的特征项权值计算方法的研究[J];惠州学院学报;2013年06期
5 霍亮;杨柳;霍烽;;谈文本分类中的相关技术[J];合作经济与科技;2012年13期
6 周咏梅,陈旭日;基于支持向量机的文本分类研究[J];中国包装工业;2002年05期
7 吴春燕;黄巧梅;刘海清;张捷;;文本主要信息的自动获取和主体挖掘[J];信息技术与信息化;2017年03期
8 郝春风;王忠民;;一种用于大规模文本分类的特征表示方法[J];计算机工程与应用;2007年15期
9 张征杰;王自强;;文本分类及算法综述[J];电脑知识与技术;2012年04期
10 刘冬雪;;文本分类及其相关技术的研究[J];科技创新导报;2010年16期
11 刘霞;卢苇;;SVM在文本分类中的应用研究[J];计算机教育;2007年02期
12 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期
13 王倩;曾金;刘家伟;戚越;;基于深度学习的学术文本段落结构功能识别研究[J];情报科学;2020年03期
14 龚垒;;基于特征类别均衡的文本分类分类方法[J];电子世界;2017年13期
15 毛文伟;;基于线性分析的日语文本分类模型构建研究[J];外语电化教学;2019年06期
16 何玉洁;;基于深度学习医疗文本命名实体识别研究[J];电脑编程技巧与维护;2020年08期
中国重要会议论文全文数据库 前20条
1 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 岑艺明;;内外合璧,让非连续性文本阅读教学锦上添花——浅谈小学语文非连续性文本教学的现状及策略[A];教育理论研究(第六辑)[C];2019年
4 李长松;;引导学生走进文本的天地——阅读方法指导例谈[A];国家教师科研基金“十一五”成果集(中国名校卷)(五)[C];2009年
5 张智军;沈昉;朱伟;;文本组织方式对介绍性文章搜索绩效的影响研究[A];中国人类工效学学会第六次学术交流会论文摘要汇编[C];2003年
6 包剑;冀明;冯军;;基于模糊支持向量机的文本分类[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
7 罗长升;段建国;许洪波;郭莉;;基于拉推策略的文本分类增量学习研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 热依玛依·买买提;维尼拉·木沙江;;基于文本的图片检索中图片相关文本提取技术的研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
9 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
10 刘顺利;;在“元文本”与“文本”之间[A];东方丛刊(2004年第1辑 总第四十七辑)[C];2004年
11 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
12 王树西;白硕;姜吉发;;基于自由文本的模式推理[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
13 任函;何婷婷;;大规模在线文本的自动分类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
14 周忠敏;张荣军;;变了味的文本拓展[A];江苏省教育学会2006年年会论文集(文科专辑)[C];2006年
15 钟辉;黄洋;;基于版面特征的文档图像的文本定位方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
16 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
17 曾青青;杨尔弘;;突发事件文本的信息结构分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
18 劉學;;英漢網絡旅游宣傳文本的人際功能差异與翻譯[A];东北亚外语论坛(2019 NO.3 总第13期)[C];2018年
19 曾青青;杨尔弘;;事件词驱动的文本事件信息结构初探[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
20 黄永光;刘挺;车万翔;胡晓光;;面向变异短文本的快速聚类算法[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
中国博士学位论文全文数据库 前20条
1 闫琰;基于深度学习的文本表示与分类方法研究[D];北京科技大学;2016年
2 刘晓佩;自然场景文本信息提取关键技术研究[D];西安电子科技大学;2014年
3 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
4 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
5 王中卿;基于文本信息的社会关系分析与研究[D];苏州大学;2016年
6 宋胜利;文本语义表示及多层分类关键技术研究[D];西安电子科技大学;2012年
7 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
8 章东平;视频文本的提取[D];浙江大学;2006年
9 肖翠云;行走在文本与文化之间[D];苏州大学;2006年
10 李岩;基于深度学习的短文本分析与计算方法研究[D];北京科技大学;2016年
11 张妍;自我指涉与表演:柯马丁解释《诗经》等文本的策略[D];浙江大学;2014年
12 李丽洁;视频中文本信息提取技术研究[D];哈尔滨工程大学;2012年
13 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
14 尹芳;场景文本识别关键技术研究[D];哈尔滨理工大学;2012年
15 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
16 许剑峰;数字视频中的文本分割的研究[D];华南理工大学;2005年
17 李朝晖;基于视频文本检测和视频对象分割方法研究[D];华南理工大学;2004年
18 刘健;基于近似文本分析的意见挖掘[D];上海大学;2007年
19 荣欢;带有情感增强与情感融合的文本情感预测关键技术研究[D];南京信息工程大学;2020年
20 裴唯一;图像和视频中场景文本检测方法研究[D];北京科技大学;2018年
中国硕士学位论文全文数据库 前20条
1 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
2 牛海根;文本挖掘技术在短信文本中的应用研究[D];电子科技大学;2007年
3 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
4 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
5 蒋敏梅;基于概念的文本分类研究[D];北京交通大学;2008年
6 张华鑫;基于支持向量机的文本分类研究[D];西南科技大学;2016年
7 仲梓源;基于遗传与反馈的分布式文本分类研究[D];北京邮电大学;2014年
8 张振峰;基于向量空间模型的文本分类算法研究[D];杭州电子科技大学;2011年
9 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
10 张俊丽;文本分类中的关键技术研究[D];华中师范大学;2008年
11 牛肖潇;支持向量机及用于文本分类的研究[D];武汉理工大学;2006年
12 王珺瑶;面向微博文本的分类技术应用研究[D];广西大学;2015年
13 李运龙;基于概念的文本分类算法研究[D];华南理工大学;2010年
14 吴义国;支持向量机研究及其在文本分类中的应用[D];广东工业大学;2011年
15 李偲;基于朴素贝叶斯的文本分类研究及其在微博分类中的应用[D];北京理工大学;2015年
16 台德艺;基于特征权重算法的文本分类研究[D];合肥工业大学;2007年
17 胡倩;自然场景下的文本定位[D];淮北师范大学;2014年
18 王雪飞;词间相关性对文本分类的影响[D];南京理工大学;2007年
19 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
20 王懿;基于自然语言处理和机器学习的文本分类及其应用研究[D];中国科学院研究生院(成都计算机应用研究所);2006年
中国重要报纸全文数据库 前20条
1 董震;文本的新铺陈与意义的新呈现[N];科学时报;2010年
2 记者 程静;市政府召开申报国家历史文化名城文本专题汇报会[N];九江日报;2019年
3 本报记者 王晓真 实习记者 陈禹同;推动中国古典文本国际化[N];中国社会科学报;2020年
4 记者 陈姝;拦截恶意文本只需“毫秒”[N];深圳商报;2020年
5 何建明;应当充分自信中国自己的文本书写[N];文艺报;2019年
6 周宪;数字时代,回归文本更需要[N];中国石化报;2019年
7 ;中美走到谈协议文本,双方更需理性[N];环球时报;2019年
8 何建明;应当对中国的文本书写充分自信[N];太原日报;2019年
9 任彦申;呼唤初心的美好文本[N];江西日报;2019年
10 山东省枣庄市山亭区桑村镇芹沃小学教师 满孝明;植思维之花,赏文本芬芳[N];语言文字报;2019年
11 吉林省吉林市永吉县第十中学教师 高东玲;有效整合文本,课堂尽显活力[N];语言文字报;2019年
12 记者 林嫔;完善申报历史文化名城文本[N];湄洲日报;2018年
13 本报记者 王婷婷;写好申遗文本 讲好梵净故事[N];铜仁日报;2018年
14 桫椤;文本位移和审美转场[N];文艺报;2018年
15 本报记者 袁欢;立一个自足于文本的“深度时间”[N];文学报;2018年
16 荣新江;《马可·波罗与元代中国:文本与礼俗》序[N];中华读书报;2018年
17 中央党校马克思主义学院 牛先锋;吃透文本 面向现实 弘扬正气[N];学习时报;2017年
18 山东大学古希腊思想研究中心主任、教授 谢文郁;如何处理思想和文本的关系?[N];中国社会科学报;2015年
19 黄恩鹏;把思想文本提高到写作的首位[N];文学报;2015年
20 如东县马塘镇邱升中学 邱亚琴;教师研读文本[N];学知报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978