收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

蒙古文停用词表和词干提取对蒙古文文本分类的影响

阿雅娜  
【摘要】: 伴随着网络的发展,文本分类技术成为信息处理领域中重要的研究方向,通常用于处理和组织大量文本数据。蒙古语在中国来说是少数民族语言,蒙古文信息处理发展较慢,但在民族文化传承和发展中起着重要的作用。因此研究蒙古文文本分类技术具有非常重要的意义。 本文的研究工作主要包含了以下三方面:(1)语料对分类系统的影响十分大,直接关系到分类系统性能。收集基于蒙古文国际标准编码的蒙古文文本,进行人工分类,构造用于实验的小型集合。(2)不同停用词选择方法对分类效果的影响不同,迄今为止,关于蒙古文停用词的研究成果还非常少。分析常用的停用词统计方法(主要有TF方法、DF方法、EC方法等),统计出相应的停用词表。在研究蒙古文词法、语法的基础上,提出基于翻译的停用词选择方法。通过实验比较不同停用词表对蒙古文文本分类系统的影响。(3)利用蒙古文后缀表进行词干提取处理。最后采用支持向量机算法作为分类算法,构建蒙古文文本分类系统。 作者收集了850篇蒙古文文本,共分为9个类别。运用支持向量机算法的开源软件构建了系统。实验结果表明,EC停用词表效果最好、基于翻译的停用词表次之;蒙古文词干提取可以提高分类效率,与去除停用词相结合效果更好。


知网文化
【相似文献】
中国期刊全文数据库 前18条
1 荣光;张化祥;;文本分类在搜索引擎性能中的应用[J];科技致富向导;2008年24期
2 霍亮;杨柳;霍烽;;谈文本分类中的相关技术[J];合作经济与科技;2012年13期
3 龚静;胡平霞;李春媚;;一种用于文本分类的特征项权值计算方法的研究[J];惠州学院学报;2013年06期
4 张征杰;王自强;;文本分类及算法综述[J];电脑知识与技术;2012年04期
5 龚垒;;基于特征类别均衡的文本分类分类方法[J];电子世界;2017年13期
6 杨利润;斯琴巴图;;浅析蒙古文电子文档中的文本错误[J];电脑知识与技术;2019年11期
7 刘冬雪;;文本分类及其相关技术的研究[J];科技创新导报;2010年16期
8 孙飞;郭嘉丰;兰艳艳;程学旗;;面向文本分类的有监督显式语义表示[J];数据采集与处理;2017年03期
9 王郝日钦;;基于自动编码器的文本分类实现[J];中国高新区;2017年16期
10 曲凯扬;;基于支持向量机的文本分类研究[J];无线互联科技;2016年05期
11 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
12 王潇;;一种改进的粗糙集文本分类模型[J];福建电脑;2008年03期
13 翟文洁;闫琰;张博文;殷绪成;;基于混合深度信念网络的多类文本表示与分类方法[J];情报工程;2016年05期
14 袁鼎荣;钟宁;张师超;;文本信息处理研究述评[J];计算机科学;2011年02期
15 李英;;基于词性选择的文本预处理方法研究[J];情报科学;2009年05期
16 张雪峰;设计贝叶斯分类器文本分类系统[J];电脑知识与技术;2005年20期
17 李均明;趙桂芳;;清華簡文本復原——以《清華大學藏戰國竹簡》第一、二輯為例[J];出土文献;2012年00期
18 林甲景;;细说中学语文教学的文本之“本”[J];教学月刊·中学版(语文教学);2019年04期
中国重要会议论文全文数据库 前10条
1 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 包剑;冀明;冯军;;基于模糊支持向量机的文本分类[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
3 岑艺明;;内外合璧,让非连续性文本阅读教学锦上添花——浅谈小学语文非连续性文本教学的现状及策略[A];教育理论研究(第六辑)[C];2019年
4 李长松;;引导学生走进文本的天地——阅读方法指导例谈[A];国家教师科研基金“十一五”成果集(中国名校卷)(五)[C];2009年
5 张智军;沈昉;朱伟;;文本组织方式对介绍性文章搜索绩效的影响研究[A];中国人类工效学学会第六次学术交流会论文摘要汇编[C];2003年
6 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 罗长升;段建国;许洪波;郭莉;;基于拉推策略的文本分类增量学习研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 热依玛依·买买提;维尼拉·木沙江;;基于文本的图片检索中图片相关文本提取技术的研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
9 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
10 刘顺利;;在“元文本”与“文本”之间[A];东方丛刊(2004年第1辑 总第四十七辑)[C];2004年
中国博士学位论文全文数据库 前10条
1 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
2 闫琰;基于深度学习的文本表示与分类方法研究[D];北京科技大学;2016年
3 刘晓佩;自然场景文本信息提取关键技术研究[D];西安电子科技大学;2014年
4 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
5 王中卿;基于文本信息的社会关系分析与研究[D];苏州大学;2016年
6 宋胜利;文本语义表示及多层分类关键技术研究[D];西安电子科技大学;2012年
7 李岩;基于深度学习的短文本分析与计算方法研究[D];北京科技大学;2016年
8 张妍;自我指涉与表演:柯马丁解释《诗经》等文本的策略[D];浙江大学;2014年
9 李丽洁;视频中文本信息提取技术研究[D];哈尔滨工程大学;2012年
10 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
中国硕士学位论文全文数据库 前10条
1 阿雅娜;蒙古文停用词表和词干提取对蒙古文文本分类的影响[D];内蒙古大学;2009年
2 艾海麦提江·阿布来提;维吾尔文文本分类研究及系统开发[D];新疆大学;2012年
3 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
4 王雪飞;词间相关性对文本分类的影响[D];南京理工大学;2007年
5 张振峰;基于向量空间模型的文本分类算法研究[D];杭州电子科技大学;2011年
6 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
7 张春燕;基于自然语言处理的文本分类分析与研究[D];江西理工大学;2011年
8 吴义国;支持向量机研究及其在文本分类中的应用[D];广东工业大学;2011年
9 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
10 王珺瑶;面向微博文本的分类技术应用研究[D];广西大学;2015年
中国重要报纸全文数据库 前10条
1 何建明;应当充分自信中国自己的文本书写[N];文艺报;2019年
2 周宪;数字时代,回归文本更需要[N];中国石化报;2019年
3 ;中美走到谈协议文本,双方更需理性[N];环球时报;2019年
4 何建明;应当对中国的文本书写充分自信[N];太原日报;2019年
5 记者 林嫔;完善申报历史文化名城文本[N];湄洲日报;2018年
6 本报记者 王婷婷;写好申遗文本 讲好梵净故事[N];铜仁日报;2018年
7 桫椤;文本位移和审美转场[N];文艺报;2018年
8 本报记者 袁欢;立一个自足于文本的“深度时间”[N];文学报;2018年
9 荣新江;《马可·波罗与元代中国:文本与礼俗》序[N];中华读书报;2018年
10 中央党校马克思主义学院 牛先锋;吃透文本 面向现实 弘扬正气[N];学习时报;2017年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978