收藏本站
《西北民族大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于N-Gram模型的藏文文本分类技术研究

周登  
【摘要】:信息时代的到来,Internet上出现了爆炸式增长的信息资源。为了让人们不被这些海量的信息淹没,我们需要一种有效的方法对这些信息资源进行分类管理。对于怎样利用这些信息,文本分类起着非常重要的作用,它可以有效地组织和管理这些信息,从而提高信息搜索的效率。 本文对藏文文本分类及其相关技术进行了深入的研究,在分类中应用了一种不需分词的藏文文本表示方法。与传统其他藏文文本分类模型相比,该方法在音节的级别上利用了N元语法模型,由于进行文本表示时无需进行分词,藏文文本分类系统可以并且节省大量预处理过程中使用的计算资源。其次对目前常用的文本表示模型进行了分析比较,同时对藏文文本N ? Gram模型的表示进行了深入的研究,并对该模型中参数N的选取以及藏文文本分类系统的各个功能进行讨论;在第四章中本文对系统的核心功能分类器进行了详细论述,藏文文本分类系统选择的是多项式朴素贝叶斯分类器,该分类器通过与N ? Gram模型相结合能够取得良好的分类效果;最后,由于特征集中存在大量高度重叠特征和高度偏差特征,本文使用降维方法δ? OR,将高度重叠的Bigram特征提升到对应的Trigram特征。实验证明δ? OR方法不仅实现了特征降维,消除了冗余信息,而且提高了特征的描述能力和分类能力,在一定降维度范围内,还会适当改善分类效果。
【学位授予单位】:西北民族大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
2 李静梅,孙丽华,张巧荣,张春生;一种文本处理中的朴素贝叶斯分类器[J];哈尔滨工程大学学报;2003年01期
3 刘丽珍,宋瀚涛;文本分类中的特征选取[J];计算机工程;2004年04期
4 刘静,尹存燕,陈家骏;一种规则和贝叶斯方法相结合的文本自动分类策略[J];计算机应用研究;2005年07期
5 刁倩,王永成,张惠惠,何骥;文本自动分类中的词权重与分类算法[J];中文信息学报;2000年03期
6 周水庚,关佶红,俞红奇,胡运发;基于Ngram信息的中文文档分类研究[J];中文信息学报;2001年01期
7 刘斌,黄铁军,程军,高文;一种新的基于统计的自动文本分类方法[J];中文信息学报;2002年06期
8 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
9 李勇,桑艳艳;网络文本数据分类技术与实现算法[J];情报学报;2002年01期
10 叶浩,王明文,曾雪强;基于潜在语义的多类文本分类模型研究[J];清华大学学报(自然科学版);2005年S1期
中国博士学位论文全文数据库 前2条
1 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
2 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前2条
1 杨静;基于粗糙集合和信息熵的分类模型研究[D];合肥工业大学;2004年
2 张美香;贝叶斯文本分类器的研究与改进[D];太原理工大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 康海燕;任俊玲;陈昕;王鹤沩;;基于自然语言处理的多级网页过滤器研究[J];信息安全与技术;2011年10期
2 高迎,王丽君,王锡钢;Simutem:一个中文信息检索系统[J];鞍山师范学院学报;2001年03期
3 郭忠伟;桑殿伟;郑华利;李洪峰;;军用文书自动生成中表层实现的概率模型[J];兵工自动化;2010年11期
4 郭庆琳,樊孝忠;知识信息搜索和获取技术的研究[J];北京工业大学学报;2003年04期
5 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
6 骆正华,樊孝忠,刘林,龚永罡;基于E-Chunk的问句实例分析系统[J];北京理工大学学报;2005年01期
7 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
8 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期
9 高影繁;马润波;刘玉树;;一种快速文本归类算法的设计与实现[J];北京理工大学学报;2006年12期
10 文娟;王小捷;;中文高频词串的抽取及其在语言模型中的应用[J];北京邮电大学学报;2009年05期
中国重要会议论文全文数据库 前10条
1 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
2 刘建毅;王菁华;王枞;;领域语义语法的统计生成[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
3 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
4 李连;朱爱红;;降低搜索空间的多媒体信息过滤技术[A];’2004计算机应用技术交流会议论文集[C];2004年
5 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
6 江涛;于洪志;李刚;;基于藏文网页的网络舆情监控系统研究[A];全国计算机安全学术交流会论文集(第二十三卷)[C];2008年
7 江涛;于洪志;徐涛;;互联网藏文内容安全检测过滤系统研究[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
8 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
9 周永健;郑玉明;廖湖声;;基于模糊聚类的文本分类器[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
10 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
3 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
4 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
5 罗建宏;粒计算分类知识发现算法及其应用[D];浙江大学;2010年
6 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
7 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
8 孙英娟;基于粗糙集的分类方法研究[D];吉林大学;2011年
9 浑洁絮;基于语义语言的英汉机器翻译研究[D];大连理工大学;2011年
10 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
4 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
5 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
6 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
7 张瑶;英汉机器翻译中的英语动词汉译研究[D];大连理工大学;2010年
8 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
9 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
10 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 曾雪强,王明文,陈素芬;一种基于潜在语义结构的文本分类模型[J];华南理工大学学报(自然科学版);2004年S1期
2 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
3 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
4 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
5 王伟强;高文;段立娟;;Internet上的文本数据挖掘[J];计算机科学;2000年04期
6 李晓梅,马树元,吴平东,陈之龙,柳回春;基于Bagging的手写体数字识别系统[J];计算机工程与科学;2004年02期
7 宫秀军,刘少辉,史忠植;一种增量贝叶斯分类模型[J];计算机学报;2002年06期
8 卜东波,白硕,李国杰;聚类/分类中的粒度原理[J];计算机学报;2002年08期
9 陈雅,郑建明;论网络环境下的信息个性化服务[J];新世纪图书馆;2003年01期
10 战学刚,林鸿飞,姚天顺;中文文献的层次分类方法[J];中文信息学报;1999年06期
中国硕士学位论文全文数据库 前1条
1 王德兴;基于量化概念格的关联规则挖掘模型研究[D];合肥工业大学;2003年
【相似文献】
中国期刊全文数据库 前10条
1 郑海,林鸿飞;基于段落匹配的文本分类机制[J];计算机工程与应用;2004年28期
2 王丁,运海红,张辉;文本自动分类系统的研究与实现[J];信息技术;2005年03期
3 杜志文;曾文华;;网格计算在文本分类中的应用[J];微电子学与计算机;2006年S1期
4 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
5 马忠宝;刘冠蓉;;基于支持向量机的中文文本分类模型研究[J];计算机技术与发展;2006年11期
6 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
7 祝晓鲁;白振兴;贾海燕;;自动文本分类技术研究[J];现代电子技术;2007年03期
8 张桂芸;刘洋;王元元;;基于模糊认知图的文本分类推理算法[J];计算机工程与应用;2007年12期
9 陈莲娜;姚伏天;;用于文本分类的多核SVM算法研究[J];计算机工程;2007年09期
10 王倩倩;段震;张燕平;;基于交叉覆盖算法的文本分类[J];计算机技术与发展;2007年06期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
6 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
7 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 本报记者 王向华;藏文图书“走进”藏区农家书屋[N];四川日报;2009年
2 本报记者 康 丽 茅卫东;阿牛和他的普利藏文学校[N];中国教师报;2005年
3 记者 王杰;藏文软件推广应用项目启动仪式在拉萨举行[N];西藏日报;2009年
4 记者 涂洪长;手机藏文资讯研发启动[N];人民日报海外版;2009年
5 德吉 边巴次仁;藏文走在我国少数民族文字信息化前列[N];中国民族报;2008年
6 本报记者 王坤宁;我国藏文出版驶入快车道[N];中国新闻出版报;2009年
7 涂洪长;手机藏文资讯研发启动 藏文将畅游无线通信网络[N];中国民族报;2009年
8 记者 张黎黎 晓勇;让藏文驰骋在信息高速路上[N];西藏日报;2010年
9 记者 朗杰 裘立华;藏文词典越来越厚[N];新华每日电讯;2002年
10 记者 根秋多吉 克珠;本报选送的10件藏文新闻作品获奖[N];甘孜日报(汉文);2007年
中国博士学位论文全文数据库 前10条
1 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
2 廖一星;文本分类及其特征降维研究[D];浙江大学;2012年
3 郑文斌;基于正则化线性统计模型的文本分类研究[D];浙江大学;2012年
4 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
5 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
6 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
7 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
8 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
9 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
10 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
2 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
3 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
4 闫晨;KNN文本分类研究[D];燕山大学;2010年
5 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
6 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
7 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
8 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
9 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
10 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026