收藏本站
《吉林大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本分类中分词和特征选择方法研究

李原  
【摘要】:中文文本分类是指计算机按照某种分类规则构建判别公式和分类算法,将待分类的中文文本分到预先定义好的类别之中。从计算机技术的角度来说,文本自动分类是一个归纳知识并进行应用的过程。 20世纪90年代以来,机器学习方法,如支持向量机、K近邻、朴素贝叶斯等,被广泛应用于文本分类。目前,中文文本分类研究已取得了很多研究成果,但还存在一些不足之处,例如,中文分词中单一使用正向最大匹配算法或逆向最大匹配算法,对歧义词的切分不够准确;特征选择中传统TFIDF权值算法对特征项权重计算不够合理,精度偏低,需进一步优化。 本文在已有研究工作的基础上,对中文文本自动分类进行了深入研究,提出了一种基于双向匹配存同消歧的中文分词算法和改进TFIDF权重算法。 针对目前预处理中文分词切分歧义问题,结合中文文本的特点,本文提出一种基于双向匹配存同消歧的中文分词算法。该算法对同一字串进行扫描时,先用逆向最大匹配法进行切词,再用正向最大匹配法进行切词,把两次切分结果相比较,相同的切分词段为正确切分字段,进行词语保留;不同的切分词段为歧义字段,进行歧义消解处理。通过对比实验,验证了该算法应用在中文分词中比正向与逆向最大匹配分词算法在分准率、分全率上有3%左右的提高,进而证明了该算法在中文分词中的有效性。 特征选择阶段,传统的TFIDF权值算法存在如下不足:一方面没有考虑特征项在类别之间分布情况,导致在类别之间分布均匀,对类别区分度不大的特征项赋予了很高的权值;另一方面,没有考虑特征项在每个类别内部文本中的分布情况,导致在一个类别内部只集中在某几个文本的特征项赋予了很高的权值。针对这些问题,引入信息熵计算特征项分布的不确定性,本文提出改进的TFIDF算法,并通过对比实验,验证了该算法在计算特征项权重方面比传统的TFIDF方法更具有合理性、准确性,从而可以进一步提高中文文本分类的精度和效率。 基于上述研究,本文将双向匹配存同消歧分词算法和改进的TFIDF方法集成于LIBSVM算法,实现了一个中文文本分类原型系统。在复旦大学李荣陆博士提供的公共语料集上,通过使用混淆矩阵、性能评价指标、对比效果图等对本文实现的中文文本分类原型系统进行了对比实验,结果表明在中文文本分类查准率、查全率、F1测试值上有5%左右的提高。从而进一步证明,本文提出基于双向匹配存同消歧的中文分词算法和改进TFIDF权重算法可有效提高中文文本分类的性能。 本文在中文分词算法和特征项权重计算方法方面的研究结果还可应用于数字图书馆、信息过滤以及文本数据库管理等,具有一定的应用价值。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 钱铁云,王元珍,冯小年;结合类频率的关联中文文本分类[J];中文信息学报;2004年06期
2 张海燕,陈治平,童调生;基于2-grams短语标引的关键词自动抽取[J];绍兴文理学院学报;2002年09期
3 靳小波;;文本分类综述[J];自动化博览;2006年S1期
4 张爱华;荆继武;向继;;中文文本分类中的文本表示因素比较[J];中国科学院研究生院学报;2009年03期
5 罗永莲,张永奎;基于混合特征的中文文本分类[J];电脑开发与应用;2005年04期
6 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期
7 李莹,张晓辉,王华勇,常桂然;一种应用向量聚合技术的KNN中文文本分类方法[J];小型微型计算机系统;2004年06期
8 唐常杰,张天庆,胡蓉,元昌安,陈安龙;文本分类的关联规则辅助遗传算法(英文)[J];四川大学学报(工程科学版);2004年03期
9 姚兴山;;基于词频的中文文本分类研究[J];现代情报;2009年02期
10 王奕;;基于概率潜在语义分析的中文文本分类研究[J];甘肃联合大学学报(自然科学版);2011年04期
11 钱铁云;王元珍;冯小年;;利用prefix-hash-tree实现从中文文本到事务数据的转换[J];计算机科学;2005年05期
12 张翔;周明全;耿国华;侯凡;;面向中文文本分类的C4.5Bagging算法研究[J];计算机工程与应用;2009年26期
13 张海燕;陈治平;童调生;;基于2-grams短语标引的关键词自动抽取[J];绍兴文理学院学报(自然科学版);2002年03期
14 王元珍,钱铁云,冯小年;基于关联规则挖掘的中文文本自动分类[J];小型微型计算机系统;2005年08期
15 李莉;张太红;李霞;;潜在语义分析在中文文本分类中的应用[J];新疆农业大学学报;2006年02期
16 胡燕;吴虎子;钟珞;;中文文本分类中基于词性的特征提取方法研究[J];武汉理工大学学报;2007年04期
17 张翔;周明全;耿国华;;Bagging中文文本分类器的改进方法研究[J];小型微型计算机系统;2010年02期
18 马建斌;李滢;滕桂法;王芳;赵洋;;KNN和SVM算法在中文文本自动分类技术上的比较研究[J];河北农业大学学报;2008年03期
19 刘怀亮;张治国;马志辉;赵捧未;;基于KNN的中文文本分类反馈学习研究[J];图书情报工作;2008年10期
20 孙国菊,张杰;中文文本分类的特征选取评价[J];哈尔滨理工大学学报;2005年01期
中国重要会议论文全文数据库 前10条
1 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
2 王兰成;田梅;侯双;;PLS:一种基于信息自动标引的最小推进分词算法及其实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 段秀婷;何婷婷;宋乐;;基于PMI-IR算法的Blog情感分类研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 林小俊;田浩;王馨浩;杜蕴璇;许敏;吴玺宏;迟惠生;;语言模型训练语料处理方法及解码词典的设计[A];第八届全国人机语音通讯学术会议论文集[C];2005年
7 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
10 陈路莹;姜青山;陈黎飞;;一种面向网络入侵检测的特征选择方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
2 于哲夫;一种新的特征选择方法及其在路面使用性能分析中的应用[D];大连海事大学;2011年
3 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
4 刘峤;基于最短描述长度的高维特征选择方法研究[D];电子科技大学;2010年
5 陈曦;特征选择准则间的关联及高分辨率遥感影像类别不平衡问题研究[D];上海交通大学;2011年
6 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
7 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
8 程红蓉;垃圾图像特征提取与选择研究[D];电子科技大学;2011年
9 叶柠;基于脑电信号的脑—机接口的关键技术与实验研究[D];东北大学;2010年
10 朱朝勇;基于本体的知识库分类研究[D];中国科学技术大学;2013年
中国硕士学位论文全文数据库 前10条
1 李原;中文文本分类中分词和特征选择方法研究[D];吉林大学;2011年
2 陈雅芳;中文文本分类方法研究[D];浙江大学;2010年
3 何钟莉;中文文本分类关键技术研究与实现[D];西安电子科技大学;2009年
4 马鹏飞;中文文本分类算法研究[D];南京理工大学;2012年
5 迟麟;中文文本分类中特征选择算法及分类算法的研究[D];燕山大学;2010年
6 李丹;基于朴素贝叶斯方法的中文文本分类研究[D];河北大学;2011年
7 鲁婷;K-近邻中文文本分类方法的研究[D];合肥工业大学;2010年
8 赵德圣;基于关联技术的中文文本分类研究[D];南京理工大学;2011年
9 付玲玲;结合本体HowNet的中文文本分类研究[D];重庆大学;2011年
10 徐晓艳;基于K近邻算法的中文文本分类研究[D];安徽大学;2012年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978