收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本分类技术研究

李晓红  
【摘要】: 随着Internet技术的不断发展和成熟,各种数字化的信息越来越多并且还在不断增长,面对海量信息,人们已经不能简单地靠人工来处理所有的信息,况且手工分类已经对此无能为力,如何从巨量的信息中挖掘出用户感兴趣的信息已经成为当今研究的重要课题。而文本自动分类能够较好的解决大量文档信息归类的问题,并成为解决该问题的一项关键技术。目前对文本自动分类技术的研究主要集中在文本的表示、特征的选择和分类算法的改进这三个主要的研究方向。 最大熵模型实际上是一个带约束的最优化问题。20世纪50年代E.T.Jaynes开创性的将最大熵原理作为一种原则或者方法应用于各个科技领域,也使信息熵的概念和原理走出了热力学的领域。而且最大熵模型是一个比较普遍的统计建模技术,自然语言处理中很多问题都可以归结为统计分类问题,很多机器学习方法在这里都能找到应用。最大熵具有较强的知识表达能力,它在数学上是一个十分完美的模型,被应用到自然语言处理领域后也取得了较好的成绩,因此被研究者们广泛的使用。 本课题主要针对在中文文本分类任务中涉及到的特征生成(文本分词)和特征的选择算法进行了分析和研究。具体来说,论文首先阐述了中文文本的分词技术和分词算法,特征选择算法和几种经典的文本分类算法,接下来主要研究分析了统计语言模型,最大熵模型及相关的平滑技术和迭代算法,然后详细讨论了最大熵应用于文本分类任务中存在的问题,在深入研究最大熵理论的基础上,引入了不等式最大熵模型,将其应用于文本分类,并分析了现有特征选择方法生成特征数目过多而造成分类时间和精度不高等缺点,提出将信息增益、互信息及卡方统计这几种方法合理的结合起来进行特征选择的改进算法;实验也证明,这种基于不等式最大熵的特征选择算法是有效地,并具有较强的推广能力。最后阐述了中文文本原始特征集合的生成方法,即研究了如何通过基于无词典机制的中文自动分词方法,并结合汉语自身独有的特点,得到初始的特征集合,最后提出了基于无词典分词机制的中文自动分词算法。并通过实验验证了分词算法的高效性。 最后,对本论文的内容进行了总结,并对中文文本分类涉及的特征选择方法,分词技术以及最大熵模型将来的应用和发展进行了展望。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 钱铁云,王元珍,冯小年;结合类频率的关联中文文本分类[J];中文信息学报;2004年06期
2 靳小波;;文本分类综述[J];自动化博览;2006年S1期
3 李云,叶春晓,李季,刘嘉敏,吴中福;基于特征关联性的特征选择算法研究[J];微型机与应用;2004年06期
4 罗永莲,张永奎;基于混合特征的中文文本分类[J];电脑开发与应用;2005年04期
5 曹瑛;;特征选择算法在层次分类中的比较研究[J];数字技术与应用;2010年05期
6 张海燕,陈治平,童调生;基于2-grams短语标引的关键词自动抽取[J];绍兴文理学院学报;2002年09期
7 李莹,张晓辉,王华勇,常桂然;一种应用向量聚合技术的KNN中文文本分类方法[J];小型微型计算机系统;2004年06期
8 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期
9 万忠;张燕平;张铃;陈洁;张晨希;张迎春;;基于覆盖算法决策界的特征选择算法[J];计算机技术与发展;2006年04期
10 唐常杰,张天庆,胡蓉,元昌安,陈安龙;文本分类的关联规则辅助遗传算法(英文)[J];四川大学学报(工程科学版);2004年03期
11 钱铁云;王元珍;冯小年;;利用prefix-hash-tree实现从中文文本到事务数据的转换[J];计算机科学;2005年05期
12 姚兴山;;基于词频的中文文本分类研究[J];现代情报;2009年02期
13 张爱华;荆继武;向继;;中文文本分类中的文本表示因素比较[J];中国科学院研究生院学报;2009年03期
14 张翔;周明全;耿国华;侯凡;;面向中文文本分类的C4.5Bagging算法研究[J];计算机工程与应用;2009年26期
15 王奕;;基于概率潜在语义分析的中文文本分类研究[J];甘肃联合大学学报(自然科学版);2011年04期
16 张海燕;陈治平;童调生;;基于2-grams短语标引的关键词自动抽取[J];绍兴文理学院学报(自然科学版);2002年03期
17 王元珍,钱铁云,冯小年;基于关联规则挖掘的中文文本自动分类[J];小型微型计算机系统;2005年08期
18 李莉;张太红;李霞;;潜在语义分析在中文文本分类中的应用[J];新疆农业大学学报;2006年02期
19 胡燕;吴虎子;钟珞;;中文文本分类中基于词性的特征提取方法研究[J];武汉理工大学学报;2007年04期
20 马建斌;李滢;滕桂法;王芳;赵洋;;KNN和SVM算法在中文文本自动分类技术上的比较研究[J];河北农业大学学报;2008年03期
中国重要会议论文全文数据库 前6条
1 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
2 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 段秀婷;何婷婷;宋乐;;基于PMI-IR算法的Blog情感分类研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 李文波;孙乐;;一种LDA模型的高效并行求解算法[A];第六届全国信息检索学术会议论文集[C];2010年
6 任美睿;李建中;杨艳;;基于朴素贝叶斯方法的自动文本分类系统的实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国博士学位论文全文数据库 前3条
1 李云;特征选择算法及其在基于内容图像检索中的应用研究[D];重庆大学;2005年
2 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
3 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
中国硕士学位论文全文数据库 前10条
1 李晓红;中文文本分类技术研究[D];兰州理工大学;2009年
2 鲁婷;K-近邻中文文本分类方法的研究[D];合肥工业大学;2010年
3 赵德圣;基于关联技术的中文文本分类研究[D];南京理工大学;2011年
4 何钟莉;中文文本分类关键技术研究与实现[D];西安电子科技大学;2009年
5 徐晓艳;基于K近邻算法的中文文本分类研究[D];安徽大学;2012年
6 陈冲;互联网中文文本分类的研究与应用[D];北京邮电大学;2011年
7 陈雅芳;中文文本分类方法研究[D];浙江大学;2010年
8 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
9 李保秀;中文文本分类技术研究[D];南昌大学;2010年
10 马鹏飞;中文文本分类算法研究[D];南京理工大学;2012年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978