收藏本站
《湖南大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

基于分词的中文文本自动分类研究与实现

张海燕  
【摘要】: 随着信息技术的不断发展,特别是Internet应用的普及,网上信息成指数级增长,如何自动处理这些海量的信息,以有效地保留大的文本集合就成为了目前重要的研究课题。对文本进行有效管理的方法之一,就是将它们进行系统地分类,即文本自动分类问题。文本自动分类是一项重要的智能信息处理技术,是文本检索技术的基础,在新闻自动分类、电子会议、电子邮件自动分类和信息过滤等方面极具应用价值。 本文详细分析了中文文本分类的模型构造及对应的分类算法,对常用的文本分类算法进行了评价(主要有SVM方法、Boosting方法、Na(?)ve Bayes方法、KNN法、基于向量空间模型方法等)。文本分类算法是一种监督式的学习方法,在对文本进行自动分类时,需要解决以下几个问题,如:获取训练文档集、建立文档表示模型、文档属性选择、选择分类算法和性能评估模型等。 本文对中文文本分类的分词技术进行了着重讨论。对于基于信息过滤的自动分类问题,使用字典分词并不是一个必须的过程,因而本文提出了基于2元语法短语标引的分词方法,它将设立切分标志法与基于词频统计的方法相结合,可以识别基于词典方法处理不了的词汇,如:人名、地名、专业术语等。由于这种方法获取信息简单,用此进行分类可使文档分类系统摆脱对复杂切词处理程序和庞大词典的依赖,因此可以替代基于字典的机械分词方法。 在第三章分词的基础之上,结合KNN,Na(?)ve Bayes和简单向量距离分类算法,建立了一个基于分词的自动分类系统。它运用基于2元语法短语标引的自动分词方法来抽取向量空间模型需要的特征词来表征文档的内容,并表示成向量。其中:分词模块由分词预处理与分词两部分所组成;然后,对向量的维数加以缩减,以降低系统的复杂度,同时提高分类的精度;最后结合新闻语料库(文章采用网上下载的新闻语料库500篇,所有的新闻稿都由领域专家事先进行了分类,按照中图法分成政治、经济、军事等共十大类)进行验证。实验结果表明了分词算法的有效性。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张雪英;Jürgen Krause;刘凤玉;;文本自动分类中的动态类别扩展研究[J];计算机应用研究;2007年05期
2 刘卓;;K-最邻近算法在文本自动分类中的应用[J];苏州市职业大学学报;2010年02期
3 康平波,王文杰;基于自动分类的搜索引擎过滤系统[J];计算机工程;2004年02期
4 郭少友;;基于词语上下文关系的文本自动分类方法研究[J];现代图书情报技术;2008年05期
5 王志玲;王效岳;;国内文本分类研究论文的统计分析[J];图书情报工作;2006年11期
6 张玉峰;黄姮;;融合文本自动分类的竞争情报定标比超分析模型研究[J];图书情报知识;2011年04期
7 张婷慧;耿焕同;蔡庆生;;一种改进的VSM及其在文本自动分类中的应用[J];微电子学与计算机;2005年12期
8 许璐蕾;;面向搜索引擎的文本自动分类系统实现[J];苏州市职业大学学报;2007年04期
9 张婷慧,耿焕同,蔡庆生;基于CBR的文本自动分类研究[J];计算机应用;2005年09期
10 王明文,付雪峰,左家莉;网页与文本自动分类综述[J];南昌工程学院学报;2005年03期
11 张剑;李春平;;基于WordNet概念向量空间模型的文本分类[J];计算机工程与应用;2006年04期
12 许桢;;基于语义网的文本分类系统设计与实现[J];硅谷;2009年18期
13 牟尧;李曦;;关于文本自动分类算法的研究——以档案自动归类的应用为例[J];中国西部科技;2011年24期
14 白凤凤;;基于不平衡数据集的文本分类技术研究[J];电脑编程技巧与维护;2010年06期
15 刘苗;谢邦昌;;基于概率潜在语义分析和Adaboost算法的文本分类技术研究[J];统计与决策;2010年19期
16 张雪英;;基于机器学习的文本自动分类研究进展[J];情报学报;2006年06期
17 刘冬梅;王俊义;;HTML文本自动分类预处理方法的研究应用[J];内蒙古大学学报(自然科学版);2007年01期
18 王艳;张帆;;基于Web挖掘技术的信息检索系统设计与实现[J];情报学报;2007年03期
19 贾美英;杨炳儒;郑德权;陈庆轩;;基于多重特征选择和多分类器融合的文本层次分类研究[J];计算机应用研究;2009年12期
20 廖海波,万中英,王明文;基于投影寻踪回归文本自动分类的模型[J];清华大学学报(自然科学版);2005年S1期
中国重要会议论文全文数据库 前5条
1 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 卢朋;曾隽芳;杨一平;;基于背景知识的文本自动分类[A];第三届学生计算语言学研讨会论文集[C];2006年
3 张巍;游宏梁;张吉才;;一种基于加权投票的术语自动识别方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 丁政建;张路;;基于本体的语义检索研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国博士学位论文全文数据库 前4条
1 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
2 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
3 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
4 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 张磊;英文文本自动分类系统研究与算法改进[D];江西师范大学;2013年
2 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
3 黄瑜青;基于支持向量机的文本自动分类器的研究与应用[D];广东工业大学;2012年
4 袁路妍;钨层文本自动分类技术的研究与应用[D];东华大学;2011年
5 包立伟;面向信息检索的文本自动分类技术研究[D];华东理工大学;2013年
6 吴波;中文文本自动分类的应用研究[D];淮北师范大学;2013年
7 张振浩;中文文本自动分类关键技术研究及实现[D];浙江理工大学;2013年
8 李真;基于贝叶斯的XML文本自动分类技术研究[D];吉林大学;2010年
9 聂璐;WEB文本自动分类的设计与实现[D];西北大学;2009年
10 刘志红;多语种多类别体系下文本自动分类系统的研究与实现[D];东北大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978