收藏本站
《湖南大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

基于分词的中文文本自动分类研究与实现

张海燕  
【摘要】: 随着信息技术的不断发展,特别是Internet应用的普及,网上信息成指数级增长,如何自动处理这些海量的信息,以有效地保留大的文本集合就成为了目前重要的研究课题。对文本进行有效管理的方法之一,就是将它们进行系统地分类,即文本自动分类问题。文本自动分类是一项重要的智能信息处理技术,是文本检索技术的基础,在新闻自动分类、电子会议、电子邮件自动分类和信息过滤等方面极具应用价值。 本文详细分析了中文文本分类的模型构造及对应的分类算法,对常用的文本分类算法进行了评价(主要有SVM方法、Boosting方法、Na(?)ve Bayes方法、KNN法、基于向量空间模型方法等)。文本分类算法是一种监督式的学习方法,在对文本进行自动分类时,需要解决以下几个问题,如:获取训练文档集、建立文档表示模型、文档属性选择、选择分类算法和性能评估模型等。 本文对中文文本分类的分词技术进行了着重讨论。对于基于信息过滤的自动分类问题,使用字典分词并不是一个必须的过程,因而本文提出了基于2元语法短语标引的分词方法,它将设立切分标志法与基于词频统计的方法相结合,可以识别基于词典方法处理不了的词汇,如:人名、地名、专业术语等。由于这种方法获取信息简单,用此进行分类可使文档分类系统摆脱对复杂切词处理程序和庞大词典的依赖,因此可以替代基于字典的机械分词方法。 在第三章分词的基础之上,结合KNN,Na(?)ve Bayes和简单向量距离分类算法,建立了一个基于分词的自动分类系统。它运用基于2元语法短语标引的自动分词方法来抽取向量空间模型需要的特征词来表征文档的内容,并表示成向量。其中:分词模块由分词预处理与分词两部分所组成;然后,对向量的维数加以缩减,以降低系统的复杂度,同时提高分类的精度;最后结合新闻语料库(文章采用网上下载的新闻语料库500篇,所有的新闻稿都由领域专家事先进行了分类,按照中图法分成政治、经济、军事等共十大类)进行验证。实验结果表明了分词算法的有效性。
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2002
【分类号】:TP391.1

手机知网App
【引证文献】
中国期刊全文数据库 前5条
1 曹文华;孙丽萍;李志辉;;基于PHP技术的木材干燥专家知识查询系统[J];机电产品开发与创新;2010年01期
2 申庆永;张建忠;何云;杨洁;;中文垃圾邮件过滤系统中的实时分词算法设计[J];计算机工程与应用;2007年03期
3 高淑琴;;Web文本分类技术研究现状述评[J];图书情报知识;2008年03期
4 黄莉;李湘东;;基于《中图法》的自动分类研究现状与展望[J];图书情报知识;2012年04期
5 施国良;石桥峰;;基于文本挖掘的不同购物网站商品评论一致性研究[J];现代图书情报技术;2011年12期
中国博士学位论文全文数据库 前2条
1 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
2 郭勇;基于语义的网络知识获取相关技术研究[D];国防科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
2 许世明;中文网页分类技术研究及预分类算法实现[D];西安电子科技大学;2009年
3 焦迪楠;基于卓越工程师能力模型的动态知识网络学习系统的研究[D];北京化工大学;2011年
4 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
5 王雪飞;词间相关性对文本分类的影响[D];南京理工大学;2007年
6 张真;基于语义相似度的中文文本分类系统的研究与实现[D];大连海事大学;2007年
7 张琼;Web主题网页内容安全监管研究[D];西安电子科技大学;2008年
8 李淑鹏;基于神经网络的文本自动分类系统的研究[D];武汉理工大学;2008年
9 王艳;基于内容管理的文本自动分类的研究与应用[D];大连海事大学;2009年
10 王之鹏;Web文本分类系统中文本预处理技术的研究与实现[D];南京理工大学;2009年
【参考文献】
中国期刊全文数据库 前10条
1 林鸿飞,高天,姚天顺;中文文本的可视化表示[J];东北大学学报;2000年05期
2 邱广君,张俐,王宝库,朱靖波,邱波;汉语信息处理中的语义关系类型分析[J];东北大学学报;1998年01期
3 李蕾,钟义信,郭祥昊;全信息理论在自动文摘系统中的应用[J];计算机工程与应用;2000年01期
4 孙春葵,钟义信;关于自动文摘系统中文摘句式的一种机器学习方法[J];计算机工程与应用;2000年05期
5 欧振猛,余顺争;中文分词算法在搜索引擎应用中的研究[J];计算机工程与应用;2000年08期
6 沈学华,周志华,吴建鑫,陈兆乾;Boosting和Bagging综述[J];计算机工程与应用;2000年12期
7 王爱华,张铭,杨冬青,唐世渭;基于Boost和信任函数的多文本分类器组合模型[J];计算机工程与应用;2002年02期
8 苏伟峰,李绍滋,李堂秋;一个基于概念的中文文本分类模型[J];计算机工程与应用;2002年06期
9 朱寰,阮彤,于庆喜;文本分割算法对中文信息过滤影响研究[J];计算机工程与应用;2002年13期
10 陆建江,张文献;中文文本分类器的设计[J];计算机工程与应用;2002年15期
【共引文献】
中国期刊全文数据库 前10条
1 潘景昌,许中卫;结合同义词的Web搜索匹配算法初探[J];安徽大学学报(自然科学版);2003年03期
2 赵红丹;王希杰;;基于隐马尔科夫模型的词性标注[J];安阳师范学院学报;2010年05期
3 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
4 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
5 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
6 周文刚;金鑫;;基于树扩展朴素贝叶斯的高效网络入侵检测系统[J];北京师范大学学报(自然科学版);2007年01期
7 仲兆满;刘宗田;;基于两级概念格的信息抽取的研究[J];江西师范大学学报(自然科学版);2008年02期
8 官礼和,杨刚,李永礼;基于词典的法律案例自动归类系统的开发[J];重庆交通学院学报;2004年01期
9 李楠;杨彬彬;;决策树ID3分类算法在文本分类中的应用研究[J];大连大学学报;2009年06期
10 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
中国重要会议论文全文数据库 前10条
1 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
4 ;Nave Bayes Ensemble Learning Based on Oracle Selection[A];2009中国控制与决策会议论文集(1)[C];2009年
5 罗海飞;虞立群;章志凌;邵晓敏;陈林;汪更生;陈弈秋;何伟杰;;一种改进型CHI的特征抽取方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
6 汪华峰;陈峪;;汉语自然语言理解中词切分中新词问题初探[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
7 吴月明;王益群;李莉;;基于神经网络集成的可靠性分布模型的智能识别[A];2006年全国机械可靠性学术交流会论文集[C];2006年
8 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
9 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
10 眭新光;沈蕾;燕继坤;朱中梁;;基于Adaboost的文本隐写分析[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
中国博士学位论文全文数据库 前10条
1 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
3 齐峰;人工神经树网络模型的优化研究与应用[D];山东师范大学;2011年
4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
5 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年
6 刘冲;模拟电路故障诊断AdaBoost集成学习方法研究[D];大连海事大学;2011年
7 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
8 宋晓宁;图像特征抽取的若干新方法研究[D];南京理工大学;2011年
9 万鸣华;基于图嵌入的特征抽取与人脸识别研究[D];南京理工大学;2011年
10 罗建宏;粒计算分类知识发现算法及其应用[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
3 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
4 程国斌;基于指示词语义扩展的词义识别方法的研究[D];哈尔滨工程大学;2010年
5 谢华;基于特征选择和质心构建的文本分类研究[D];大连理工大学;2010年
6 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
7 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
8 徐瑜;基于主动差异学习神经网络集成的电力变压器故障诊断方法研究[D];湘潭大学;2010年
9 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
10 周登;基于N-Gram模型的藏文文本分类技术研究[D];西北民族大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 姜智;;知识点关系、知识点结构图与知识点网络的应用研究[J];鞍山师范学院学报;2005年05期
2 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
3 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
4 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
5 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
6 韩啸,曹辉;内容管理的关键技术[J];中国传媒科技;2004年05期
7 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
8 徐国辉;陈婕娴;;基于PHP技术的办公自动化系统的分析与设计[J];电脑知识与技术;2009年03期
9 陈翠松;;一种用关系数据库存储任意树的实现方法[J];电脑知识与技术;2009年21期
10 侯汉清,薛鹏军;基于知识库的网页自动标引和自动分类系统的设计[J];大学图书馆学报;2004年01期
中国博士学位论文全文数据库 前8条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
4 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
5 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
6 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
7 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
8 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 朱坤红;基于VSM模型和特征选择算法的中文文本自动分类研究[D];江西师范大学;2011年
2 李丹;基于朴素贝叶斯方法的中文文本分类研究[D];河北大学;2011年
3 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
4 杨昂;文本分类算法研究[D];湖南大学;2002年
5 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
6 边后琴;基于支持向量的径向基函数神经网络的训练算法[D];武汉科技大学;2002年
7 罗强;基于粗糙集理论的知识发现在web文本挖掘上的应用研究[D];广西大学;2003年
8 刘军;基于论点倾向的网络信息内容实时分析研究[D];四川大学;2003年
9 湛燕;K-近邻、K-均值及其在文本分类中的应用[D];河北大学;2003年
10 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 刘杨;陈晖;陈远江;;中文文本信息过滤技术研究[J];船电技术;2010年07期
2 徐春雨;;基于RBF神经网络的Web文本分类的研究[J];电脑知识与技术;2011年13期
3 王娟;;Web文本分类技术研究[J];福建电脑;2008年09期
4 郭宇;;Web数据挖掘及其在人才引进方面的应用[J];硅谷;2011年24期
5 邹丽娜;凌捷;;一种基于特征提取的二级文本分类方法[J];广东工业大学学报;2012年04期
6 郑瑞娟;张仰森;;基于概念的Web文本分类方法及实现[J];北京信息科技大学学报(自然科学版);2013年02期
7 陈建国;;基于Web结构的网站新闻采集系统的设计与实现[J];井冈山大学学报(自然科学版);2012年02期
8 陈新元;;近年来我国分类检索语言研究热点综述[J];科技情报开发与经济;2009年20期
9 陈娜;;基于分类技术的Blog用户兴趣挖掘[J];科学之友;2010年03期
10 刘妮;;基于语义Web的知识检索技术研究[J];科技信息;2012年34期
中国博士学位论文全文数据库 前6条
1 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
2 王萍;网络环境下的领域知识挖掘[D];华东师范大学;2010年
3 宋强;中国互联网低俗内容监管研究[D];北京邮电大学;2012年
4 黄建年;农业古籍的计算机断句标点与分词标引研究[D];南京农业大学;2009年
5 常德海;GIS知识工程关键理论与方法研究[D];河南理工大学;2012年
6 马俊;专题地图总体设计智能化理论与方法研究[D];解放军信息工程大学;2013年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
3 杨克强;LVQ神经网络在齿轮箱故障诊断中的研究[D];安徽农业大学;2010年
4 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
5 孙海虹;基于模糊粗糙集的Web文本分类研究[D];哈尔滨理工大学;2010年
6 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年
7 邓忠莹;中文文本倾向性分类系统研究[D];昆明理工大学;2009年
8 罗亚平;面向网络舆情的中文评论文本情感倾向分析研究[D];东北财经大学;2010年
9 袁路妍;钨层文本自动分类技术的研究与应用[D];东华大学;2011年
10 李兆雄;基于图模型的中文小样本文本分类研究[D];西安电子科技大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 张琪玉;缺乏抽词词典是自动抽词标引难以普及的主要原因[J];图书与情报;1998年02期
2 麻志毅,林鸿飞,姚天顺,马佳琳;基于情境的文本中的时间信息分析[J];东北大学学报;1999年03期
3 钟义信;从“统计”到“理解”,从“传输”到“认知”[J];电子学报;1998年07期
4 杨晓兰,钟义信;基于文本理解的自动文摘系统研究与实现[J];电子学报;1998年07期
5 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期
6 孙春葵,钟义信;文摘生成系统中词典的一种构造方法[J];计算机工程与应用;1999年08期
7 李蕾,钟义信,郭祥昊;全信息理论在自动文摘系统中的应用[J];计算机工程与应用;2000年01期
8 林彤,江志军;Internet的搜索引擎[J];计算机工程与应用;2000年05期
9 周强;;基于语料库和面向统计学的自然语言处理技术[J];计算机科学;1995年04期
10 王挺;陈火旺;史晓东;;语料库和机器翻译[J];计算机科学;1996年02期
【相似文献】
中国期刊全文数据库 前10条
1 张雪英;Jürgen Krause;刘凤玉;;文本自动分类中的动态类别扩展研究[J];计算机应用研究;2007年05期
2 刘卓;;K-最邻近算法在文本自动分类中的应用[J];苏州市职业大学学报;2010年02期
3 康平波,王文杰;基于自动分类的搜索引擎过滤系统[J];计算机工程;2004年02期
4 郭少友;;基于词语上下文关系的文本自动分类方法研究[J];现代图书情报技术;2008年05期
5 王志玲;王效岳;;国内文本分类研究论文的统计分析[J];图书情报工作;2006年11期
6 张玉峰;黄姮;;融合文本自动分类的竞争情报定标比超分析模型研究[J];图书情报知识;2011年04期
7 张婷慧;耿焕同;蔡庆生;;一种改进的VSM及其在文本自动分类中的应用[J];微电子学与计算机;2005年12期
8 许璐蕾;;面向搜索引擎的文本自动分类系统实现[J];苏州市职业大学学报;2007年04期
9 张婷慧,耿焕同,蔡庆生;基于CBR的文本自动分类研究[J];计算机应用;2005年09期
10 王明文,付雪峰,左家莉;网页与文本自动分类综述[J];南昌工程学院学报;2005年03期
中国重要会议论文全文数据库 前5条
1 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 卢朋;曾隽芳;杨一平;;基于背景知识的文本自动分类[A];第三届学生计算语言学研讨会论文集[C];2006年
3 张巍;游宏梁;张吉才;;一种基于加权投票的术语自动识别方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 丁政建;张路;;基于本体的语义检索研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国博士学位论文全文数据库 前4条
1 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
2 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
3 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
4 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 张磊;英文文本自动分类系统研究与算法改进[D];江西师范大学;2013年
2 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
3 黄瑜青;基于支持向量机的文本自动分类器的研究与应用[D];广东工业大学;2012年
4 袁路妍;钨层文本自动分类技术的研究与应用[D];东华大学;2011年
5 包立伟;面向信息检索的文本自动分类技术研究[D];华东理工大学;2013年
6 吴波;中文文本自动分类的应用研究[D];淮北师范大学;2013年
7 张振浩;中文文本自动分类关键技术研究及实现[D];浙江理工大学;2013年
8 李真;基于贝叶斯的XML文本自动分类技术研究[D];吉林大学;2010年
9 聂璐;WEB文本自动分类的设计与实现[D];西北大学;2009年
10 刘志红;多语种多类别体系下文本自动分类系统的研究与实现[D];东北大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026