收藏本站
《中国人民解放军国防科学技术大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

基于多类的汉语文本自动分类研究

卢忠良  
【摘要】: 随着计算机应用及“Internet”的日益普及,通过各种渠道获取的数据和信息正以惊人的速度增长,“丰富的数据与可用的信息”之间的矛盾也日见突出。如何快速有效的发掘海量信息中蕴含的有价值信息,合理分类及准确地定位所需信息,同时摒弃大量无用的或不相关内容,已成为知识获取和信息过滤的瓶颈,是当今信息发展和信息处理领域的主流技术。 本文重点讨论基于机器学习的汉语文本自动分类方法。机器学习方法的基本思想是将人的知识和方法以及关于分类识别对象的知识输入机器中,产生分类识别的规则和分析程序;而文本的自动分类则是根据识别规则和分析程序对未分类文本进行判断,达到分类的目的。分类器是分类系统的核心,可以通过机器学习不断改进和完善。 通过对汉语信息自动处理中自动分词、特征提取、文本自动表示等核心技术讨论,对目前汉语文本自动分词和文本降维方法中的不足和缺陷作了改进,提高了分词和文本分类的效率和效果;在文本自动分类方法上,介绍了两种有监督的基于多类的汉语文本自动分类处理方法——模糊聚类方法和Boosting方法,解决了实践中文本分类查全率不高的问题;通过对两种方法的实验比较结果,构建了基于Boosting方法的多类文本自动分类系统,在实际应用中收到了良好的效果,较好的解决了信息的实时分类问题。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 金瑜,陆启明,高峰;基于上下文相关的最大概率汉语自动分词算法[J];计算机工程;2004年16期
2 张跃,姚天顺;基于结合性自动识别中文姓名[J];小型微型计算机系统;1997年10期
3 肖文辉;;基于MySQL的全文检索系统的研究与应用[J];广西质量监督导报;2008年06期
4 肖克曦;;在线英语语料库自动分词和分句的实现[J];电脑知识与技术;2010年28期
5 李家福,张亚非;一种基于概率模型的分词系统[J];系统仿真学报;2002年05期
6 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
7 许云,樊孝忠,张锋;一种不需分词的中文文本分类方法[J];北京理工大学学报;2005年09期
8 陈福生;;全文检索在网站搜索系统中的应用[J];电脑编程技巧与维护;2009年12期
9 徐九韵,仝兆岐,向逐聪,王新民;数据库汉语查询语言的分词研究与实现[J];中文信息学报;1998年04期
10 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期
11 曹焕光,郑家恒;自动分词软件质量的评价模型[J];中文信息学报;1992年04期
12 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
13 王圆;孙铁利;李杨;;Web文本挖掘中的特征表示和特征提取[J];电脑知识与技术(学术交流);2006年14期
14 曹晓声;乔杰华;;网络数据的挖掘[J];辽宁工程技术大学学报;2006年S1期
15 马国俊;韩利凯;;Web站内检索系统的研究与实现[J];西安文理学院学报(自然科学版);2006年04期
16 谢廷彦;林芝;王鑫;;答疑系统的资源建设[J];中国教育信息化;2007年23期
17 刘高原;张国平;;基于Nutch的搜索引擎技术[J];平顶山学院学报;2008年05期
18 杨晓恝;蒋维;郝文宁;;基于本体和句法分析的领域分词的实现[J];计算机工程;2008年23期
19 胡长春;刘功申;;面向搜索引擎Lucene的中文分析器[J];计算机工程与应用;2009年12期
20 张筱丹;胡学钢;;基于Web的新闻文本自动摘要研究[J];阜阳师范学院学报(自然科学版);2009年01期
中国重要会议论文全文数据库 前10条
1 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
3 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 徐冰;姚建民;杨沐昀;赵铁军;;汉语分词在机器翻译评价中的影响[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 陈丽江;;ACL-SIGHAN第一届国际中文分词竞赛评述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 宋柔;;汉语文本检索软件CCRL[A];2004年辞书与数字化研讨会论文集[C];2004年
8 周俊;孙啸;;频繁序列算法在生物信息挖掘中的应用[A];第十次中国生物物理学术大会论文摘要集[C];2006年
9 苏新春;顾江萍;;“人”“机”分词差异及规范词典的收词依据——对645条常用词未见于《现汉》的思考[A];中国辞书论集2000[C];2000年
10 刘桐菊;于浩;赵铁军;;基于标引技术的特定领域XML文本自动生成[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前10条
1 高岚;海量在线做搜索引擎“卖水人”[N];中国计算机报;2004年
2 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
3 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
4 ;大恒FTR全文检索软硬件解决方案[N];计算机世界;2001年
5 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
6 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
7 朱艳;术语解释[N];中国电脑教育报;2000年
8 俞东升;大恒笔2000技巧几则[N];计算机世界;2000年
9 ;语言信息处理呼唤知识应用[N];中国计算机报;2003年
10 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
中国博士学位论文全文数据库 前10条
1 黄建年;农业古籍的计算机断句标点与分词标引研究[D];南京农业大学;2009年
2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
3 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
4 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
5 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
6 王龙;教育资源推荐服务中若干关键技术的研究[D];吉林大学;2013年
7 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
8 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
9 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
10 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
中国硕士学位论文全文数据库 前10条
1 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
2 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
3 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
4 赵春红;外包数据库模型中文本数据完整性检测方案的研究[D];燕山大学;2010年
5 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
6 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
7 张楚屏;从分词的静词作用看分词在计算机英语中的翻译方法[D];华中科技大学;2006年
8 盛鹏;基于全文过滤的垃圾邮件防范机制[D];昆明理工大学;2006年
9 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
10 都菁;基于论坛语料的未登录词自动识别新方法[D];西南大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978