收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于RBF网络的文本自动分类的研究

王晓庆  
【摘要】: 在现实世界中,人们可获取的大部分信息来自文本数据库(或文档数据库),文本数据库包含大量来自各种数据源(如新闻、研究论文、报告、书籍、杂志等)的文档。近年来,随着计算机技术和Internet的飞速发展,每天都会产生大量的电子文档,使得文本数据库的总量以惊人的速度膨胀。要有效地利用这些海量的文本数据,必须把它们按其内容进行分门别类的整理,而这个工作如果靠人工来完成,将要耗费许多具有丰富经验和专门知识的分类人员的大量劳动,显然这种方式具有周期长、费用高、效率低的缺点,在信息爆炸的今天很难满足实际需要,因此利用计算机技术对大量文本进行自动分类就成为了当前一个日益流行、而且具有重要意义的研究课题。 对文本进行自动分类,涉及到许多领域的理论和技术,主要有概率统计、信息检索、数据挖掘、自然语言理解、模式识别和机器学习等,所以非常具有综合性和挑战性。 目前大多数文本分类方法都是基于相似度的,即为每一个目标类训练(学习)一个类别特征向量,对新的待分类文本特征向量,计算它与每一个类别特征向量的相似度,返回相似度最高的类别特征向量的类标号作为该文本的预测类别。但这种方法存在两个问题:首先,有些类内部不一定有很大的相似性,例如,“体育”类中与篮球有关的文章和与拳击有关的文章,其内容就有很大的区别;其次,每篇文章常常可以同时属于多个类,例如一篇数据挖掘的文章很有可能也属于人工智能类的文章。 基于上述原因,本文提出用RBF网络进行文本自动分类的方法,本方法的主要思路是:首先对训练集进行聚类,得到若干个簇,使得每个簇内部的相似性尽可能高,而簇之间的相似性尽可能低。为每一个簇的中心定义相应的径向基函数(Radial Basis Function,RBF),再对这些径向基函数构成的两层神经网络进行训练,同时,为了避免产生过度拟合现象,本文采用了岭回归技术,即在代价函数中加入一个包含适当正规化参数的权值惩罚项,从而保证网络输出函数具有一定的平滑度。由于本方法考虑到了每个类内部不同簇之间的差异性,因此很好的解决了前述的第一个问题。这种方法也可以解决上述的“兼类”问题,若新文本的特征向量在多个类的径向基函数网络上的输出值都超过了阈值,则可认为它同时属于这几个类。 我们在实验中利用径向基函数网络进行文本自动分类取得了较好的分类效果,分类准确率稳定保持在90%附近。但是仍然存在几个问题尚待解决:首先,聚类时怎样自动确定簇的个数和半径;其次,如何利用含有多个正规化参数的局部岭回归方法进行RBF网络学习;第三,如果簇的形状是不规则的,则它很难用径向基函数来描述,因此需要研究其它能代表不规则形状的簇的基函数。这些问题都有待于我们在今后的工作中作进一步研究。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张雪英;Jürgen Krause;刘凤玉;;文本自动分类中的动态类别扩展研究[J];计算机应用研究;2007年05期
2 刘卓;;K-最邻近算法在文本自动分类中的应用[J];苏州市职业大学学报;2010年02期
3 康平波,王文杰;基于自动分类的搜索引擎过滤系统[J];计算机工程;2004年02期
4 郭少友;;基于词语上下文关系的文本自动分类方法研究[J];现代图书情报技术;2008年05期
5 王志玲;王效岳;;国内文本分类研究论文的统计分析[J];图书情报工作;2006年11期
6 张玉峰;黄姮;;融合文本自动分类的竞争情报定标比超分析模型研究[J];图书情报知识;2011年04期
7 张婷慧;耿焕同;蔡庆生;;一种改进的VSM及其在文本自动分类中的应用[J];微电子学与计算机;2005年12期
8 许璐蕾;;面向搜索引擎的文本自动分类系统实现[J];苏州市职业大学学报;2007年04期
9 张婷慧,耿焕同,蔡庆生;基于CBR的文本自动分类研究[J];计算机应用;2005年09期
10 王明文,付雪峰,左家莉;网页与文本自动分类综述[J];南昌工程学院学报;2005年03期
11 张剑;李春平;;基于WordNet概念向量空间模型的文本分类[J];计算机工程与应用;2006年04期
12 许桢;;基于语义网的文本分类系统设计与实现[J];硅谷;2009年18期
13 牟尧;李曦;;关于文本自动分类算法的研究——以档案自动归类的应用为例[J];中国西部科技;2011年24期
14 白凤凤;;基于不平衡数据集的文本分类技术研究[J];电脑编程技巧与维护;2010年06期
15 刘苗;谢邦昌;;基于概率潜在语义分析和Adaboost算法的文本分类技术研究[J];统计与决策;2010年19期
16 张雪英;;基于机器学习的文本自动分类研究进展[J];情报学报;2006年06期
17 刘冬梅;王俊义;;HTML文本自动分类预处理方法的研究应用[J];内蒙古大学学报(自然科学版);2007年01期
18 王艳;张帆;;基于Web挖掘技术的信息检索系统设计与实现[J];情报学报;2007年03期
19 贾美英;杨炳儒;郑德权;陈庆轩;;基于多重特征选择和多分类器融合的文本层次分类研究[J];计算机应用研究;2009年12期
20 廖海波,万中英,王明文;基于投影寻踪回归文本自动分类的模型[J];清华大学学报(自然科学版);2005年S1期
中国重要会议论文全文数据库 前5条
1 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 卢朋;曾隽芳;杨一平;;基于背景知识的文本自动分类[A];第三届学生计算语言学研讨会论文集[C];2006年
3 张巍;游宏梁;张吉才;;一种基于加权投票的术语自动识别方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 丁政建;张路;;基于本体的语义检索研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国博士学位论文全文数据库 前4条
1 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
2 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
3 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
4 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 张磊;英文文本自动分类系统研究与算法改进[D];江西师范大学;2013年
2 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
3 黄瑜青;基于支持向量机的文本自动分类器的研究与应用[D];广东工业大学;2012年
4 袁路妍;钨层文本自动分类技术的研究与应用[D];东华大学;2011年
5 包立伟;面向信息检索的文本自动分类技术研究[D];华东理工大学;2013年
6 张振浩;中文文本自动分类关键技术研究及实现[D];浙江理工大学;2013年
7 李真;基于贝叶斯的XML文本自动分类技术研究[D];吉林大学;2010年
8 聂璐;WEB文本自动分类的设计与实现[D];西北大学;2009年
9 符会涛;基于互信息的文本自动分类特征选择方法研究[D];新疆大学;2011年
10 杨森;民生信息多分类系统研究与设计[D];山东科技大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978