收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于构造性覆盖算法的中文文本分类

孟杰  
【摘要】: 文本分类是文本挖掘的基础与核心,是近年来数据挖掘和网络挖掘的一个研究热点,在传统的情报检索、网站索引体系结构的建立和Web信息检索等方面占有重要地位。文本自动分类技术是自然语言处理的一个重要的应用领域,是替代传统的繁杂人工分类方法的有效手段和必然趋势。特别是随着互联网技术的发展,网络成为人们进行信息交互和处理的有效的平台,各种数字化的信息每天以极高的速度增长。面对如此巨大的信息,人工分类选择已经无能为力,计算机自动分类已成为网络时代的必然选择。 目前,对于文本分类技术的研究,大多数研究者的精力主要放在各种不同分类方法的探索与改进上。然而,文本分类中的特征选择也一直是文本分类的关键技术。因此,对特征选择算法的研究与不同分类算法的研究都是十分必要的。 本文所做的主要工作及创新点如下: 1.本文首先对当前文本分类领域几个关键问题的常用解决方法进行了研究,然后着重介绍了一个基于构造性覆盖算法的中文文本分类系统(Structural Covering Algorithm-Based Chinese Text Classification System,简记为CCTCS),重点阐述了文本预处理、特征选择、维数约简和构造性覆盖算法及其改进等技术的实现。 2.在CCTCS中,第一步是利用中国科学院计算技术研究所提供的汉语词法分析系统(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)对中文文本进行汉语分词,去除虚词和形容词,只保留名词和动词;再对文本进行预处理,删除文本中的停用词和稀疏词,可使文本维数平均压缩一半,从而实现文本的粗降维。而CCTCS需要解决的核心问题是特征的选择问题,特征选择涉及选择哪些特征和选择的特征维数两个问题。针对上述问题,本文使用信息增益(Information Gain,IG)与主成分分析(Principle Component Analysis,PCA)相结合的特征选择方法。 3.CCTCS使用人工神经网络作为分类器,特征词的权重组成原始特征向量,和神经网络输入层的神经元一一对应。在文本训练的时候,利用标记好的训练文本集进行网络训练。而在文本分类的时候,输入待分类文本的特征向量,通过已训练好的神经网络对文本进行分类,以确定文本的类别。 4.本系统采用构造性覆盖算法(即交叉覆盖算法)来设计神经网络分类器,首先分析了一般的交叉覆盖算法(Generic Alternative Covering Algorithm,GACA),发现其存在一些不足之处,在分类过程中,可能会出现拒识和误判的现象,这将大大影响系统的识别率和正确率。然后针对这些不足,对交叉覆盖算法做出相应的改进,并给出其算法。实验证明,改进的交叉覆盖算法(Improved Alternative Covering Algorithm,IACA)在整体性能上优于一般的交叉覆盖算法。这种改进的算法不仅可以进一步提高交叉覆盖算法的训练速度,而且可以减少拒识样本数,提高识别的精度。 5.本文通过实验比较分析了不同特征选择方法与设计分类器的交叉覆盖算法对分类性能的影响,证明了IG+PCA的特征选择方法比直接使用IG在基于交叉覆盖算法的中文文本分类中具有其优越性,而且改进的交叉覆盖算法应用到中文文本分类中在整体性能上优于一般的交叉覆盖算法,并得出利用交叉覆盖算法设计的神经网络的特征输入维数在200左右的时候分类性能最佳。 本文在中文文本分类方面已经完成了一些工作,今后可以在以下几方面作进一步的研究: 1.本论文所有的结论都是在实验的条件下得出的,而实际应用效果如何可以进一步在实际应用中进行验证。 2.可将本文提出的特征选择方法应用于英文文本分类中,并设计更网络化、智能化、多功能化的分类系统,可以应用到如邮件过滤器或搜索引擎等热门实际应用中去。 3.为了进一步提高本文方法的扩展性,可考虑分类别来作PCA,然后寻找各个类别的主成分(Principle Component,PC)的极大线性无关组来得到全局特征,这是我们将来研究的一个重点。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郭庆春;孔令军;史永博;崔文娟;张小永;寇立群;;基于神经网络的入境旅游人数预测[J];价值工程;2011年25期
2 宁彬;吴钊;周健威;;电子政务绩效评价体系研究[J];电脑知识与技术;2011年13期
3 黄莲花;李光明;;神经网络数据融合在车用传感器中的应用[J];装备制造技术;2011年08期
4 张国光;王林山;;一类时滞递归神经网络的鲁棒稳定性[J];滨州学院学报;2011年03期
5 周鸣一;程文清;赵建立;;基于神经网络的程控交换机故障诊断方法研究[J];电脑知识与技术;2011年25期
6 曹婧华;冉彦中;郭金城;;玉米考种系统的设计与实现[J];长春师范学院学报;2011年08期
7 孙海龙;冯超;匙瑞堂;;滚动轴承状态监测[J];工业设计;2011年05期
8 李华;曹晓龙;成江荣;;BP神经网络在软件项目风险评估中的应用[J];计算机仿真;2011年07期
9 杨鹤年;;机电一体化系统中的智能控制技术[J];煤炭技术;2011年07期
10 许杰;程锦房;何光进;;一种基于舰船磁场的神经网络识别模型[J];船电技术;2011年09期
11 孙朝云;;基于人工神经网络的预测模型[J];福建电脑;2011年07期
12 李刚;师颖;刘兴堂;胡小江;;基于神经网络的复杂仿真系统验证方法[J];计算机仿真;2011年08期
13 张赫;王炜;刘莹莹;;神经网络在交通流信息融合中的应用[J];武汉理工大学学报(交通科学与工程版);2011年04期
14 薛小兰;;人工神经网络在机械故障诊断中的应用[J];晋中学院学报;2011年03期
15 姜燕;李亢;;人工神经网络在冠心病中的仿真研究[J];计算机仿真;2011年06期
16 卢香利;王弦;鲍务均;吴功平;;巡线机器人运动学模型的建立及正逆解的求取[J];机械研究与应用;2011年03期
17 薛小兰;;人工神经网络在机械故障诊断中的应用[J];机械研究与应用;2011年03期
18 欧阳林群;王效华;;非线性系统神经网络输出稳定控制器的设计[J];长春工业大学学报(自然科学版);2011年03期
19 陈敏;尹学志;;基于模糊推理和神经网络的呼吸障碍诊断方法的研究[J];中国医疗器械杂志;2011年04期
20 刘华金;;基于神经网络的数控机床刀具磨损预测模型研究[J];长江大学学报(自然科学版);2011年06期
中国重要会议论文全文数据库 前10条
1 侯艳芳;冯红梅;;基于神经网络的调制识别算法的研究[A];武汉(南方九省)电工理论学会第22届学术年会、河南省电工技术学会年会论文集[C];2010年
2 沈建荣;杨林泉;陈琳;;神经网络的稳定性判据与区域经济结构调整[A];系统工程与可持续发展战略——中国系统工程学会第十届年会论文集[C];1998年
3 石山铭;李富兰;丁俊丽;;神经网络的知识获取[A];全国青年管理科学与系统科学论文集(第1卷)[C];1991年
4 吴清烈;徐南荣;;基于神经网络的一种多目标决策方法[A];复杂巨系统理论·方法·应用——中国系统工程学会第八届学术年会论文集[C];1994年
5 李晓钟;汪培庄;罗承忠;;神经网络与模糊逻辑[A];中国系统工程学会模糊数学与模糊系统委员会第五届年会论文选集[C];1990年
6 房育栋;余英林;;高阶自组织映射及其学习算法[A];1995年中国控制会议论文集(上)[C];1995年
7 王晓晔;杜朝辉;吕德忠;刘建峰;;神经网络模糊控制在温度控制系统中的应用[A];1997中国控制与决策学术年会论文集[C];1997年
8 金龙;吴建生;;基于遗传算法的神经网络短期气候预测模型(摘要)[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“气候系统与气候变化”分会论文集[C];2003年
9 申伟;张元培;;基于MATLAB的自适应神经网络模糊系统(ANFIS)的应用[A];《制造业自动化与网络化制造》学术交流会论文集[C];2004年
10 田艳兵;;BP算法和PSO算法在神经网络中的研究[A];第二十九届中国控制会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 刘志祥;深部开采高阶段尾砂充填体力学与非线性优化设计[D];中南大学;2005年
2 戴雪龙;PET探测器神经网络定位方法研究[D];中国科学技术大学;2006年
3 马戎;智能控制技术在炼钢电弧炉中的应用研究[D];西北工业大学;2006年
4 文敦伟;面向多智能体和神经网络的智能控制研究[D];中南大学;2001年
5 吴大宏;基于遗传算法与神经网络的桥梁结构健康监测系统研究[D];西南交通大学;2003年
6 杜文斌;基于神经网络的冠心病证候诊断标准与药效评价模型研究[D];辽宁中医学院;2004年
7 熊雪梅;参数化模糊遗传神经网络及在植物病害预测的应用[D];南京农业大学;2004年
8 李智;电站锅炉燃烧系统优化运行与应用研究[D];东北大学;2005年
9 王承;基于神经网络的模拟电路故障诊断方法研究[D];电子科技大学;2005年
10 谭阳红;基于小波和神经网络的大规模模拟电路故障诊断研究[D];湖南大学;2005年
中国硕士学位论文全文数据库 前10条
1 孟杰;基于构造性覆盖算法的中文文本分类[D];安徽大学;2007年
2 廖犬发;一种配电网故障区间诊断系统的研究[D];武汉大学;2004年
3 陈燕;基于粒计算——神经网络的故障诊断方法与应用[D];太原理工大学;2011年
4 魏秀;文化算法优化RBF神经网络及应用研究[D];太原理工大学;2011年
5 王晶;基于神经网络理论实现混沌系统控制与同步研究[D];郑州大学;2002年
6 易江义;神经网络PID控制在汽车发电机性能自动测试系统的应用[D];中南大学;2004年
7 张霞;GIS内部信号识别的神经网络建模及小波算法实现[D];天津大学;2003年
8 仲京臣;基于小波神经网络的故障诊断研究[D];中国海洋大学;2004年
9 任子武;基于神经网络的参数自整定PID控制算法研究[D];哈尔滨理工大学;2004年
10 高玉萍;基于专家系统与神经网络相结合的电力变压器故障诊断[D];西安理工大学;2005年
中国重要报纸全文数据库 前10条
1 记者 陈青 通讯员 孙国根;揭示神经网络形成新机制[N];文汇报;2011年
2 于翔;数字神经网络中的协同应用[N];网络世界;2009年
3 健康时报特约记者  张献怀;干细胞移植:修复受损的神经网络[N];健康时报;2006年
4 邹丽梅 陈耀群;江苏科大神经网络应用研究通过鉴定[N];中国船舶报;2006年
5 记者 孙刚;“神经网络”:打开复杂工艺“黑箱”[N];解放日报;2007年
6 本报首席记者 任荃 实习生 史博臻;轨交“神经网络”触动创新神经[N];文汇报;2011年
7 计算机世界实验室 韩勖;当布线系统遭遇神经网络[N];计算机世界;2009年
8 曹建兵 李祖兵 特约记者 何天进 本报记者 于莘明;给导弹植入“神经网络”[N];科技日报;2005年
9 谭薇;“潮湿计算机”:拥有人类智慧的超级大脑[N];第一财经日报;2010年
10 韩婷婷;ICT强壮奥运“神经网络”[N];通信产业报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978