收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Web文本分类关键技术研究

尹世群  
【摘要】: 九十年代以来,Internet以惊人的速度向前发展,Web作为信息制造、发布、加工与处理的主要平台,出现了海量的、异构的、动态的、半结构化或非结构化的信息资源,并且在这些Web信息中有80%以上的信息是以Web文本的形式存在的,容量增长迅速,平均每天增加100万个页面。随着Internet这样的扩展和大量在线文本的出现,将标志这巨大的非结构型或半结构型数据海洋中,蕴藏着极其丰富的有用信息即知识。如何在Web所提供的海量信息中发现有用的信息和知识模式并加以有效利用,一直是人们努力探索的问题。搜索引擎的分类浏览模式,检索效果好,能协助用户寻找所需信息,但是需要人工维护,维护成本高,信息更新慢,维护的工作量大,同时搜索结果精度不高,召回率有限,更不能满足用户给出特殊的个性化服务要求。因此,基于Web文本数据的知识发现应运而生。Web文本分类可以有效的解决上述问题,并能依据网页中所包含的文本的语义将大量的网页自动分门别类,从而更好地帮助人们把握Web信息,帮助用户快速、准确的对目标知识进行定位,缩减搜索空间,加快检索速度,提高查询精度。 Web文本分类是Web文本挖掘的关键组成部分。本文在分析Web文本挖掘和Web文本分类的研究现状和存在问题的基础上,针对复杂、海量及半结构化与非结构化的文本数据类型的特性,从知识发现内在认知机理研究的角度出发,把知识发现过程视为认知过程,把知识发现系统视为认知系统,建立文本库与知识库的内在联系“通道”——双库协同机制,用知识库的知识去参与、制约与驱动知识发现的发掘过程,构造启发型与中断型协调器来模拟认知心理学的“创建意向”和“心理信息修复”特征,分别实现系统自主发现知识短缺来形成“定向发掘”和实现知识库实时维护的“定向搜索”,模拟人类学习方式,实现文本库信息扩张机制的渐增、递进式的知识发现。从而在Web文本分类进程与知识库的广泛联系中,改进与优化了Web文本分类的结构、过程与运行机制,形成了Web文本分类系统的改进的结构模型——算法——应用一体化的线路。进一步研究了Web文本分类过程中的关键技术,如文本采集、分词、特征降维、特征权值计算、分类等若干关键技术。针对不完备信息、不确定信息、知识发掘认知自主性,分别给出了结合粗糙集、模糊集和内在认知机理的Web文本分类的混合的改进算法。 本文主要研究内容和创新点具体包括以下几个方面: (1)构建Web文本分类系统模型。 给出了文本预处理模块、分类模块、分类质量评价模块的功能和内容以及整体模型框架,对Web文本分类系统模型中的关键技术:文本采集、分词处理、文本的特征表示、特征降维、权重计算和分类技术进行了研究,同时描述了影响分类性能评价的五个因素和几种常用的分类质量评价方法。 (2)给出一种Web文本采集算法和采集系统。 针对Web文本采集技术、文本采集系统中的数据库设计方法、采集系统功能设计内容、采集算法进行了研究,描述了从Internet上采集Web文本形成Web的TXT文件集的具体采集过程。 (3)提出一种基于双库协同机制与粗糙集的Web文本分类关联规则挖掘算法。 采用互信息计算公式进行特征的初步选择和用粗糙集理论进行进一步属性约简相结合,实现了文本特征的更有效降维处理,大大缩减了文本高维特征空间。文本分类规则挖掘结合基于内在认知的双库协同机制进行关联分析方法和有效的进一步规则优化提取,启用中断型协调器,经过这样的处理后,规则中的条件属性数目、规则冲突被尽可能减少,规则的适应性更强。再将两结合的特征降维方法和多结合的分类规则挖掘方法混合使用,更十分有效实现了文本的分类。对混合挖掘算法进行了实验,并结合常用的关联规则分类法和SVM方类法对该改进混合算法进行比较,验证该算法的可行性。 (4)提出一种基于模糊综合加权推理的Web文本模糊分类改进算法。 模糊推理方法是运用知识规则进行推理,使机器具有思维能力,自动求解问题,它的工作方式与人类的认知过程极为相似。通过模糊推理来对文本模糊分类,建立起了样本对于类别的不确定性的描述,使归类结果比精确分类更有效地反映Web文本的真实信息。针对基于最大——最小合成法模糊推理归类这种方法在模糊运算的过程中只能保持主要信息,忽略很多次要因素,虽然能减少运算工作量,但其分类结果适应性、可信度不很理想的情况,提出一种改进模糊综合加权评判算法。使用了本文给出的一种“综合加权型”算子(?)(·,(?)),基于有界和——代数积进行推理运算,根据权重系数综合考虑每个因素的影响建立的模糊分类系统的模糊推理机制,能确保推理结果的准确性及可信度。对该算法进行了实验,同时结合基于最大—最小合成模糊推理方法对该改进算法进行比较,验证该算法的可行性。 (5)提出一种基于内在认知机理的带反馈的质心Web文本分类改进算法。 结合认知科学,针对只有训练与分类两阶段的分类方法,不具备不断学习的能力和分类能力在将来的分类过程中是固定不变的情况,在文本训练及分类阶段的基础上增加了自动反馈阶段,实现模拟人类学习方式的渐增、递进式知识发现方式,实现分类器自识调节和修正来提高文本分类智能化程度和分类有效性。并对该改进算法进行了实验,与传统的质心文本分类作比较,验证该算法的可行性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈淑珍,卢昌荆,林克明;粗糙集理论在Web文本挖掘特征提取中的应用[J];武汉化工学院学报;2004年04期
2 庄世芳;;一种基于Ontology的中文Web文本聚类算法的研究[J];福建电脑;2008年06期
3 张薇娟;张桂芸;;基于模糊认知图的文本分类模型研究[J];天津科技;2007年04期
4 陈世清,唐志航,肖建华;基于粗糙集联系度的数据挖掘算法及应用研究[J];计算机应用;2004年06期
5 杨晓平,徐优红,许金权;考试成绩分析的粗糙集方法[J];浙江海洋学院学报(自然科学版);2002年04期
6 刘燕,张学庆,杨绍国;一种基于粗糙集分类的图像压缩方法[J];物探化探计算技术;2002年02期
7 蒋加伏,刁洪祥,唐贤瑛;一种基于粗糙集分类的图像增强方法[J];计算机工程与应用;2003年19期
8 冯志鹏,宋希庚,薛冬新;基于粗糙集与神经网络集成的内燃机故障诊断[J];内燃机学报;2003年01期
9 游凤荷,黄樟灿,孙砚飞,毛天祥;粗糙集的约简算法在涡流传感器设计中的应用[J];无损检测;2003年03期
10 石金彦,黄士涛,雷文平;粗糙集与决策树结合诊断故障的数据挖掘方法[J];郑州大学学报(工学版);2003年01期
11 魏彩乔,焦满囤;基于粗糙集的绿色度评价方法及实现技术[J];计算技术与自动化;2004年03期
12 王萍;粗糙集理论及其应用进展[J];南京工业职业技术学院学报;2004年03期
13 张连华,张冠华,张洁,白英彩;基于粗糙集分类的网络入侵检测[J];上海交通大学学报;2004年S1期
14 时希杰,沈睿芳,吴育华;基于粗糙集理论的研究生招生预测[J];微计算机应用;2005年01期
15 刘发升,杨炳儒;一种基于粗糙集的多层次、逐步求精的发掘算法[J];计算机工程与应用;1999年05期
16 王卫平,李熙亚,左远志;基于粗糙集的数控机床故障诊断最小化方法[J];组合机床与自动化加工技术;2001年02期
17 许中卫,李龙澍;基于粗糙集理论的数据挖掘算法研究[J];微机发展;2001年01期
18 邓方安,武多义;关于粗糙集的若干注记(Ⅰ)——粗糙集与Stone代数[J];汉中师范学院学报;2002年06期
19 郝丽娜,王伟,吴光宇,王宛山;粗糙集-神经网络故障诊断方法研究[J];东北大学学报(自然科学版);2003年03期
20 董广军,范永弘,罗睿;基于粗糙集理论的遥感影像分类研究[J];计算机工程与应用;2003年13期
中国重要会议论文全文数据库 前10条
1 肖健梅;芦晓明;王锡淮;;集装箱起重机防摇系统粗糙集控制[A];第二十六届中国控制会议论文集[C];2007年
2 李晓丽;王彤;杜振龙;;基于粗糙集理论的流数据最优特征选择[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 聂力;王翰虎;;一个基于粗糙集理论的分类规则学习算法[A];第十六届全国数据库学术会议论文集[C];1999年
4 王旭阳;王彤;李明;;基于粗糙集理论的分类规则挖掘方法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 刘永红;薛青;郑长伟;;基于粗糙集理论的C4ISR评估方法[A];第13届中国系统仿真技术及其应用学术年会论文集[C];2011年
6 赵明清;陶树平;;基于模糊等价关系的粗糙集[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
7 葛丽;傅彦;;粗糙集在科学数据属性约简中的应用[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论建立中老年肺炎中医症候诊断标准[A];第二十九届中国控制会议论文集[C];2010年
9 赵荣珍;杨娟;黄显华;;粗糙集理论的故障知识发现及其工程应用模式研究[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
10 顾成杰;张顺颐;刘凯;黄河;;基于粗糙集和禁忌搜索的特征选择方法[A];江苏省电子学会2010年学术年会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 尹世群;Web文本分类关键技术研究[D];西南大学;2008年
2 张国军;基于粗糙集的相对属性约简算法及决策方法研究[D];华中科技大学;2010年
3 马君华;粗糙集属性约简和聚类算法及其在电力自动化中的应用研究[D];华中科技大学;2010年
4 杨习贝;不完备信息系统中粗糙集理论研究[D];南京理工大学;2010年
5 纪霞;不完备信息系统中粗糙集理论的扩展研究与应用[D];安徽大学;2010年
6 赵佰亭;混合决策系统的粗集模型及在转台故障诊断中的应用[D];哈尔滨工业大学;2010年
7 刘业政;基于粗糙集数据分析的智能决策支持系统研究[D];合肥工业大学;2002年
8 丛蓉;作战指挥决策支持系统目标融合识别研究[D];大连理工大学;2010年
9 哈斯巴干;神经网络及其组合算法的遥感数据分类研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 刘洪波;汉语认知脑数据挖掘相关算法及应用研究[D];大连理工大学;2006年
中国硕士学位论文全文数据库 前10条
1 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
2 张聪炳;基于模糊推理和粗糙集的旋转机械故障诊断的研究[D];江西理工大学;2011年
3 吕望;基于粗糙集的车辆超载自动检测方法研究[D];长沙理工大学;2010年
4 田静宜;基于粗糙集和神经网络的柴油机故障诊断研究[D];中北大学;2011年
5 于兴网;粗糙集属性约简算法在数据挖掘中的研究[D];重庆大学;2004年
6 雷明;基于粗糙集理论的决策表压缩[D];华北电力大学(北京);2010年
7 魏悦亮;粗糙集在数据挖掘不确定性问题中的研究[D];中国石油大学;2010年
8 袁晓娟;基于粒计算的双论域粗糙集模型研究[D];兰州大学;2010年
9 武金艳;粗糙集与证据理论在医疗智能诊断系统中的应用研究[D];湖南大学;2010年
10 穆海芳;基于粗糙集理论的故障诊断知识获取研究[D];合肥工业大学;2010年
中国重要报纸全文数据库 前10条
1 中南大学无机非金属材料研究所 王海东 吴建华;水泥回转窑模糊控制器骨架系统开发[N];中国建材报;2006年
2 ;栉风沐雨铸辉煌 继往开来谱华章[N];人民邮电;2006年
3 本报记者 唐海强;我市5项成果获省科技进步奖[N];衡阳日报;2007年
4 王玮 蔡莲红;数据挖掘走入语音处理[N];计算机世界;2001年
5 谢培;21世纪将是生命科学的时代[N];河北日报;2000年
6 杨彦明、记者 翁淮南;心理训练有了对抗平台[N];解放军报;2005年
7 本报记者 李智 通讯员 梁宪生;零的突破[N];山西经济日报;2001年
8 ;模糊计算不“含糊”[N];计算机世界;2003年
9 李磊;让电子政务更聪明[N];计算机世界;2001年
10 罗文诺;厨房新潮一族电脑电饭煲[N];山西科技报;2000年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978