收藏本站
《西南交通大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

粗糙集理论在中文文本分类中的应用

杜卫锋  
【摘要】:随着数据的爆炸式增长,信息处理已经成为人们获取信息和知识不可或缺的工具。文本分类是信息处理的重要研究方向,它是指在既定的分类体系下,根据文本的内容自动判别文本类别的过程。本文对文本分类中所涉及的关键技术,包括向量空间模型、实值词频向量模糊化、基于粗糙集理论的知识获取、知识库中规则强度的计算、各规则分类结果不一致时的冲突消解等内容进行了研究和探讨,并给出了该方法与其它分类方法的复杂度比较,最后应用该方法实现了一个文本分类系统,获得了分类准确程度方面的实验结果。本文的研究内容主要包括以下两个方面: 一.基于粗糙集理论的知识约简研究 1.Skowron区分矩阵的改进。对Skowron区分矩阵中元素应满足的条件作了改进,使得对条件的判断较原来更为简单,并且满足该条件的元素较原来更少,有效降低了借助区分函数计算知识约简的复杂度; 2.各种知识约简方法相互关系的研究。对于决策表,人们从不同的角度出发,提出了正域约简、熵约简、分布约简、分配约简、近似约简等约简理论与方法。本文证明了熵约简与分布约简等价,而对于协调决策表,正域约简、熵约简、分布约简、分配约简、近似约简相互等价; 3.知识约简的逻辑特征。决策表中的知识体现为规则的形式,可以理解为非经典逻辑系统中的公式,本文借助逻辑手段研究知识约简的逻辑特征,证明了在熵约简与分布约简之下,决策表约简前后所获得的规则是等价的。 二.粗糙集理论在文本分类中的应用研究 1.本文结合仅对一维空间进行划分的特点,对FCM算法进行了调整,使其能得到两相模糊数弱划分的结果,并将语言值引入规则,提高了知识的简洁性和可理解性,为人参与知识库的分析与修正提供了方便; 2.对应用粗糙集理论获取的规则提出了一种计算规则强度的方法,该方法综合考虑规则对应的实例数、规则与实例的匹配度以及规则前件的长度,为分析规则库中规则的重要性程度提供了一个指标,方便了不一致结果的冲突消解,使得分类结果更加准确有效; 3.在以上研究工作基础上,设计并实现了基于粗糙集理论的文本分类系统,经过查全率和查准率比较,分析了本文提出的文本分类系统的特点,并给出了冲突消解策略。
【学位授予单位】:西南交通大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:TP18

【相似文献】
中国期刊全文数据库 前10条
1 张博;刘文奇;周智超;周胜根;;基于粗糙集的私家车潜在消费群体研究[J];科学技术与工程;2011年21期
2 霍桂利;;粗糙集理论的研究述评[J];山西广播电视大学学报;2011年05期
3 郑钟志;段鹏;杨景;;在Visual Basic环境下用粗糙集理论约简决策表属性[J];淮南师范学院学报;2011年03期
4 欧萍;;粗糙集理论在关系数据库中的应用[J];电脑编程技巧与维护;2011年16期
5 马艳丽;曹燕燕;董蓓蓓;郑伟;;基于粗糙集理论的大学生成绩影响因素分析[J];河北北方学院学报(自然科学版);2011年04期
6 冯林;原永乐;;一种基于(μ+λ)-ES进化策略的特征选择方法[J];计算机科学;2011年08期
7 林治;张璇;;粗糙集理论的应用探析[J];邢台职业技术学院学报;2011年03期
8 徐欣;黄理灿;赵玉虹;;基于粗糙集特征加权的文本分类[J];浙江理工大学学报;2011年04期
9 张韬;胡旻;;互联网Web数据挖掘模型设计与技术实现[J];卫星与网络;2010年10期
10 王艳;;数据隐私保护技术综述[J];知识经济;2011年14期
中国重要会议论文全文数据库 前10条
1 盛立;刘希玉;高明;;基于粗糙集理论的数据挖掘算法研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
2 刘明亮;吴跃民;杨明;;基于粗糙集和云理论的土地适宜性评价模型的建立[A];2006年中国土地学会学术年会论文集[C];2006年
3 张文明;薛青;;粗糙集方法在作战仿真数据挖掘中的应用[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
4 李永敏;朱善君;吉吟东;陈湘晖;;一种基于近似推理的数据挖掘算法[A];1998中国控制与决策学术年会论文集[C];1998年
5 李天瑞;徐扬;;基于粗糙集的一种挖掘分类规则算法[A];2001年中国管理科学学术会议论文集[C];2001年
6 易向军;宋威;;数据挖掘技术在冶金MES中的应用探讨[A];冶金自动化信息网年会论文集[C];2004年
7 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
8 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
9 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
10 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
中国重要报纸全文数据库 前10条
1 王玮 蔡莲红;数据挖掘走入语音处理[N];计算机世界;2001年
2 早报记者 胡孝敏;跨国企业掘金中国“数据挖掘”市场[N];东方早报;2005年
3 吴勇毅;软件选型:数据挖掘是重点[N];中国冶金报;2009年
4 刘光强;靠数据挖掘抓住客户的心[N];中国计算机报;2009年
5 本报记者 郭白岩;大众点评网向数据挖掘要收益[N];中国经营报;2011年
6 赵骏飞;数据挖掘在金融行业的应用[N];中国保险报;2011年
7 本报记者 黎宇文;博时基金王德英: 数据挖掘促进基金精细化管理[N];中国证券报;2011年
8 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
9 吴辅世;打破数据挖掘的5个神话[N];中国计算机报;2003年
10 ;数据挖掘:如何挖出效益?[N];中国计算机报;2004年
中国博士学位论文全文数据库 前10条
1 苏健;基于粗糙集的数据挖掘与决策支持方法研究[D];浙江大学;2002年
2 郑文钟;基于数据挖掘和系统集成的农业机械化信息管理系统研究[D];浙江大学;2005年
3 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
4 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
5 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
6 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
7 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
8 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
9 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
10 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 黄文涛;在数据挖掘中概念格的理论研究[D];兰州理工大学;2007年
2 陈鑫影;基于粗糙集理论的约简算法研究[D];吉林大学;2005年
3 梁美莲;不完备信息系统中数据挖掘的粗糙集方法[D];广西大学;2005年
4 汪小燕;基于二进制可辨矩阵的属性约简研究[D];合肥工业大学;2006年
5 何国建;基于粗糙集理论与遗传算法的分类算法研究[D];西南交通大学;2005年
6 杨志勇;基于粗糙集的Web日志挖掘研究[D];兰州理工大学;2006年
7 何田;基于粗糙集和概念格的关联规则挖掘研究[D];华中师范大学;2008年
8 廖超;基于粗糙集理论的时间序列数据分析[D];中南大学;2005年
9 向仁军;基于粗糙集理论数据挖掘方法在边坡安全评价中的应用[D];中南大学;2005年
10 陈伟统;基于粗糙集理论的网络入侵检测方法[D];浙江大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026