收藏本站
《山东师范大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

粗糙集在文本分类系统中的应用研究

杨淑棉  
【摘要】: 随着计算机技术和通讯技术的飞速发展,人们可以获得的文本信息越来越多,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本信息的关键技术,可以给信息文本分配一个或多个比较合适的类别,从而提高文本检索等应用的处理效率。且作为信息过滤、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。 粗糙集理论是波兰数学家1982提出的一种分析模糊和不确定知识的强有力的数学工具,作为人工智能领域的一个新的研究热点,能有效分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。粗糙集理论无需提供除问题所需处理的数据集合之外的任何先验信息;包括了知识的一种模型,使知识可用数学方法来分析处理;能获取分类所需的最小属性集,在不影响分类精度的条件下降低特征向量的维数,得到最简的显示表达的分类规则。而其它如朴素贝叶斯方法、K近邻方法都无法得到显示规则。 本论文主要对基于粗糙集理论的文本分类系统进行了系统的研究。具体的研究内容和创新性研究主要概括如下: (1)详细介绍了粗糙集及其相关理论方法和文本分类的基本内容,分析了粗糙集和文本分类的研究背景及其研究现状,并对其技术的热点、研究领域及未来发展进行了探讨,为该论文的下一步展开奠定了基础。 (2)通过研究现有属性约简算法的优缺点,在一般粗糙集的相对约简算法结合Tabu算法的基础上,提出了一种改进的属性约简算法。该算法以属性重要度为启发式信息,能得到一个最小约简。 (3)针对分词难的问题,为屏蔽对文本分词,在单篇文献中,提出了一种基于属性重要度的文本表示方法,并给出了一种获取关键词的算法。同时这种算法克服了张雪英提出的基于GF/GL权重计算对特殊文献中同一字符串出现频率是1的难题。 (4)在深入研究了文本分类和粗糙集的基础上,提出了一种基于粗糙集的文本分类系统模型,主要包括四大模块:文本预处理模块、属性约简模块、规则获取模块及其规则匹配模块。主要在属性约简模块和规则匹配模块上进行了深入的研究,最后利用仿真实验,基于粗糙集的文本分类系统是可行的。 论文中存在的不足:一方面是是语料库和停用词表的限制,另一方面基于知识粒的概念和计算正处于研究阶段,没有形成统一的概念体系。通过把知识粒的大小来衡量属性重要度作为一种启发式信息用于属性约简和文本表示还很少,其中对软计算公式研究还不大透彻。自动文本分类及粗糙集理论还有很多细节问题值得去探讨,本论文提出的部分算法经仿真实验验证,本系统是可行的,但仍还有待于进一步研究。
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 薛占熬;何华灿;;粗糙蕴涵[J];计算机科学;2003年11期
2 印勇;粗糙集理论及其在数据挖掘中的应用[J];重庆大学学报(自然科学版);2004年02期
3 李元诚,方廷健;一种基于粗糙集理论的SVM短期负荷预测方法[J];系统工程与电子技术;2004年02期
4 钟新辉,费逸伟,李华强,姜旭峰;粗糙集和证据理论在磨粒识别中的应用[J];润滑与密封;2005年05期
5 赵晨,诸静;过程控制中的一种数据挖掘算法[J];武汉大学学报(工学版);2005年05期
6 李艳,吴彦文;基于粗糙集理论分析的学习过程评价模型[J];现代计算机;2005年11期
7 汪璇;杨国才;武伟;胡小梅;;基于记录过滤的粗糙集属性约简算法研究[J];计算机工程与应用;2005年36期
8 韩少锋;陈立潮;;浅谈粗糙集理论及其应用进展[J];山西电子技术;2006年01期
9 张义清;管致锦;李洵;;逻辑函数的粗糙集表达及最小化方法[J];黑龙江大学自然科学学报;2006年02期
10 魏莱;苗夺谦;徐菲菲;夏富春;;基于覆盖的粗糙模糊集模型研究[J];计算机研究与发展;2006年10期
中国重要会议论文全文数据库 前10条
1 马玉良;赵光宙;;粗糙集理论及其在工程中的应用研究[A];第11届全国电气自动化电控系统学术年会论文集[C];2002年
2 刘碧森;姚宇;;粗SVM理论及其在税收预测中的应用[A];第三届全国信息获取与处理学术会议论文集[C];2005年
3 杨斌;闫桦;;基于粗糙集理论的农业水价承受能力研究[A];第十一届中国管理科学学术年会论文集[C];2009年
4 朱江华;潘丰;;基于蚁群算法的粗糙集知识约简[A];2005年全国自动化新技术学术交流会论文集[C];2005年
5 盛立;刘希玉;高明;;基于粗糙集理论的数据挖掘算法研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
6 朱江华;潘丰;;基于蚁群算法的粗糙集知识约简[A];2005全国自动化新技术学术交流会论文集(二)[C];2005年
7 田库;王俊松;刘玉敏;刘玉亮;李建国;;基于粗糙集理论的神经网络优化设计及网络拥赛控制[A];第25届中国控制会议论文集(中册)[C];2006年
8 王刚;张志禹;;数据融合中粗糙集的应用技术研究[A];2006中国控制与决策学术年会论文集[C];2006年
9 张辉;钱宗才;屈景辉;刘敬华;;基于粗糙集理论的知识获取研究及应用[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(上)[C];2003年
10 张鹏;崔文利;;基于粗糙集与BP网络的民航飞机故障诊断研究[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
中国重要报纸全文数据库 前2条
1 本报记者 李智 通讯员 梁宪生;零的突破[N];山西经济日报;2001年
2 王玮 蔡莲红;数据挖掘走入语音处理[N];计算机世界;2001年
中国博士学位论文全文数据库 前10条
1 赵晨;过程控制中的数据挖掘技术研究及其智能控制策略探讨[D];浙江大学;2005年
2 张勇;粗糙集—神经网络智能系统在浮选过程中的应用研究[D];大连理工大学;2006年
3 刘永阔;核动力装置故障诊断智能技术的研究[D];哈尔滨工程大学;2006年
4 邱道宏;括苍山高速公路隧道岩爆非线性预测研究[D];吉林大学;2008年
5 吴正江;L模糊粗糙集研究[D];西南交通大学;2009年
6 许琦;粗糙集理论在旋转机械故障诊断技术上应用的研究[D];南京工业大学;2003年
7 陈万里;基于商空间理论和粗糙集理论的粒计算模型研究[D];安徽大学;2005年
8 郝成;城市轨道交通项目效益分析与应用研究[D];北京交通大学;2008年
9 高赟;基于粗糙集的故障诊断和容错控制理论和方法研究[D];西安科技大学;2005年
10 李静;公务员能力理论与应用研究[D];北京交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 张青枝;基于粗糙集的专家系统研究[D];武汉理工大学;2003年
2 张腾飞;基于粗糙集和RBF网络的动态建模方法研究[D];上海海事大学;2004年
3 陈鑫影;基于粗糙集理论的约简算法研究[D];吉林大学;2005年
4 吴习宇;粗糙集理论在农业决策支持系统知识发现中的应用[D];西南农业大学;2005年
5 黄文涛;在数据挖掘中概念格的理论研究[D];兰州理工大学;2007年
6 代文征;基于粗糙集的不完备信息系统的属性约简研究[D];西北师范大学;2006年
7 高朋;基于Multi-agent的虚拟企业集成关键问题研究[D];安徽农业大学;2006年
8 姜林;基于Rough Set模型的上市公司资产重组绩效研究[D];成都理工大学;2008年
9 刘芳;粗糙集理论在启动子识别中的应用研究[D];中南大学;2008年
10 梁美莲;不完备信息系统中数据挖掘的粗糙集方法[D];广西大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026