收藏本站
《江西师范大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于模糊—粗糙集的文本分类模型

付雪峰  
【摘要】:如何在浩若烟海而又纷繁芜杂的文本信息中获取最有效的信息是信息处理的一大任务。文本自动分类是实现这个任务的重要方法之一。在文本分类过程中,由于同义词、多义词、近义词的存在导致许多类并不能完全划分开来,造成类之间的边界模糊。此外交叉学科的发展,使得类之间出现重叠,于是造成许多文本信息并非绝对属于某个类。这两种情况均会导致分类有偏差。 针对上述情形,本文提出利用粗糙—模糊集理论来处理在文本分类问题中出现的这些偏差。模糊—粗糙集理论有机的结合了模糊集理论与粗糙集理论在处理不确定信息方面的能力。粗糙集理论体现了由于属性不足引起集合中对象间的不可区分性,即由于知识的粒度而导致的粗糙性;而模糊集理论则对集合中子类边界的不清晰定义进行了模型化,反映了由于类别之间的重叠体现出的隶属边界的模糊性。它们处理的是两种不同类别的模糊和不确定性。将两者结合起来的模糊—粗糙集理论能更好地处理不完全知识。 本文的创新点如下: 1、将模糊—粗糙集理论用于文本分类,并将模糊—粗糙集理论与k-NN模型相结合。 2、利用基于距离的邻域空间来取得与每个类和待分类文本有关的邻近点数。改变以往k-NN模型通过训练取得一个对所有类都一样的最优k值。 通过实验比较,基于粗糙—模糊集理论的分类模型使分类结果有了较好的语义解释,并在一定程度上提高了分类的精度和召回率,同时并没有增加分类计算过程的复杂度。但是实验中某些参数的获取还存在不足之处,如不确定性出观时调节参数的设置以及划分邻域空间时距离的获取,都还须改进。这些问题有待于我们在今后的工作中作进一步研究。
【学位授予单位】:江西师范大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前1条
1 胡晓辉;徐也可;刘斌;;基于语义特征的自动文本分类方法[J];计算机与现代化;2010年11期
中国硕士学位论文全文数据库 前6条
1 孙海虹;基于模糊粗糙集的Web文本分类研究[D];哈尔滨理工大学;2010年
2 叶浩;基于类信息的潜在语义多类文本分类模型研究[D];江西师范大学;2006年
3 贾丙静;聚类分析在Web文本挖掘中的应用研究[D];辽宁工程技术大学;2007年
4 许君宁;基于知网语义相似度的中文文本聚类方法研究[D];西安电子科技大学;2010年
5 王英帅;Web人名消歧方法的研究与实现[D];苏州大学;2010年
6 张晓彩;基于K-means的中文文本精确聚类算法研究[D];燕山大学;2012年
【共引文献】
中国期刊全文数据库 前10条
1 赵彦辉;张乐文;邱道宏;仲晓杰;;基于粗糙集理论的隧道围岩模糊综合评判[J];四川建筑科学研究;2011年02期
2 吕俊;任雪萍;;一种基于粗糙集理论的变压器故障多变量决策树诊断方法[J];安徽电气工程职业技术学院学报;2011年01期
3 于海涛;Rough集理论在数据约简中的应用[J];安徽教育学院学报;2004年03期
4 程家兴,钱付兰;粗糙集方法在基于属性分类中的应用[J];安徽大学学报(自然科学版);2005年01期
5 孟庆全;徐文龙;;粗糙集合在中医诊断中的应用研究[J];安徽大学学报(自然科学版);2006年04期
6 梅灿华;孟庆全;祁炯;李明;;分辨矩阵构成与约简同步的方法[J];安徽工程科技学院学报(自然科学版);2008年02期
7 李建洋;倪志伟;刘慧婷;;粗糙集在CBR中的应用研究[J];安徽建筑工业学院学报(自然科学版);2006年01期
8 孙虹;方敏;;基于Rough集和RBF网络的车牌字符识别方法[J];安徽建筑工业学院学报(自然科学版);2006年04期
9 孙虹;;粗糙集神经网络系统在车牌字符识别中的研究[J];安徽建筑工业学院学报(自然科学版);2007年04期
10 张继宝;汪明武;谢慧敏;;基于粗糙集理论的围岩稳定性模糊综合评价[J];安徽建筑工业学院学报(自然科学版);2008年02期
中国重要会议论文全文数据库 前10条
1 尹宗成;;粗糙集理论在我国粮食产量预测中的应用[A];现代农业理论与实践——安徽现代农业博士科技论坛论文集[C];2007年
2 危前进;董荣胜;孟瑜;崔更申;;基于粗糙集的机械装配知识发现方法[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
3 吕思颖;刘载文;王小艺;崔莉凤;;基于Elman神经网络的水华短期预测模型[A];第二十七届中国控制会议论文集[C];2008年
4 何鹏;王雅琳;桂卫华;孔玲爽;;氧化铝硅渣成分的混沌时间序列分析与SVM预测[A];第二十九届中国控制会议论文集[C];2010年
5 龚锦红;杨辉;衷路生;;稀土萃取分离过程的Rough集案例推理方法[A];第二十九届中国控制会议论文集[C];2010年
6 李雪红;叶燕华;;水工混凝土结构裂缝主要成因挖掘的粗集方法[A];第五届混凝土结构耐久性科技论坛论文集[C];2006年
7 闫华;;基于信息熵的粗糙集知识约简方法[A];第十届粤港机电工程技术与应用研讨会暨梁天培教授纪念会文集[C];2008年
8 张志恒;花拥军;;基于粗糙集的数据挖掘技术在企业财务危机预测中的应用[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
9 苏蓬;苑津莎;李中;吴建锋;;信息熵约简算法在变压器故障诊断中的应用[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
10 刘波;崔莉凤;;北京市城区地表水体富营养化关键影响因素研究[A];2008中国环境科学学会学术年会优秀论文集(中卷)[C];2008年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
3 杨锦园;基于传感器管理的移动机器人融合算法研究[D];华中科技大学;2010年
4 任家福;服务商选择与备件备品库存管理研究[D];电子科技大学;2010年
5 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
6 李建军;广东湛江红树林生态系统空间结构优化研究[D];中南林业科技大学;2010年
7 温世亿;膨胀土渠坡若干关键技术问题研究[D];武汉大学;2010年
8 刘贵;精毛纺织品虚拟加工中的预报与反演模型研究[D];东华大学;2010年
9 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年
10 李新旺;中小尺度耕地生产力稳定性评价体系研究[D];河北农业大学;2011年
中国硕士学位论文全文数据库 前10条
1 雷聪聪;一种基于数据聚类的信息粒化方法[D];郑州大学;2010年
2 张晓冬;基于全矢谱的智能诊断技术研究[D];郑州大学;2010年
3 王晓换;基于粗糙集和神经网络的故障诊断虚拟系统的研究[D];郑州大学;2010年
4 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
5 冯为军;基于粗糙集理论的数据挖掘算法的研究[D];哈尔滨工程大学;2010年
6 王秀锋;网络环境下异构日志信息获取和预处理研究[D];哈尔滨工程大学;2010年
7 白喜朋;基于作业的钢铁企业成本分析[D];大连理工大学;2010年
8 刘莹;不一致决策表的属性约简与规则获取研究[D];大连理工大学;2010年
9 胡雅馨;基于粗糙集与证据理论的瓦斯传感器故障诊断技术的研究[D];辽宁工程技术大学;2009年
10 伊丽莉;基于变精度粗糙集的约简算法研究与应用[D];辽宁工程技术大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
2 钟义信;自然语言理解的全信息方法论[J];北京邮电大学学报;2004年04期
3 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
4 景丽萍,黄厚宽;Web文本挖掘及特征选择[J];电脑与信息技术;2002年01期
5 钟义信;关于“信息-知识-智能转换规律”的研究[J];电子学报;2004年04期
6 曾凡仔,裘正定;一种基于可行域解析中心的多类分类算法[J];复旦学报(自然科学版);2004年05期
7 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期
8 丁月华,文贵华,郭炜强;基于核向量空间模型的专利分类[J];华南理工大学学报(自然科学版);2005年08期
9 冯少荣;肖文俊;;基于语义距离的高效文本聚类算法[J];华南理工大学学报(自然科学版);2008年05期
10 李凡,林爱武,陈国社;一种基于VSM文本分类系统的设计与实现[J];华中科技大学学报(自然科学版);2005年03期
中国博士学位论文全文数据库 前8条
1 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
2 郑春红;支撑矢量机应用的关键技术研究[D];西安电子科技大学;2005年
3 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
4 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
5 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
6 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
7 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
8 唐东明;聚类分析及其应用研究[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 兰冲;基于统计规则的中文分词研究[D];西安电子科技大学;2011年
2 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年
3 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
4 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
5 章兰;一种基于VSM模型的动态文本分类器的设计[D];苏州大学;2004年
6 袁磊;基于概率模型的文本聚类[D];吉林大学;2005年
7 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
8 汪传建;基于混合模型的文本分类的研究[D];东北大学;2005年
9 孙如英;基于模糊粗糙集的知识获取算法研究[D];重庆大学;2006年
10 黄治国;基于粗糙集的信息检索研究[D];中南大学;2007年
【二级引证文献】
中国期刊全文数据库 前1条
1 宋培彦;张峻铭;;用户交互式叙词表更新机制研究[J];计算机与现代化;2011年09期
中国博士学位论文全文数据库 前1条
1 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前5条
1 艾伟;基于本体的Web信息文本挖掘与检索服务研究[D];北京信息控制研究所;2010年
2 石安磊;基于文本相似度评分的中医案例分析系统研究与实现[D];西北大学;2011年
3 周倩;基于多值词汇语义相似度的SME模型改进[D];河南大学;2011年
4 杨静;数据挖掘在煤与瓦斯突出关联因素分析中的应用研究[D];河南理工大学;2009年
5 王鹏;基于语义体与文本聚类的中文垃圾邮件过滤方法研究[D];兰州理工大学;2012年
【相似文献】
中国期刊全文数据库 前10条
1 倪茂树;时达明;林鸿飞;;基于粗糙集属性约简的文本分类[J];郑州大学学报(理学版);2007年02期
2 张美虎;张建明;;基于粗糙集和遗传算法的文本分类研究[J];微计算机信息;2009年33期
3 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
4 罗洁;南风露;;基于粗糙集的Web文本挖掘技术[J];电脑知识与技术(学术交流);2007年19期
5 白如江;王效岳;;一种混合文本分类方法研究[J];图书情报工作;2009年14期
6 唐云;罗俊松;;基于粗糙集和BP神经网络的文本分类研究[J];计算机仿真;2011年06期
7 金凯民;苗夺谦;段其国;;一种基于隐含子类信息的粗糙集中文文本分类方法[J];计算机科学;2008年02期
8 阚言东;倪茂树;刘国庆;;一种基于粗糙集的Web文本分类方法[J];计算机应用与软件;2009年08期
9 张志飞;苗夺谦;;基于粗糙集的文本分类特征选择算法[J];智能系统学报;2009年05期
10 张保富;施化吉;;一种基于粗糙集文本自动分类的改进算法[J];计算机工程与应用;2011年24期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
3 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
4 希安;微软试水信息检索[N];经济日报;2004年
5 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
6 ;模糊计算不“含糊”[N];计算机世界;2003年
7 ;维系生命之源[N];科技日报;2006年
8 应晓敏 窦文华;技术架构[N];计算机世界;2003年
9 王玮 蔡莲红;数据挖掘走入语音处理[N];计算机世界;2001年
10 本报记者 李智 通讯员 梁宪生;零的突破[N];山西经济日报;2001年
中国博士学位论文全文数据库 前10条
1 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
2 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
3 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
4 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
5 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
6 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
7 吴正江;L模糊粗糙集研究[D];西南交通大学;2009年
8 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
9 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
10 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
2 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
3 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
4 闫晨;KNN文本分类研究[D];燕山大学;2010年
5 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
6 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
7 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
8 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
9 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
10 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026