收藏本站
《哈尔滨理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于模糊粗糙集的Web文本分类研究

孙海虹  
【摘要】: 随着计算机与网络技术的快速发展,网络已成为人们存储和获取信息的主要媒介,用户在享受便捷的同时,也饱受网络信息资源大、获取信息难的困扰。文本分类技术可以快速定位有用信息,帮助用户快速高效地获取知识。模糊粗糙集是一种处理不确定性问题的新方法,它在文本自动分类领域的应用,很好地解决了粗糙集处理离散化过程中的信息损失问题,从而使信息约简和文本分类具有更高的准确性。 本文在系统地学习和研究模糊粗糙集理论与国内外相关文献的基础上,分析了当前主流文本自动类算法的缺点和不足,引入了一种基于模糊粗糙集的文本分类方法。首先,对从网络上采集到的Web文本进行预处理,用向量空间模型表示去噪后的Web文本,通过分析向量空间模型中的文档,筛选生成特征属性空间,并计算每个特征属性的权重;其次,引入粗糙集方法约简特征属性,对于每一个类别生成与之对应的最简属性集合,所有类别的最简属性集合生成了文本分类规则,对于每一类的最简属性集合,包含了每个属性属于该类的隶属度,这些最简属性集合是模糊集;第三,提出了一种基于模糊粗糙集的文本分类算法,对未经预处理的Web文本直接进行特征属性匹配,根据生成的分类规则,计算该文本与每个类别间的模糊粗糙贴似度,并选择贴似度最大的分类作为该文本所属类别;最后,通过实验对该算法进行测试,确定了特征属性空间维度与分类文档数量这两个参数,使算法的分类性能达到相对最优,并与传统分类算法进行了比较。 通过分析实验结果得出,基于模糊粗糙集的文本分类算法与传统的KNN算法和SVM算法相比,在分类速度和分类精度指标都有显著的提高。
【学位授予单位】:哈尔滨理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 赵越岭;王英丽;;广义模糊粗糙集在模糊信息约简中的应用[J];计算机工程与应用;2008年04期
2 刘丽珍,宋瀚涛;文本分类中的特征选取[J];计算机工程;2004年04期
3 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
4 彭昱忠;元昌安;王艳;覃晓;;基于内容理解的不良信息过滤技术研究[J];计算机应用研究;2009年02期
5 傅鹏,张德运;基于离散核支持向量机的文本自动分类[J];清华大学学报(自然科学版);2005年S1期
6 高淑琴;;Web文本分类技术研究现状述评[J];图书情报知识;2008年03期
7 谢克明,杨静;粗糙集理论及其在智能控制领域的应用前景[J];太原理工大学学报;1999年04期
8 姬水旺,姬旺田;支持向量机训练算法综述[J];微机发展;2004年01期
9 饶文碧;柯慧燕;;Web文本分类技术研究及其实现[J];计算机技术与发展;2006年03期
10 王香港;刘功申;李生红;;高性能互联网信息监控系统的研究和实现[J];微计算机信息;2008年27期
中国博士学位论文全文数据库 前2条
1 郑春红;支撑矢量机应用的关键技术研究[D];西安电子科技大学;2005年
2 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前9条
1 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
2 付雪峰;基于模糊—粗糙集的文本分类模型[D];江西师范大学;2005年
3 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
4 汪传建;基于混合模型的文本分类的研究[D];东北大学;2005年
5 孙如英;基于模糊粗糙集的知识获取算法研究[D];重庆大学;2006年
6 黄治国;基于粗糙集的信息检索研究[D];中南大学;2007年
7 曹勇;中文Web文本分类技术研究[D];厦门大学;2007年
8 郑碎潘;Web数据挖掘中的文本分类研究[D];南京航空航天大学;2007年
9 王丽红;基于粗糙集理论的文本分类技术研究[D];天津师范大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
2 赵彦辉;张乐文;邱道宏;仲晓杰;;基于粗糙集理论的隧道围岩模糊综合评判[J];四川建筑科学研究;2011年02期
3 吕俊;任雪萍;;一种基于粗糙集理论的变压器故障多变量决策树诊断方法[J];安徽电气工程职业技术学院学报;2011年01期
4 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
5 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
6 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
7 章曙光;耿焕同;;一种改进的基于聚类的范例添加删除维护模型[J];安徽建筑工业学院学报(自然科学版);2006年01期
8 孙虹;方敏;;基于Rough集和RBF网络的车牌字符识别方法[J];安徽建筑工业学院学报(自然科学版);2006年04期
9 孙虹;;粗糙集神经网络系统在车牌字符识别中的研究[J];安徽建筑工业学院学报(自然科学版);2007年04期
10 张继宝;汪明武;谢慧敏;;基于粗糙集理论的围岩稳定性模糊综合评价[J];安徽建筑工业学院学报(自然科学版);2008年02期
中国重要会议论文全文数据库 前10条
1 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 尹宗成;;粗糙集理论在我国粮食产量预测中的应用[A];现代农业理论与实践——安徽现代农业博士科技论坛论文集[C];2007年
3 危前进;董荣胜;孟瑜;崔更申;;基于粗糙集的机械装配知识发现方法[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
4 周绮凤;林成德;罗林开;彭洪;;一种基于黎曼度量的训练样本类不平衡SVM分类方法研究[A];第二十六届中国控制会议论文集[C];2007年
5 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
6 何鹏;王雅琳;桂卫华;孔玲爽;;氧化铝硅渣成分的混沌时间序列分析与SVM预测[A];第二十九届中国控制会议论文集[C];2010年
7 尹钟;张建华;;基于支持向量机方法的过程操作员功能状态分类[A];中国自动化学会控制理论专业委员会A卷[C];2011年
8 项倩雯;孙玉坤;张新华;;基于SVM-GA的磁悬浮开关磁阻电机优化设计[A];中国自动化学会控制理论专业委员会C卷[C];2011年
9 查星云;;一种钢铁企业金属损耗平衡分析方法[A];全国冶金自动化信息网2012年年会论文集[C];2012年
10 汤广富;马春实;刘欢;付强;;模糊聚类快速实用方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
3 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
4 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
5 董慧群;代建制项目风险预警管理研究[D];辽宁工程技术大学;2010年
6 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
7 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
8 杨锦园;基于传感器管理的移动机器人融合算法研究[D];华中科技大学;2010年
9 李鹤喜;基于视觉反馈的焊接机器人自主示教关键技术研究[D];华南理工大学;2010年
10 郑光辉;江苏部分地区土壤属性高光谱定量估算研究[D];南京大学;2011年
中国硕士学位论文全文数据库 前10条
1 单文娟;铝电解槽焙烧与启动过程危险源辨识与评价研究[D];河南理工大学;2010年
2 常绪华;基于MATLAB综采面采空区自燃特性分析研究[D];河南理工大学;2010年
3 廖甜甜;白细胞图像语义识别分类的研究[D];南昌航空大学;2010年
4 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
5 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
6 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
7 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
8 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
9 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
10 李光远;基于在线聚类和最小二乘支持向量机的模糊建模方法研究[D];郑州大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 李岩,禹海全,冯振声;基于粗集理论的规则知识获取[J];兵工自动化;2003年03期
2 段立娟,包振山,毛国君;多特征特定类型图像过滤方法[J];北京工业大学学报;2005年04期
3 刘万春,罗双华,朱玉文,谢世斌;基于聚类分析和支持向量机的布匹瑕疵分类方法[J];北京理工大学学报;2004年08期
4 赵晓晖;张福威;申铉京;;基于亮度自适应色度空间模型肤色算法及应用[J];吉林大学学报(信息科学版);2006年01期
5 于昕;韩崇昭;雷明明;;支持向量机在目标分类中的应用[J];电光与控制;2006年04期
6 李东艳;黄鹏鹤;;基于双层规则的内容安全过滤方法[J];大连交通大学学报;2007年03期
7 邓珞华;信息检索系统数学模型的理论及其评价——谨以此文献给信息检索的先驱杰拉尔德·索顿先生[J];大学图书馆学报;2002年01期
8 黄晓斌,邱明辉;网络信息过滤方法的比较研究[J];大学图书馆学报;2005年01期
9 焦李成,张莉,周伟达;支撑矢量预选取的中心距离比值法[J];电子学报;2001年03期
10 王国胜,钟义信;支持向量机的若干新进展[J];电子学报;2001年10期
中国博士学位论文全文数据库 前8条
1 张莉;支撑矢量机与核方法研究[D];西安电子科技大学;2002年
2 周伟达;核机器学习方法研究[D];西安电子科技大学;2003年
3 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
4 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
5 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
6 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
7 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
8 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年
中国硕士学位论文全文数据库 前10条
1 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
2 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
3 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
4 罗强;基于粗糙集理论的知识发现在web文本挖掘上的应用研究[D];广西大学;2003年
5 张滨;中文文档分类技术研究[D];武汉大学;2004年
6 彭雅;文本分类算法及其应用研究[D];湖南大学;2004年
7 栾丽华;聚类算法研究[D];南京师范大学;2004年
8 张治平;Web信息精确获取技术研究[D];国防科学技术大学;2004年
9 汪传建;基于混合模型的文本分类的研究[D];东北大学;2005年
10 朱爱华;粗糙集理论在Web信息过滤中的应用研究[D];四川大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 李会;王立峰;;Web网页文本特征选择方法研究[J];计算机工程与设计;2010年16期
2 王连军;Web文本挖掘浅析[J];现代图书情报技术;2002年06期
3 黎琳;;Web内容挖掘在数字图书馆中的应用[J];深图通讯;2005年04期
4 李方敏;CGI的安全编程[J];计算机工程与应用;1999年06期
5 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期
6 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期
7 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期
8 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期
9 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期
10 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期
中国重要会议论文全文数据库 前10条
1 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 袁志坚;贾焰;;基于误差反馈的高速Web文本流快速近似分类[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
5 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
6 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
7 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
10 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
2 安爽;稳健模糊粗糙集模型研究[D];哈尔滨工业大学;2011年
3 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
4 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
5 黄正华;模糊粗糙集模型的若干拓展[D];武汉大学;2010年
6 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
7 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
8 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
9 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
10 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙海虹;基于模糊粗糙集的Web文本分类研究[D];哈尔滨理工大学;2010年
2 程博;Web文本分类方法研究与系统实现[D];电子科技大学;2010年
3 段莹;支持向量机在Web文本分类优化中的应用[D];武汉理工大学;2010年
4 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
5 王伟;搜索引擎下Web分类技术研究[D];内蒙古科技大学;2011年
6 钟志丹;Web应用框架与文本分类技术应用研究[D];湖南大学;2010年
7 胡峰;Web数据挖掘及其在网络新闻文本数据中的应用[D];电子科技大学;2010年
8 郭凯;面向Web文本的数据清洗关键技术的研究与实现[D];西安电子科技大学;2009年
9 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
10 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026