收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于模糊粗糙集的Web文本分类研究

孙海虹  
【摘要】: 随着计算机与网络技术的快速发展,网络已成为人们存储和获取信息的主要媒介,用户在享受便捷的同时,也饱受网络信息资源大、获取信息难的困扰。文本分类技术可以快速定位有用信息,帮助用户快速高效地获取知识。模糊粗糙集是一种处理不确定性问题的新方法,它在文本自动分类领域的应用,很好地解决了粗糙集处理离散化过程中的信息损失问题,从而使信息约简和文本分类具有更高的准确性。 本文在系统地学习和研究模糊粗糙集理论与国内外相关文献的基础上,分析了当前主流文本自动类算法的缺点和不足,引入了一种基于模糊粗糙集的文本分类方法。首先,对从网络上采集到的Web文本进行预处理,用向量空间模型表示去噪后的Web文本,通过分析向量空间模型中的文档,筛选生成特征属性空间,并计算每个特征属性的权重;其次,引入粗糙集方法约简特征属性,对于每一个类别生成与之对应的最简属性集合,所有类别的最简属性集合生成了文本分类规则,对于每一类的最简属性集合,包含了每个属性属于该类的隶属度,这些最简属性集合是模糊集;第三,提出了一种基于模糊粗糙集的文本分类算法,对未经预处理的Web文本直接进行特征属性匹配,根据生成的分类规则,计算该文本与每个类别间的模糊粗糙贴似度,并选择贴似度最大的分类作为该文本所属类别;最后,通过实验对该算法进行测试,确定了特征属性空间维度与分类文档数量这两个参数,使算法的分类性能达到相对最优,并与传统分类算法进行了比较。 通过分析实验结果得出,基于模糊粗糙集的文本分类算法与传统的KNN算法和SVM算法相比,在分类速度和分类精度指标都有显著的提高。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李会;王立峰;;Web网页文本特征选择方法研究[J];计算机工程与设计;2010年16期
2 王连军;Web文本挖掘浅析[J];现代图书情报技术;2002年06期
3 黎琳;;Web内容挖掘在数字图书馆中的应用[J];深图通讯;2005年04期
4 李方敏;CGI的安全编程[J];计算机工程与应用;1999年06期
5 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期
6 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期
7 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期
8 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期
9 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期
10 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期
11 李晶,朱秋萍;Web页制作中的动态表现技术[J];计算机工程;2000年06期
12 刘波,代亚非,杜跃进;远程协同教学系统中课程搜索子系统设计[J];计算机应用;2000年06期
13 武庄,刘友丹;基于Web的企业内部质量审核系统设计与实现[J];计算机应用研究;2000年05期
14 梁开健,刘新民;基于ASP的图书馆Web数据库开发[J];高校图书馆工作;2000年04期
15 张睿光,黄玉超;基于ASP技术的气象信息系统软件设计[J];河南气象;2000年01期
16 张少敏,王保义;基于Web的管理信息系统方案及其安全性[J];华北电力大学学报;2001年01期
17 贺文,顾训穰;基于Web的客户端电子邮件系统的实现[J];计算机工程与应用;2001年08期
18 刘国华,包宏,李文超;基于WEB的人工神经网络材料设计系统[J];计算机工程与应用;2001年20期
19 冯晓君,李也白;构建Internet环境下的CAI课件数据库系统[J];计算机应用;2001年03期
20 陈扬枝,张见威;基于Web的机械设计材料库系统[J];现代制造工程;2001年12期
中国重要会议论文全文数据库 前10条
1 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 袁志坚;贾焰;;基于误差反馈的高速Web文本流快速近似分类[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
5 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
6 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
7 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
10 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国博士学位论文全文数据库 前10条
1 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
2 安爽;稳健模糊粗糙集模型研究[D];哈尔滨工业大学;2011年
3 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
4 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
5 黄正华;模糊粗糙集模型的若干拓展[D];武汉大学;2010年
6 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
7 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
8 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
9 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
10 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙海虹;基于模糊粗糙集的Web文本分类研究[D];哈尔滨理工大学;2010年
2 程博;Web文本分类方法研究与系统实现[D];电子科技大学;2010年
3 段莹;支持向量机在Web文本分类优化中的应用[D];武汉理工大学;2010年
4 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
5 王伟;搜索引擎下Web分类技术研究[D];内蒙古科技大学;2011年
6 钟志丹;Web应用框架与文本分类技术应用研究[D];湖南大学;2010年
7 胡峰;Web数据挖掘及其在网络新闻文本数据中的应用[D];电子科技大学;2010年
8 郭凯;面向Web文本的数据清洗关键技术的研究与实现[D];西安电子科技大学;2009年
9 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
10 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978