收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于粗糙集理论的知识发现在web文本挖掘上的应用研究

罗强  
【摘要】: 本文提出了一种基于粗糙集理论的web文本分类模型,该模型从已分类的训练文本出发,建立一系列不同层次的文本分类子系统,利用Rough Set理论有效处理不精确、不确定、含糊信息的特性,对分类决策表进行属性约简,既有效降低了web文本的维度,又保持关键词集合中的信息。最后,推导出web文本分类的规则集。 有别于传统的对关键字频度进行累加的方法,本文提出了基于信息熵的文本关键词测度函数,通过对关键词函数值进行比较,获取对文本分类最具影响性的关键词序列;同时,针对Web上异质、非结构化信息的特点,该分类算法还考虑了超文本标记对关键词权值的影响。 为获取本文项目实验材料,以配合IR(Information retrieval)和IF(information filter)做仿真实验,我们编制了Web文本收集模型WebCrawler,该模型利用目前较流行的 Hits算法解析网络链接结构,从Internet上收集相关的web文本。 基于对所获实验材料的web文本分类实验,本文实现了相关的web文本挖掘算法,对提出的算法进行了实验分析。从实验结果看,基于粗糙集的web文本分类算法无论在分类精度、分类效率,还是知识的新颖程度方面,都比以往分类算法有明显提高;而且,这种技术是语言独立的。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;浅析大规模文本数据挖掘技术在媒体中的创新应用[J];中国传媒科技;2007年11期
2 郑吉;;粗糙谱聚类在文本挖掘中的应用[J];电脑知识与技术;2009年07期
3 赵慧勤;基于因特网的信息检索特点与发展趋势[J];情报理论与实践;2000年05期
4 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
5 胥桂仙,朴泰雄,杨丹丹,徐小博,高旭;中文文本挖掘中最长频繁序列的发现算法[J];中央民族大学学报(自然科学版);2004年01期
6 渡部勇;;文本挖掘技术应用于专利检索分析[J];微电脑世界;2007年12期
7 苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期
8 付国瑜;;Web文本分类挖掘[J];科学咨询(决策管理);2008年03期
9 曹丽君;刘西印;杨燕萍;;WEB页面文本挖掘的价值与未来探究[J];商场现代化;2008年09期
10 孙士保;李保元;李天瑞;吴正江;郑瑞娟;;基于类内关键词的中文文本分类模型的改进[J];广西师范大学学报(自然科学版);2009年03期
11 韩洁;;Web文本挖掘技术在信息生产领域的应用研究[J];硅谷;2010年08期
12 胥桂仙,杨丹丹,高旭,陈立新;中文文本挖掘中姓名特征提取技术的研究[J];中央民族大学学报(自然科学版);2003年04期
13 刘春艳,张爱连,胡铁军;数据挖掘及其在信息服务业应用的研究现状[J];医学情报工作;2004年06期
14 吕冬煜,党齐民;基于文本挖掘的可视化竞争情报提取[J];计算机应用与软件;2005年02期
15 李文炬;文本挖掘技术在农业科技基础数据库中应用的探讨[J];农业网络信息;2005年11期
16 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
17 王珍珍;;关于文本挖掘中文本分类与文本聚类的研究[J];科技信息;2007年06期
18 李翠霞;林楠;;浅析文本挖掘技术[J];科技信息;2007年10期
19 李湘云;;ISODATA动态聚类算法在文本挖掘中的应用[J];长春工程学院学报(自然科学版);2007年02期
20 孙玉娣;裴勇;;基于可视化文本挖掘的本体构建[J];情报杂志;2007年12期
中国重要会议论文全文数据库 前10条
1 马玉良;赵光宙;;粗糙集理论及其在工程中的应用研究[A];第11届全国电气自动化电控系统学术年会论文集[C];2002年
2 刘碧森;姚宇;;粗SVM理论及其在税收预测中的应用[A];第三届全国信息获取与处理学术会议论文集[C];2005年
3 杨斌;闫桦;;基于粗糙集理论的农业水价承受能力研究[A];第十一届中国管理科学学术年会论文集[C];2009年
4 朱江华;潘丰;;基于蚁群算法的粗糙集知识约简[A];2005年全国自动化新技术学术交流会论文集[C];2005年
5 盛立;刘希玉;高明;;基于粗糙集理论的数据挖掘算法研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
6 朱江华;潘丰;;基于蚁群算法的粗糙集知识约简[A];2005全国自动化新技术学术交流会论文集(二)[C];2005年
7 田库;王俊松;刘玉敏;刘玉亮;李建国;;基于粗糙集理论的神经网络优化设计及网络拥赛控制[A];第25届中国控制会议论文集(中册)[C];2006年
8 王刚;张志禹;;数据融合中粗糙集的应用技术研究[A];2006中国控制与决策学术年会论文集[C];2006年
9 张辉;钱宗才;屈景辉;刘敬华;;基于粗糙集理论的知识获取研究及应用[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(上)[C];2003年
10 张鹏;崔文利;;基于粗糙集与BP网络的民航飞机故障诊断研究[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
中国博士学位论文全文数据库 前10条
1 赵晨;过程控制中的数据挖掘技术研究及其智能控制策略探讨[D];浙江大学;2005年
2 张勇;粗糙集—神经网络智能系统在浮选过程中的应用研究[D];大连理工大学;2006年
3 刘永阔;核动力装置故障诊断智能技术的研究[D];哈尔滨工程大学;2006年
4 邱道宏;括苍山高速公路隧道岩爆非线性预测研究[D];吉林大学;2008年
5 吴正江;L模糊粗糙集研究[D];西南交通大学;2009年
6 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
7 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
8 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
9 王煜;基于决策树和K最近邻算法的文本分类研究[D];天津大学;2006年
10 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 宋太杰;粗糙集理论在文本挖掘中的应用研究[D];长春理工大学;2010年
2 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
3 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
4 罗强;基于粗糙集理论的知识发现在web文本挖掘上的应用研究[D];广西大学;2003年
5 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
6 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
7 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年
8 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
9 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
10 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
4 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
5 汪洋 编译;BI平民化[N];计算机世界;2004年
6 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
7 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
8 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
9 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
10 本报记者 张承东;挖潜无极限[N];网络世界;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978