收藏本站
《华中科技大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

粗糙集在Web挖掘中的应用研究

易高翔  
【摘要】: Web挖掘广义定义为从Internet上发现和分析有用信息。Web挖掘可以协助Web搜索引擎找出高质量的网页和分析Web语义结构、点击信息等,使Web服务更加智能化。目前Web挖掘技术中,特别是Web文本的分类、聚类,采用的核心算法是基于词频统计的矢量空间模型算法。该算法中文档的特征词的选取和相似度测量是关键。对特征词的选取和权重计算有很多研究,取得了积极效果。但是,特征词之间的关系研究很少。如何准确描述和恰当利用特征词之间的联系,是改进目前Web挖掘算法的一个途径。粗糙集理论是一种强有力的处理不确定性关系的数学工具,粗糙集扩展更能满足实际应用的需要。 从知识分类的观点剖析了粗糙集理论的内涵,指出了粗糙集扩展的必要性。以Web信息检索为研究对象,以扩展粗糙集理论为工具,以知识获取为目的,提出了基于模糊粗糙集的网页个人兴趣分级算法,较系统深入地研究了基于容错粗糙集的Web查询词的扩展、分类、聚类理论与应用。 在经典粗糙集合的基础上,针对数据的过拟合而使其对新对象的预测能力降低;对原始数据本身的模糊性缺乏相应的处理方法;针对粗糙集边界区域的刻画比较简单,而没有一定程度的属于或包含等,探讨了几种典型的扩展模型,如变精度粗糙集模型、模糊粗糙集模型和容错粗糙集模型。分析了这几种模型的相关性质,指出了它们实质上可以统一到广义粗糙集的模型上,只是针对的关系基础和定义的隶属函数不同。从而能更加直观地理解粗糙集理论,启发应用粗糙集理论开发更好的数据挖掘算法。 分析了Web检索中查询准确率不高的一个重要原因是用户对查询语句的不能精确表示,提出了基于容错粗糙集的查询词自动扩展方法,用特征词容错类描述查询语句与返回结果之间的不确定关系,用查询语句上近似集合构造新的查询语句,自动增加了带权重的相关查询词,并在标准数据集上进行了实验,结果表明该方法,能有效地进行查询词扩展,提高了检索性能。 为解决网页分级HITS和PageRank算法中共同的缺陷主题“漂移”问题,结合用户的历史查询词,采用模糊粗糙集的理论来描述个人兴趣与文档之间的不确定关系,在比较个人兴趣和网页相似度中,采用了上近似集相似与下近似相似结合的方法,实现了一种基于模糊粗糙集的个人兴趣网页分级算法。实验结果说明基于兴趣的PageRank方法是可行的。 分析总结了粗糙集理论的Web分类一般方法,指出大多数方法都是把预先定义的类别看成是互斥的概念,很少考虑类与类之间有相联系的概念。利用Web文档特征词同时出现的价值,用容错粗糙集描述这种联系,给出了基于容错粗糙集的Web文档分类方法,该方法抓住了类与类之间有一定交叉概念这个关键,用特征词近似相似来精确判断文档类别,提高了Web分类效果。 探讨了几种聚类策略,阐述了聚类的本质就是类内样本点“抱团”,给出了基于容错粗糙集的Web搜索结果的聚类方法,实现了聚类标记算法,对比实验表明,该方法优越于普通K均值算法。
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 于兴艳;孔真;;浅析基于web的跨语言信息检索之现状[J];信息通信;2011年04期
2 吴思萍;;高等院校图书馆的个性化服务研究[J];华章;2011年13期
3 宋向红;王慧军;;数据挖掘技术的主要应用及发展动态[J];黑龙江科技信息;2011年15期
4 王真;刘海燕;;搜索引擎的比较及在网络信息检索中的作用[J];黑龙江科技信息;2011年18期
5 刘姝;;知识可视化在信息检索中的实际应用[J];图书馆杂志;2011年06期
6 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
7 滕启龙;王健;;基于Web挖掘的个性化远程教学系统的研究与实现[J];福建电脑;2011年06期
8 王立平;刘艳玲;;web挖掘在农业数字图书馆中的应用[J];农业考古;2011年03期
9 李琦;;本体用于信息检索的研究浅析[J];情报探索;2011年07期
10 顾国庆;周艳;黄江娓;;搜索引擎——图书馆的新工具[J];景德镇高专学报;2011年02期
中国重要会议论文全文数据库 前10条
1 张艳;周国祥;;Web挖掘在个性化信息检索中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
2 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
3 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
4 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
5 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
7 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
8 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 于志刚;杨金生;;农业机械网络书签[A];第十三次全国农机维修学术会议论文集[C];2007年
10 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 叶静;开辟信息检索的新天地[N];人民邮电;2001年
3 涂序彦 陈泓娟;在网络信息海洋中淘金[N];计算机世界;2001年
4 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
5 刘静一;个人档案信息检索[N];建筑报;2000年
6 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
7 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
8 刘立新;信息社会技术前瞻[N];学习时报;2006年
9 常燕杰;商用搜索 须打智慧牌[N];中国计算机报;2006年
10 微软中国研究院 陈正 李明镜 马维英;互联网上图像信息检索[N];计算机世界;2001年
中国博士学位论文全文数据库 前10条
1 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
2 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
3 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
4 董道国;高维数据索引结构研究[D];复旦大学;2005年
5 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
6 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
7 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
8 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
9 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年
10 马马杜 桑卡雷;基于多智能体的流体动力行业虚拟联盟信息检索的研究[D];浙江大学;2002年
中国硕士学位论文全文数据库 前10条
1 胡小睿;基于Web挖掘的搜索引擎技术研究[D];武汉大学;2005年
2 王会芬;基于Web的网页聚类系统的研究与实现[D];天津大学;2005年
3 陈耀光;Web数据查询研究[D];江西财经大学;2002年
4 吴炜;基于用户日志的信息检索研究[D];同济大学;2006年
5 蒲秋梅;基于XML的Web数据挖掘技术的研究[D];武汉大学;2004年
6 孙丽;Web数据的挖掘方法研究[D];大庆石油学院;2004年
7 黄荣兵;RBF神经网络在Web挖掘中的应用研究[D];太原理工大学;2004年
8 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
9 周炳;基于K-L变换的权威页面挖掘的算法[D];华中科技大学;2006年
10 丁宬杰;搜索引擎技术的研究与实现[D];上海交通大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026