收藏本站
《天津大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web的网页聚类系统的研究与实现

王会芬  
【摘要】:近几年来,随着网络的发展,信息迅猛增多,在浩瀚的信息海洋中如何快速而有效地获得所需要的信息,是困扰网上用户的难题。用户使用现有的搜索引擎浏览Web页面时,虽然能部分的解决资源发现的功能,但其精度不高,不能为用户提供结构化信息,也不能提供文档分类、过滤等功能,对于信息资源的一个主要形式——文本,人们迫切需要能够从大量Web文本集合中快速、有效地发现资源和知识的工具。 本文通过对数据挖掘技术中的聚类分析做深入研究,提出了一种基于智能化的网页聚类系统,它以聚类算法为核心,自动聚合相似内容的网页,并最终提交给用户界面显示。其中聚类算法采用向量空间模型表示网页的文档,再利用模糊聚类算法挖掘出相似度高的文档集,初步划分文档类别,同时对“粗结果”的评价再次融入模糊聚类算法,不断地将具有“粗相似度”结果的文档集划分为若干个簇,同一个簇内文档内容的相似度不断扩大,而不同簇间的相似度不断缩小,最终达到合理的“物以类聚”。 通过使用层次聚类为基本的挖掘工具,基本实现了能够以在线的、交互式的、语义的、层次的方式对搜索引擎的搜索结果进行聚类,从而基本解决了用户检索中出现的信息繁杂的问题。
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP393.092

【相似文献】
中国期刊全文数据库 前10条
1 于兴艳;孔真;;浅析基于web的跨语言信息检索之现状[J];信息通信;2011年04期
2 吴思萍;;高等院校图书馆的个性化服务研究[J];华章;2011年13期
3 王真;刘海燕;;搜索引擎的比较及在网络信息检索中的作用[J];黑龙江科技信息;2011年18期
4 刘姝;;知识可视化在信息检索中的实际应用[J];图书馆杂志;2011年06期
5 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
6 李琦;;本体用于信息检索的研究浅析[J];情报探索;2011年07期
7 吴梦兰;;WEB内容推荐算法在远程教育中的应用[J];电脑知识与技术;2011年26期
8 顾国庆;周艳;黄江娓;;搜索引擎——图书馆的新工具[J];景德镇高专学报;2011年02期
9 杨永健;;浅议图书馆新型OPAC系统发展趋势——以汇文OPAC系统为例[J];四川图书馆学报;2011年03期
10 俞平;;信息检索中文献漏检误检因素分析[J];情报科学;2011年08期
中国重要会议论文全文数据库 前10条
1 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
2 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
3 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
6 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
7 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 于志刚;杨金生;;农业机械网络书签[A];第十三次全国农机维修学术会议论文集[C];2007年
9 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
10 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 希安;微软试水信息检索[N];经济日报;2004年
3 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
4 叶静;开辟信息检索的新天地[N];人民邮电;2001年
5 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
6 刘静一;个人档案信息检索[N];建筑报;2000年
7 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
8 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
9 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
10 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
中国博士学位论文全文数据库 前10条
1 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
2 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
3 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
4 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年
5 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
6 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
7 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
8 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
9 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
10 董道国;高维数据索引结构研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 王会芬;基于Web的网页聚类系统的研究与实现[D];天津大学;2005年
2 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
3 杨瑞峰;WEB上基于文本挖掘的个性化检索系统的设计与实现[D];电子科技大学;2003年
4 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
5 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
6 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
7 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年
8 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
9 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
10 芦立华;基于后缀树的中文文本聚类算法研究[D];上海海事大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026