收藏本站
《西华大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于形式概念分析的Web搜索结果聚类方法的研究

王竞  
【摘要】: Web搜索引擎是Intemet信息检索的主要工具,用户通过输入查询词来获取Web搜索结果,在Internet资源中检索得到自己所需的信息。然而,Internet上与用户查询词相关的信息十分丰富,搜索引擎返回的搜索结果数量通常比较庞大,用户要从数量庞大的Web搜索结果中获取自己需要的信息,常常显得很困难。 改善搜索引擎检索质量的一种有效途径是应用聚类技术将Web搜索结果中相似的Web文档聚集成为类簇集,即Web搜索结果聚类。对Web搜索结果进行聚类,可以为用户提供易于浏览的Web搜索结果主题导航,帮助用户快速定位符合自己查询需要的主题类别,从而提高用户使用搜索引擎的检索效率。 本文以形式概念分析理论为基础,应用概念格对Web搜索结果聚类方法进行研究,提出了一种基于形式概念分析的Web搜索结果聚类方法ClusterFCA。ClusterFCA聚类方法采用自顶向下逐层构建部分概念格的算法来构建Web搜索结果聚类层次,而不是构建概念格的全部层次来实现Web搜索结果聚类。这样不仅可以发挥形势概念分析用于聚类Web搜索结果的优势,还降低了形式概念分析聚类Web搜索结果的时间耗费,避免了概念格层次过于复杂对聚类结果可浏览性造成较大影响。 为了测试ClusterFCA方法的聚类效果,本文采用C++程序设计语言,将ClusterFCA方法进行了实验。通过类标签的可读性、类内容的相关性、类内容覆盖率和类重叠度等指标,来综合评价Web搜索结果聚类算法的质量。实验结果表明,应用ClusterFCA方法,截取概念格的第一层、第二层得到的Web搜索结果聚类层次可以获得较好的聚类效果。 然而,对于不同用户提交的同一个查询词,应用一般的web搜索结果聚类技术,具有不同兴趣的用户得到的聚类结果是相同的,而用户的分类喜好根据用户兴趣的不同通常具有个体差异。一般的Web搜索结果聚类方法仅仅针对Web搜索结果网页内容进行分析处理,并未结合用户兴趣对Web搜索结果实现个性化的聚类。 本文在ClusterFCA方法的基础上,结合web搜索结果网页内容分析和用户个人兴趣分析,提出了一种基于形式概念分析的个性化Web搜索结果聚类方法PCFCA。它动态地对Web搜索结果进行个性化聚类,为具有不同兴趣的用户提供个性化的概念聚类层次。实验结果表明,应用PCFCA方法,截取概念格的第二层、第三层得到的w_eb搜索结果聚类层次可以获得良好的个性化聚类效果,但在类内容覆盖率方面有所欠缺。
【学位授予单位】:西华大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP393.09

【相似文献】
中国期刊全文数据库 前10条
1 邓长寿,赵秉岩;下一代Web搜索引擎探讨[J];情报科学;2005年03期
2 李珂玥;徐宝文;汪鹏;;一种利用搜索引擎实现本体映射的方法(英文)[J];Journal of Southeast University(English Edition);2007年03期
3 胡庆华;Web搜索引擎中Mobile Agent动态路由问题研究[J];安徽大学学报(自然科学版);2003年03期
4 黄健斌;姬红兵;;基于模糊概念格的Web搜索结果聚类算法[J];西安电子科技大学学报;2005年06期
5 龚琪;一种具有统一查询界面的Web搜索引擎[J];计算机时代;2000年08期
6 李玮,李利;Web搜索引擎与全文检索技术[J];情报科学;2003年05期
7 杜国芳;焦立辉;;Web数据挖掘技术在图书馆工作中的应用[J];上海高校图书情报工作研究;2004年04期
8 谢冬松;李岩;;基于WEB的智能搜索应用技术探讨[J];中国科技信息;2007年04期
9 马景娣;Web搜索引擎:检索技术、存在问题及改进办法[J];情报科学;2001年07期
10 李春旺;Web信息主题采集技术研究[J];图书情报工作;2005年04期
中国重要会议论文全文数据库 前1条
1 ;Web搜索引擎原理与应用[A];四川省通信学会2005年学术年会论文集[C];2005年
中国重要报纸全文数据库 前6条
1 山东 郭兆玲;商务营销的好帮手[N];电脑报;2001年
2 计;Lotus推出新版本搜索引擎[N];国际商报;2001年
3 徐鸿 单松巍 李晓明;剖析CERNET用户状况[N];计算机世界;2002年
4 ;获奖产品:IBM WebSphere Portal Server 5.0[N];计算机世界;2003年
5 IBM大中华区软件部AIM/WebSphere销售总经理 林鸿昱;e-Portal构建新一代电子商务[N];中国计算机报;2002年
6 海燕;UDDI加速B2B发展[N];中国计算机报;2001年
中国硕士学位论文全文数据库 前5条
1 王竞;基于形式概念分析的Web搜索结果聚类方法的研究[D];西华大学;2008年
2 刘华斌;Web搜索引擎的搜索结果聚类研究[D];南昌大学;2008年
3 刘郊;Web搜索引擎的开发设计与多格式信息搜索的实现[D];四川大学;2006年
4 高清霞;中文智能搜索引擎的设计与实现[D];北京工业大学;2000年
5 王家锋;分布式智能搜索引擎技术[D];北京工业大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026