收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Web信息检索若干关联挖掘问题的研究

沈筱彦  
【摘要】: 信息爆炸是当今信息社会的一大特点,当前信息检索技术面临着Internet网络信息更新加快,用户要求检索结果愈加精确的严重挑战,因而如何帮助用户有效地找到所需信息成为了一个关键的问题。一方面,单纯以查询词的方式检索出包含用户所需信息的网页,在某些情况下并非最有效的方式。通过挖掘网页之间的关联关系,使得用户在已知某个网页包含他所需要的信息时,可以较容易地获得其他与该信息相关的网页;另一方面,由于Web信息检索系统的用户大多是普通用户,很难将自己复杂的检索目的转化成简单的查询词表示。同时,语言中又存在着大量的同义词、缩写词、关联词等,这种语言固有的模糊性使得同一个查询词可以代表不同的查询需求,同一个查询需求也可以有多种不同的表达方式。通过挖掘查询词之间的关联关系,将有助于帮助用户更好地构建查询词以检索到更多的有用信息。鉴于当前中文Web信息检索还远未达到理想的效果,本文对于网页之间以及中文词之间的关联关系,进行了细致的研究,论文的主要工作包括以下内容: 1.本文以网页之间的链接关系为切入点,提出了一种新的挖掘网页之间关联关系的算法。该算法首次将网页分块算法引入到关联网页的挖掘过程中,并综合了链接锚文字的相似性和网页模板块过滤等方法,提高了关联网页的识别精度。考虑到算法在工程实际应用时所需处理的网页库规模,本文还具体给出了算法并行实现的步骤流程。 2.因中文语言中存在着大量词汇与其缩写形式混用的情况,如何有效识别中文缩写词及其对应的同义全称词是中文信息检索中需要处理的一个重要问题。本文创新地提出了一种从网页链接的锚文字中挖掘中文缩写及全称之间对应关系的算法。它首先使用最长公共子序列算法从锚文字中获得缩写全称对的候选结果,并进一步使用支持向量机对候选结果进行过滤。实验表明本文提出的算法,能够有效地挖掘隐藏在锚文字中的中文缩写及对应的全称词,结果准确率较高。 3.有效地挖掘中文词之间的关联关系,获得属于同一主题的中文词聚类,对于为中文Web信息检索系统提供多样性搜索结果,构建中文关联查询词等方面都是十分有意义的。本文从中文语言的标点特性入手,创新地提出了一种利用中文语句内的并列短语来挖掘中文词之间关联关系并对其进行聚类的算法。该算法利用二分图的密集子图挖掘近似算法,能够高效地对海量中文语料库中的并列短语进行聚类。为进一步对聚类结果进行改进,本文还提出了两个算法,可以有效挖掘出属于同一主题的大量中文关联词。实验表明本文提出的算法,能获得较高的聚类成功率和聚类精度,有较强的工程应用前景。 4.如何让用户准确地构建查询词以表达其检索意图,也是信息检索技术研究的重要方向。本文提出了一种复合算法框架,可以有效地根据用户输入的查询词推荐关联的查询词。一方面根据查询词的关联度、流行度和有效性推荐查询词,帮助用户限定检索意图,以期获得更准确的搜索结果;另一方面,利用查询日志的点击信息、挖掘的中文缩写全称对、中文同主题词聚类、中文同义词对和中文语言模型,对用户输入的查询词进行合理的修改,以期获得更多满足用户检索意图的结果。实验表明,本文提出的算法框架能有效地向用户推荐关联查询词,有助于提高中文Web信息检索系统的查询效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈珂;庞景中;;基于移动Agent的分布式数据挖掘平台的设计与实现[J];计算机应用与软件;2011年07期
2 张学锋;朱红莉;;分布式计算平台中任务调度的模拟器研究[J];小型微型计算机系统;2011年08期
3 塞雷纳帕斯托雷;张进京;;开放环境中的云计算和网页标准化[J];中国信息界;2011年09期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前6条
1 张敏;马少平;高剑锋;;基于链接的方法进行Web信息检索的TREC实验研究(英文)[A];第一届学生计算语言学研讨会论文集[C];2002年
2 张敏;马亮;马少平;陈群秀;;TREC2002介绍及清华大学实验研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 李贺华;付鹤岗;;多Agent Web信息检索应用研究[A];2008年计算机应用技术交流会论文集[C];2008年
4 汤卫平;葛薇;宋宝燕;于戈;王国仁;;基于.NET工作流管理系统e_ScopeWork的任务调度方法[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 喻国宝;廖湖声;高红雨;俞晖;;一种基于J2EE的分布式空间要素服务框架[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 丁辉;张大华;罗志明;;基于Hadoop的海量数据处理平台研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年
中国博士学位论文全文数据库 前6条
1 沈筱彦;Web信息检索若干关联挖掘问题的研究[D];北京邮电大学;2009年
2 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
3 管子玉;基于图学习的Web信息检索技术研究[D];浙江大学;2010年
4 王灿;基于半监督流形学习的Web信息检索技术研究[D];浙江大学;2009年
5 冯国臻;基于结构分析的大规模WWW文本信息检索技术的研究[D];中国科学院研究生院(计算技术研究所);2001年
6 胡周君;计算网格中面向QoS的资源可用性评估模型研究[D];中南大学;2010年
中国硕士学位论文全文数据库 前10条
1 张文峰;基于MapReduce模型的分布式计算平台的原理与设计[D];华中科技大学;2010年
2 董志勇;Web信息检索中基于超链接的网页评估算法的研究[D];河海大学;2004年
3 徐永红;基于专题信息服务的智能搜索引擎技术研究[D];国防科学技术大学;2004年
4 胡一俊;web超链分析应用研究[D];武汉大学;2005年
5 何娟;DynamicView中信息抽取系统的设计与实现[D];东南大学;2006年
6 吕传宇;答疑系统中专题式智能型元搜索引擎的研究[D];重庆大学;2004年
7 马纪颖;基于分类语义的Web信息检索系统[D];东北大学;2006年
8 李翠;基于链接分析的Web社区发现研究与应用[D];西安理工大学;2007年
9 孟庆顺;Web信息检索结果聚类系统的研究[D];天津大学;2007年
10 张晓卫;Web全文信息检索系统的研究与实现[D];苏州大学;2006年
中国重要报纸全文数据库 前9条
1 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;“海”中捞“珍”[N];计算机世界;2003年
2 梅竹;清华摘取国际信息检索比赛两项桂冠[N];计算机世界;2002年
3 亦文;中创软件推动863计划成果转化[N];中国财经报;2000年
4 记者张艳蕊;徐少春:我们不再为国外打工了[N];中国企业报;2002年
5 范范 编译;谁该拥有你的社交网络数据?[N];网络世界;2011年
6 钱维华;网格计算将成主流[N];文汇报;2003年
7 本报记者 胡英;锐捷推RIIL资源管理平台[N];计算机世界;2009年
8 谢宁;中创软件,创造软件产业的辉煌[N];中国高新技术产业导报;2001年
9 本报记者 毛晶慧;经济重启 信息技术助力政府解决社会难题[N];中国经济时报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978