收藏本站
《辽宁师范大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

Web检索中的查询扩展及结果聚类技术研究

范丹  
【摘要】: 近年来随着互联网技术的发展,Web信息量飞速增长,如何从大量信息中迅速有效地检索出所需的信息成为了人们关注的问题,搜索引擎也因此走入了人们的生活。如今,搜索引擎的功能日益强大,抓取的信息也日益增多,但用户却似乎越来越难检索到自己所需要的信息。归结原因主要有两点,一是由于关键词所能够反映的信息量是有限的,用户无法通过简单的几个查询词准确的表达自己的查询意图。二是由于目前典型的搜索引擎返回的是一个处理后的结果列表,内容非常杂乱和庞大,由于缺少反映搜索结果内部关联的信息,用户很难从迅速识别出自己需要的信息。针对以上两点主要问题,本文主要研究了用户查询扩展技术和搜索结果自动聚类技术。 在查询扩展技术中引入语义计算是一个重要研究方向。现有的解决方法普遍存在引入无关词、缺少领域知识以及筛选函数不恰当的问题。本文提出了一种结合了领域知识选取与局部反馈的语义关联树的查询扩展模型,从语义的角度进行查询扩展,改进了扩展词筛选函数、增加了阈值限定,有效控制了噪音。 在聚类算法上,STC方法是一种公认较好的用于Web搜索结果聚类的算法。SHOC、Lingo算法将向量空间模型(VSD Model)与后缀树文档表示模型结合起来,既考虑了词的位置信息,又考虑词的统计特性,在STC的基础上有了较好的发展。然而,现有的聚类算法普遍存在聚类标签可读性不强,信息量不足,区分性较差等问题,且聚类结果不能充分反映用户兴趣。 本文提出了一种改进的Web检索结果聚类推荐算法CQIG,构建后缀数组找到完整短语,结合矩阵奇异值分解产生候选聚类标签,选取更为有效的特征改进标签评分公式和聚类得分公式。同时采用了基本类合并技术,产生了更具表述性、区分性和可读性的聚类结果并有效控制了重叠聚类。本文方法同时还加强了对于中文检索的处理效果。 本文建立了Web搜索结果聚类推荐引擎,采用了carrot~2平台作为基础框架,通过各种大型搜索引擎API获得源数据,通过网页清洗,分词,提取特征项,建立VSM,构造CQIG、STC及Lingo进行聚类,聚类后把聚类结果展现给用户。
【学位授予单位】:辽宁师范大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3

【相似文献】
中国期刊全文数据库 前10条
1 赵丽娜;周吉顺;;基于WEB的高校网上选课系统的设计与实现[J];电脑知识与技术;2011年18期
2 米新英;;基于Web的通用商品报价系统的研究与实现[J];北华航天工业学院学报;2011年03期
3 朱启英;李明霞;穆玉明;张源明;;基于WEB的考试系统在医学远程教育中的应用[J];中国高等医学教育;2011年06期
4 段静波;潘惠苹;;基于WEB的学院教务管理系统设计与应用[J];电脑知识与技术;2011年17期
5 范毅君;马永威;;浅谈门户网站的设计与在油田中的应用[J];中国石油和化工标准与质量;2011年07期
6 潘生;;基于WEB的人力资源管理专业亲验式教学资源库系统设计[J];电脑知识与技术;2011年23期
7 杜婷;陶克斌;夏勤;;基于Web的无刷新即时通讯设计与实现[J];重庆科技学院学报(自然科学版);2011年04期
8 王玉华;;Unix平台下的数据库查询开发工具(Web-DTools)的设计与实现[J];信息与电脑(理论版);2011年06期
9 张爱军;;电子商务技术的创新发展趋势[J];电脑知识与技术;2011年26期
10 钟寿福;吴伟信;;中学研究性学习网络支撑平台的设计与实现[J];福建电脑;2011年07期
中国重要会议论文全文数据库 前10条
1 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
2 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
4 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
5 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
8 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
10 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报特约撰稿 张娟;用Web 2.0提升知识管理效率[N];计算机世界;2008年
3 厉民;金融风暴冲击Web2.0产业[N];人民邮电;2008年
4 电脑商报记者 周雪;Web安全市场须冷却慎行[N];电脑商报;2008年
5 郭川;Web2.0:新花样层出不穷[N];人民邮电;2008年
6 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
7 本报记者 李飞虎;Web 2.0[N];中国计算机报;2008年
8 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
9 商报记者 吴辰光;Web2.0凸显空洞概念[N];北京商报;2009年
10 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
中国博士学位论文全文数据库 前10条
1 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
2 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
3 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
4 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
5 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
6 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
7 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
8 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
9 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
10 胡佳;语义Web服务自动组合及验证的研究[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
2 崔琰;基于用户兴趣及术语关系的查询扩展方法[D];河北大学;2011年
3 黄华;基于搜索引擎和语义的Web服务发现研究[D];武汉理工大学;2011年
4 姜洪强;基于语义Web文档的索引技术研究[D];北京工业大学;2010年
5 方勇;基于语义的信息检索方法研究与应用[D];浙江大学;2010年
6 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年
7 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年
8 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
9 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
10 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026