收藏本站
《哈尔滨工业大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web日志挖掘的智能信息检索研究

朱鲲鹏  
【摘要】: 互联网时代的来临,使得网络用户日志数据急剧增加,如何快速有效地获取、管理和使用这些日志数据,己经成为信息系统学科迫切需要解决的重要问题。作为解决这些问题的基本工具之一,近十几年来Web数据挖掘技术研究得到了广泛关注,获得了长足发展。 基于Web日志挖掘的智能信息检索旨在通过对Web信息检索的日志数据进行有效的分析,挖掘隐藏在日志数据背后的用户检索知识和模式,应用这些知识和模式对现有的检索方法进行改进,达到智能化信息检索的目的。这个目标基于这样的假设:网络查询日志中确实蕴含了用户访问Web的某些规律性特性,这些特性反映在某些模式中,这些模式可以被挖掘出来并加以利用。本论文的研究以Sogou搜索引擎的用户查询日志为基础,使用统计分析、文本挖掘、关联分析、聚类和统计语言建模等挖掘技术,获得蕴含在用户日志中的有价值的知识,并针对所得到的知识在信息检索的查询扩展、检索推荐和用户聚类等关键技术领域的实践应用作了深入的研究。实验证明,Web日志挖掘技术能够有效改善信息检索模型的性能。本文研究的主要内容包括以下四个部分: 首先,对用户查询日志中的检索规律展开研究。用户查询日志是记录网络搜索引擎用户行为的重要载体,通过对日志文件的统计分析,以及挖掘发现这些信息间的相互关系,可以归纳和总结出用户检索的一般规律和特征。为了更好的理解用户的检索行为,本文对实际网络日志进行了实证性的规模统计分析,并且从查询词、网页点击、用户会话等角度方面对用户行为进行了详细的分析,分析结果对于改进搜索引擎的检索算法和获得更准确的检索效果都有很好的指导意义。 其次,对基于关联分析的自适应查询扩展进行研究。查询扩展可以有效的消除查询歧义,提高信息检索的准确率和召回率。本文通过挖掘用户日志中查询词和相关文档的连接关系,构造关联查询,并提出了一种从关联查询中提取查询扩展词的查询扩展方法。同时,提出了一种查询歧义判别方法,该方法可以对查询词所表达的检索意图的模糊程度进行有效度量,也可以对查询词的检索性能进行预先估计,本文使用查询歧义判别来动态调整扩展词的长度,提高了查询扩展模型的灵活性和适应能力。 再次,对基于特征融合的检索推荐展开研究。基于查询日志挖掘的检索推荐系统可以有效地预测用户在信息检索过程中可能点击的检索结果,从而达到智能推荐的目的。针对目前已有的推荐系统缺乏有效的语义处理的问题,本文利用词语语义信息和统计语言模型相结合,提出了一种基于文档相关度计算的检索推荐模型。通过词频信息和知网(HowNet)中词的概念计算模型计算网页文档间的主题相关度,再将该语义信息与统计模型计算的条件概率值相融合,以此作为网页推荐的依据,同时为了提高推荐模型的适用度,使用回退平滑和关联查询方法对模型进行了修正。实验表明,这项技术使推荐系统的性能获得了较大的提高。 最后,对面向检索兴趣的用户聚类进行了研究。用户聚类是针对查询日志中的用户会话进行分析,根据用户的访问动作,寻找行为模式或检索兴趣相似的用户,将其分为一组。针对目前基于用户会话计算用户相似度的不足,本文提出了一种通过挖掘查询关联关系对用户会话相似度计算特征进行补偿的方法,并给出了一种改进的关系传播聚类算法对用户数据进行聚类,该算法可以自适应地动态调整聚类参数,检测和消除聚类振荡,扫描参数空间来获得最佳的聚类效果。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 赵丽娜;周吉顺;;基于WEB的高校网上选课系统的设计与实现[J];电脑知识与技术;2011年18期
2 米新英;;基于Web的通用商品报价系统的研究与实现[J];北华航天工业学院学报;2011年03期
3 朱启英;李明霞;穆玉明;张源明;;基于WEB的考试系统在医学远程教育中的应用[J];中国高等医学教育;2011年06期
4 段静波;潘惠苹;;基于WEB的学院教务管理系统设计与应用[J];电脑知识与技术;2011年17期
5 范毅君;马永威;;浅谈门户网站的设计与在油田中的应用[J];中国石油和化工标准与质量;2011年07期
6 潘生;;基于WEB的人力资源管理专业亲验式教学资源库系统设计[J];电脑知识与技术;2011年23期
7 杜婷;陶克斌;夏勤;;基于Web的无刷新即时通讯设计与实现[J];重庆科技学院学报(自然科学版);2011年04期
8 王玉华;;Unix平台下的数据库查询开发工具(Web-DTools)的设计与实现[J];信息与电脑(理论版);2011年06期
9 张爱军;;电子商务技术的创新发展趋势[J];电脑知识与技术;2011年26期
10 钟寿福;吴伟信;;中学研究性学习网络支撑平台的设计与实现[J];福建电脑;2011年07期
11 周园;;基于WEB的独立学院学院校友管理系统的设计与实现[J];信息与电脑(理论版);2011年06期
12 任智乾;;JSP技术在Web数据库中的应用[J];信息与电脑(理论版);2011年06期
13 郑木德;;用ASP.NET实现Web与数据库连接的技术分析[J];电脑开发与应用;2011年08期
14 刘忠沁;;Web数据挖掘在高校网站建设中的运用[J];电脑知识与技术;2011年25期
15 贾银军;李新华;;网上虚拟实验室的构建[J];硅谷;2011年17期
16 陈静;;基于Web的学生推荐管理系统的的分析与设计[J];出国与就业(就业版);2011年09期
17 支元;;基于WEB环境下VB网络课程学习平台的设计与实现[J];电脑知识与技术;2011年18期
18 韩利凯;雷伟军;马国峻;;基于WEB的毕业设计指导系统的设计与实现[J];价值工程;2011年20期
19 陈科;邓馥郁;;基于Web的教师工作平台的设计与实现[J];数字技术与应用;2011年06期
20 林虹虹;;现代远程协作学习系统的设计与实现[J];现代计算机(专业版);2011年10期
中国重要会议论文全文数据库 前10条
1 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
2 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
4 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
5 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
8 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
10 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报特约撰稿 张娟;用Web 2.0提升知识管理效率[N];计算机世界;2008年
3 厉民;金融风暴冲击Web2.0产业[N];人民邮电;2008年
4 电脑商报记者 周雪;Web安全市场须冷却慎行[N];电脑商报;2008年
5 郭川;Web2.0:新花样层出不穷[N];人民邮电;2008年
6 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
7 本报记者 李飞虎;Web 2.0[N];中国计算机报;2008年
8 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
9 商报记者 吴辰光;Web2.0凸显空洞概念[N];北京商报;2009年
10 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
中国博士学位论文全文数据库 前10条
1 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
2 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
3 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
4 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
5 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
6 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
7 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
8 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
9 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
10 胡佳;语义Web服务自动组合及验证的研究[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
2 崔琰;基于用户兴趣及术语关系的查询扩展方法[D];河北大学;2011年
3 黄华;基于搜索引擎和语义的Web服务发现研究[D];武汉理工大学;2011年
4 姜洪强;基于语义Web文档的索引技术研究[D];北京工业大学;2010年
5 方勇;基于语义的信息检索方法研究与应用[D];浙江大学;2010年
6 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年
7 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年
8 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
9 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
10 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978