收藏本站
《北京邮电大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于搜索日志的用户行为研究及应用

陈红涛  
【摘要】: 搜索引擎的出现,成为互联网发展史上又一个重要的里程碑。越来越多的互联网用户开始选择搜索引擎作为其获得网络资源的首选工具。但是搜索引擎的表现并不总是尽如人意,很多时候当用户输入一个查询,搜索引擎返回成千上万个搜索结果,然而很少有用户愿意浏览三页以上的搜索结果。此外,由于用户的水平存在较大差异,不少用户构造的查询并不能完全表达其搜索意图。对搜索日志的挖掘能够有效的解决这一系列问题。本文着眼于搜索日志的分析和应用,主要对用户搜索行为模型、搜索行为分类、网页排序算法的优化、异常搜索行为的检测等问题进行研究,论文工作主要包括以下几个方面: (1)对搜索日志进行基本分析,包括搜索日志各个属性及其相互之间的关系,发现了大规模中文搜索引擎用户的一些基本搜索特征。首次引入了中文分词算法,使关于查询词的分析结果更接近中文搜索引擎实际情况。首次分析了网页URL深度和被点击次数的关系,并根据对不同时期搜索日志的分析,发现了中文搜索引擎用户的搜索行为变化趋势。 (2)分别从抽象和具体的角度对用户的搜索行为进行了分类。首次从搜索日志中提取用户搜索行为模型,并从抽象的角度概括用户搜索行为的各种表现形式。通过网页分类的相似性及网页向量的相似性对模型进行了校正。为基于搜索行为的相关研究提供了基础。引入了历史查询分析,并计算了历史查询的影响因子。 (3)提出了一种基于预定义类别的搜索分类算法,将基于朴素贝叶斯理论的网页分类技术和用户搜索日志相结合,使搜索分类能够体现用户的搜索意图,并且克服了因查询词过短以及词语多义性导致的分类误差。将实时搜索历史应用于搜索分类,提高了分类的准确率。 (4)提出了一种网页排序优化算法。该算法在原有网页排序结果的基础上,结合用户搜索同志,采用混合频繁模式树算法,能够有效发现搜索事务的关联规则,并对查询词进行扩展。选择对原排序结果的前N个网页进行优化排序,既保证了搜索结果的相关性和覆盖率,同时使排序结果更能够体现用户的搜索需求。此外,将用户搜索行为模型应用于网页排序优化算法,通过计算历史查询词的影响因子,使排序结果能够实时体现用户搜索意图。 (5)分析了异常搜索行为潜在的安全威胁,并根据不同异常搜索行为的特征对其进行了分类,包括基于内容的异常搜索及基于流量的异常搜索。提出了一个异常搜索行为检测框架,并采用优化的决策树算法对不同异常搜索行为进行检测。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP391.3

【相似文献】
中国期刊全文数据库 前10条
1 相春雷;;2009年中国搜索引擎市场趋势分析[J];软件世界;2010年02期
2 ;揭秘搜索引擎收录网站的秘密[J];计算机与网络;2010年Z1期
3 詹圣君;邵雄凯;刘建舟;;一种考虑用户行为的改进N—PageRank算法[J];计算机技术与发展;2011年08期
4 马玥;;王小川:绝境之外[J];中国经济和信息化;2011年12期
5 魏蕾如;;基于搜索引擎的网络中文信息检索工具评价[J];数字技术与应用;2011年06期
6 张韬;胡旻;;互联网Web数据挖掘模型设计与技术实现[J];卫星与网络;2010年10期
7 ;创新工业搜索引擎[J];中国制造业信息化;2011年12期
8 黄晓露;吴莉;;基于WAP的纸质图书个性化服务的研究[J];出版广角;2011年05期
9 胡风华;王磊;;基于知识库系统的智能搜索引擎研究[J];中国新技术新产品;2011年18期
10 方亚会;;Google失败后快速切换搜索引擎[J];电脑迷;2011年11期
中国重要会议论文全文数据库 前10条
1 陈杰;;应用智能搜索 实现数据挖掘[A];中国新闻技术工作者联合会五届一次理事会暨学术年会论文集(上篇)[C];2009年
2 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
3 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
4 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
5 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
6 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
7 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
8 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
9 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
中国重要报纸全文数据库 前10条
1 陈琳;挑战搜索引擎的游戏规则[N];第一财经日报;2009年
2 本报记者 白云;绿色搜索引擎 离我们还有多远[N];中国电脑教育报;2007年
3 早报记者 胡孝敏;跨国企业掘金中国“数据挖掘”市场[N];东方早报;2005年
4 主持人 陈建栋;搜索引擎能帮企业做什么[N];光明日报;2005年
5 本报记者 陈建栋;搜索引擎掀起第三次网络浪潮[N];光明日报;2005年
6 曾正乐;搜索引擎为啥那么热[N];经济日报;2005年
7 本报记者 秦海波;今夏搜索引擎最热[N];经济日报;2005年
8 FN记者 柳立;我国搜索引擎市场竞争格局初步确定[N];金融时报;2005年
9 闫辉;搜索引擎猜想[N];计算机世界;2005年
10 本报记者 李剑;搜索引擎进入“泛门户”时代[N];通信信息报;2005年
中国博士学位论文全文数据库 前10条
1 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
2 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
3 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
4 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
5 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
6 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
7 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
8 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
9 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年
10 余红;网络时政论坛舆论领袖研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 张永军;基于企业信息门户框架的知识管理系统研究与实现[D];机械科学研究院;2005年
2 张杰;搜索引擎技术的研究[D];西安理工大学;2006年
3 王晓华;基于内容的搜索引擎技术研究及其应用[D];郑州大学;2005年
4 陈力捷;数据流频繁项挖掘系统的研究和实现[D];浙江大学;2007年
5 张蕾;WEB中多媒体资料的发现研究[D];山东师范大学;2004年
6 毕蕾;基于领域本体的Web信息抽取技术研究[D];扬州大学;2008年
7 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
8 王磊;基于Web数据挖掘的搜索引擎设计与实现[D];解放军信息工程大学;2010年
9 陈刚;基于行为分析智能推荐购物搜索引擎的设计与实现[D];北京交通大学;2011年
10 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026