收藏本站
《复旦大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

Web使用挖掘若干关键问题研究

阮备军  
【摘要】:Web使用挖掘(Web Usage Mining)是应用数据挖掘技术从Web数据中发现使用模式的过程。Web提供了一种不受时空限制的人机交互界面,为大规模记录,收集,分析和抽取用户行为信息提供了巨大的技术发展空间。在此背景下,Web使用挖掘研究得到了学术界和工业界的广泛关注,由此衍生的技术大量应用在科学研究,软件设计以及商业智能等领域。 本文总结了目前Web使用挖掘研究的现状,对其中存在的一些问题作了深入的研究和探讨。这些问题分别涉及频繁序列模式挖掘,Web用户行为特征相似性/差别的量化方法,以及支持Web站点设计优化的数据挖掘技术。 本文的主要贡献如下: (1)提出了一个称为TD-WAP-Mine的频繁序列模式挖掘算法。和已有的算法相比,它采用了新的频繁模式搜索策略,大幅度减少了在构造中间数据方面的工作量。大量的实验结果表明此算法在运行速度方面好于原有的算法,特别适合用在需要挖掘大量频繁模式的场合。 (2)提出了一种使用Web结构数据所蕴涵的语义信息量化使用行为特征差别的方法。与已有的研究相比,特征项之间的关系表示结构从有向根树扩展到了有向无环图。基于核心概念“最大相似宽度”,此方法为量化使用行为特征在语义上的差别定义了一组距离函数。在关系表示结构是有向根树的条件下,这些距离函数均满足三角不等式特性,在提高搜索效率方面具有优势,弥补了以往研究存在的缺陷。实验初步表明此类距离函数在最近邻查询效果和计算速度方面可与已有研究媲美。 (3)提出了一种新的支持站点设计优化的Web使用挖掘方案。此方案基于历史搜寻路径统计用户寻找目标花费的平均时间,用以量化Web页面的搜寻费用。在此基础上提出了一种高效的数据挖掘方法,寻找一组能够有效压缩搜寻路径(降低搜寻费用)的超链接。实验表明挖掘的结果能够提供许多有用的信息,帮助管理者及时发现站点设计中存在的问题。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2004
【分类号】:TP393

【引证文献】
中国期刊全文数据库 前5条
1 郭媛香;;面向用户行为的Web使用挖掘技术[J];晋中学院学报;2009年03期
2 向坚持;刘相滨;徐选华;;基于用户行为的Web使用挖掘数据采集技术研究[J];计算机与现代化;2007年12期
3 冯海平;秦昌明;;网络环境下自主学习监控模式建立与研究[J];实验技术与管理;2012年05期
4 杨思;;基于用户访问序列挖掘的站点路径优化分析[J];图书馆界;2009年01期
5 赵洁;董振宁;张沙清;肖南峰;;一种多粒度Web使用数据收集方法[J];现代图书情报技术;2011年02期
中国博士学位论文全文数据库 前4条
1 左琳;神经网络及在网络用户行为分析中的应用研究[D];电子科技大学;2011年
2 孙明;语义Web使用挖掘若干关键技术研究[D];电子科技大学;2009年
3 向坚持;互联网环境下的中小企业客户关系管理研究[D];中南大学;2010年
4 赵洁;基于粒计算的Web使用挖掘研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前3条
1 马燕;基于快速相似度的Web结构挖掘的研究[D];南京信息工程大学;2011年
2 张斌;蚁群聚类算法在WEB使用挖掘中的应用研究[D];广西大学;2007年
3 李幼军;用户行为模式发掘及其在网络教学系统中的应用[D];北方工业大学;2009年
【参考文献】
中国期刊全文数据库 前2条
1 杨怡玲,管旭东,尤晋元;Web日志挖掘预处理中的Frame页面过滤算法[J];计算机工程;2001年02期
2 杨怡玲,管旭东,尤晋元;基于页面内容和站点结构的页面聚类挖掘算法[J];软件学报;2002年03期
【共引文献】
中国期刊全文数据库 前10条
1 陈祥松,邓苏,黄宏斌;GLAV集成方法中的模式匹配研究[J];安徽工程科技学院学报(自然科学版);2004年04期
2 王宏鼎;谭少华;唐世渭;杨冬青;童云海;;基于模式元素语义关系的模式合并方法研究[J];北京大学学报(自然科学版)网络版(预印本);2006年04期
3 王宏鼎;谭少华;唐世渭;杨冬青;童云海;;基于模式元素语义关系的模式合并方法研究[J];北京大学学报(自然科学版);2007年03期
4 刘一;王旭磊;查红彬;;基于局部字袋模型的三维部分形状检索方法[J];北京大学学报(自然科学版);2009年06期
5 张维蔚;李超;曾骁;熊璋;;一种多策略GML应用模式匹配方法[J];北京航空航天大学学报;2008年05期
6 王岩松;金伟其;;基于映射色差的颜色分类表面检测方法研究[J];北京理工大学学报;2010年01期
7 孙伶君;汪杭军;祁亨年;;基于分块LBP的树种识别研究[J];北京林业大学学报;2011年04期
8 何杰;陈能成;王伟;翟亮;;基于动态模式匹配的多版本网络要素服务统一访问方法[J];测绘科学;2011年04期
9 王育红;陈军;;GIS客户数据库更新的基本问题[J];地理信息世界;2008年01期
10 高波;;一种面向主题的搜索引擎的实现[J];常州工学院学报;2008年02期
中国重要会议论文全文数据库 前10条
1 ;An Efficient Flexible Semantic Distance Function[A];第二十六届中国控制会议论文集[C];2007年
2 ;Discovering Complex Matches Between Database Schemas[A];第二十七届中国控制会议论文集[C];2008年
3 孙科武;许斌;罗森;;属性驱动的Web服务分类方法[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
4 王育红;陈军;;GIS客户数据库更新自动化实施算法研究[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
5 王育红;蒋捷;;基础地理信息的客户更新服务问题[A];中国地理信息系统协会第八届年会论文集[C];2004年
6 佟冰;张忠平;宋丽;;一种改进的多源模式匹配算法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
7 刘通;刘国华;刘欣;王聪;;ISMD:一种基于副本的完整模式匹配算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
8 钱颖;刘国华;张忠平;沈兵红;张凌宇;;基于聚类的模式匹配方法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
9 刘杰;李伟光;刘振广;;基于BP神经网络的数据库模式匹配方法研究[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
10 何召卫;陈俊亮;;本体相似研究综述[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
2 孔丁科;几何活动轮廓图像分割模型的研究[D];浙江大学;2010年
3 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
4 孙挺;三维模型特征提取技术研究[D];西北大学;2011年
5 宋雅娟;Web服务组合方法研究[D];吉林大学;2011年
6 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
7 邱峰;远程医学教育临床技能培训模式与平台研究[D];华东师范大学;2011年
8 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
9 梁鹏;基于内容的目标分类识别关键技术研究[D];华南理工大学;2011年
10 雷旭;基于贝叶斯理论的EEG-fMRI融合技术研究[D];电子科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 徐扬;异构数据资源汇聚的模式及优化问题研究[D];山东科技大学;2010年
2 曾祥莉;ETL在经济普查信息发布系统中的应用研究[D];哈尔滨工程大学;2010年
3 张珍军;基于内容的图像检索技术研究[D];哈尔滨工程大学;2010年
4 李伟光;基于BP神经网络的数据库模式匹配方法研究[D];哈尔滨工程大学;2010年
5 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
6 刘洁;基于关联挖掘的深层网络接口模式匹配方法的研究[D];哈尔滨工程大学;2010年
7 刘富江;网络数据源模式识别方法及策略研究[D];哈尔滨工程大学;2010年
8 赵阳耀;基于本体的数据源映射方法与策略[D];哈尔滨工程大学;2010年
9 董小丽;基于索引相关和聚类的图像特征提取算法研究[D];大连理工大学;2010年
10 刘杰雄;基于本体的爆破行业信息搜索技术的研究[D];华南理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 ;CABOSFV algorithm for high dimensional sparse data clustering[J];Journal of University of Science and Technology Beijing(English Edition);2004年03期
2 刘玉龙,曹元大;分布网络环境主观信任模型研究[J];北京理工大学学报;2005年06期
3 吴萍;宋瀚涛;牛振东;张利萍;张聚礼;;基于SS/OSF实现高维稀疏数据对象的聚类[J];北京理工大学学报;2006年03期
4 朱春梅;徐小力;张建民;;基于混沌神经网络理论的机电设备状态趋势预测研究[J];北京理工大学学报;2009年06期
5 杨路明;杨竹青;曹丽娟;杨涛;;客户关系管理与企业获取客户的方法[J];商业研究;2006年21期
6 徐久成;孙林;;一种新的基于决策熵的决策表约简方法[J];重庆邮电大学学报(自然科学版);2009年04期
7 薄湘平,尹红;基于顾客价值的服务企业顾客忠诚管理探析[J];财经理论与实践;2005年01期
8 吕佳;;Web日志挖掘技术应用研究[J];重庆师范大学学报(自然科学版);2006年04期
9 陈明亮,李怀祖;客户价值细分与保持策略研究[J];成组技术与生产现代化;2001年04期
10 周增国;庞有军;;Cookie技术在Web日志挖掘预处理中的应用[J];大连大学学报;2006年02期
中国博士学位论文全文数据库 前10条
1 董大海;基于顾客价值构建竞争优势的理论与方法研究[D];大连理工大学;2003年
2 蒙肖莲;商业银行客户识别与保持模型研究[D];华中科技大学;2005年
3 余轶军;Web访问信息挖掘若干关键技术的研究[D];浙江大学;2006年
4 程勇;基于本体的不确定性知识管理研究[D];中国科学院研究生院(计算技术研究所);2005年
5 查金祥;B2C电子商务顾客价值与顾客忠诚度的关系研究[D];浙江大学;2006年
6 王宏宇;商务推荐系统的设计研究[D];中国科学技术大学;2007年
7 夏国恩;基于商务智能的客户流失预测模型与算法研究[D];西南交通大学;2007年
8 孟庆良;客户价值驱动的客户关系管理研究[D];南京理工大学;2006年
9 何鹏;我国中小企业创新力研究[D];中南大学;2006年
10 杨庆;消费者对网络商店的信任及信任传递的研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
2 陈学进;Web结构挖掘研究[D];合肥工业大学;2006年
3 黄克斌;网络学习行为及其分析系统研究[D];华中师范大学;2006年
4 字亚伟;基于消费者行为的移动客户细分研究[D];北京邮电大学;2006年
5 孙爱娟;高职校园网络教学资源的建设与应用研究[D];山东师范大学;2006年
6 刘萍;粒计算及其应用研究[D];厦门大学;2006年
7 王鑫昱;Web日志挖掘会话识别的研究[D];燕山大学;2007年
8 夏同胜;基于WUM的电子商务推荐研究[D];合肥工业大学;2007年
9 冯贺;Web使用挖掘相关算法的研究[D];西南交通大学;2008年
10 李幼军;用户行为模式发掘及其在网络教学系统中的应用[D];北方工业大学;2009年
【二级引证文献】
中国期刊全文数据库 前10条
1 冯海平;;大学英语网络教学资源库模块构成与应用研究[J];大连大学学报;2012年03期
2 卢成东;;中小型外贸企业客户关系管理策略研究[J];经济师;2011年10期
3 赵洁;房松坚;李泽彦;;基于SSH2的高校跳蚤网的设计与实现[J];价值工程;2011年30期
4 李娜;宫雪;郑明;;基于用户行为的后向收费模式研究[J];信息通信技术;2011年06期
5 李建廷;郭晔;汤志军;;基于用户浏览行为分析的用户兴趣度计算[J];计算机工程与设计;2012年03期
6 冯海平;秦昌明;;网络环境下自主学习监控模式建立与研究[J];实验技术与管理;2012年05期
7 邵兰洁;李光忠;;Web使用挖掘的数据采集技术探究[J];计算机技术与发展;2010年03期
8 王妍;王丽君;方芸;;基于关联规则的搭配进货系统的研究与实现[J];计算机技术与发展;2012年01期
9 万仲保;张赢;王飞虎;;对搜索引擎中垃圾数据Spam的识别分析[J];微计算机信息;2009年12期
10 李鹏;乔晓东;韩烽;王继田;梁健;张寅生;;基于用户浏览行为的数据采集及应用[J];现代图书情报技术;2008年11期
中国博士学位论文全文数据库 前1条
1 魏领会;数控机床可用性耦合建模及影响度分析[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 蔡宏果;基于基因表达式编程的Web个性化推荐技术研究[D];广西师范学院;2010年
2 李颖慧;聚类分析技术在中国移动客户消费模式中的应用研究[D];长春工业大学;2010年
3 王慧;Web日志中用户频繁访问路径挖掘算法的研究[D];北京交通大学;2011年
4 吉飞;基于用户浏览行为的网络资源排序研究[D];大连海事大学;2011年
5 邹文庄;铁通湖南分公司客户关系管理研究[D];湘潭大学;2011年
6 柏桂荣;基于RSS信息源的用户兴趣模型研究[D];南京航空航天大学;2010年
7 胡奎;四川瑞达电气有限公司发展战略研究[D];西南财经大学;2010年
8 张晓坡;基于数据挖掘的零售业客户关系管理研究[D];东北财经大学;2011年
9 史秦格;基于Web的数据挖掘技术及应用[D];西安工业大学;2012年
10 李晓芳;面向个性化信息服务的数据挖掘研究[D];大连海事大学;2010年
【二级参考文献】
中国期刊全文数据库 前1条
1 杨怡玲,管旭东,陆丽娜,尤晋元;一个简单的Web日志挖掘系统[J];上海交通大学学报;2000年07期
【相似文献】
中国期刊全文数据库 前10条
1 王利;;Web挖掘在个性化学习网站中的应用[J];福建电脑;2006年01期
2 凌海峰,刘业政,杨善林;基于蚁群算法的用户导航模式挖掘的研究[J];合肥工业大学学报(自然科学版);2005年08期
3 贾瑛;;Web使用挖掘的数据预处理过程分析[J];科技信息;2011年21期
4 杜文华;Web使用挖掘综述[J];电脑开发与应用;2003年04期
5 赵宝华;;基于Web挖掘的互动式作业分配与评价系统[J];微型电脑应用;2009年02期
6 刘海泉;姚全珠;;Web使用挖掘在电子商务中的应用研究[J];计算机工程;2006年07期
7 阎娟;;Web使用挖掘技术的研究[J];文教资料;2006年24期
8 张彬;蒋涛;;基于个人Web使用挖掘的个性化服务研究[J];株洲工学院学报;2006年04期
9 郑天云;霍成义;;Web使用挖掘及应用研究[J];甘肃科技;2008年04期
10 丁一,卢正鼎;基于web挖掘的用户服务研究[J];计算机仿真;2004年06期
中国重要会议论文全文数据库 前10条
1 宋国杰;马帅;唐世渭;杨冬青;;基于模式挖掘的交通预测模型[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 袁晴晴;楼宇波;周皓峰;汪卫;施伯乐;;基于图论的频繁模式挖掘[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 刘业政;杨攀;杨慧;;基于Web使用挖掘的在线商业智能研究[A];第10届计算机模拟与信息技术会议论文集[C];2005年
4 于升峰;;WEB使用挖掘的模式发现[A];信息时代——科技情报研究学术论文集(第二辑)[C];2006年
5 谭小球;姚敏;顾沈明;;基于最大频繁序列模式树的个性化页面推荐[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
6 薛丹;李德敏;裴仁林;;移动计算中基于PrefixSpan算法的用户移动模式挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 陆叶;王丽珍;陈红梅;赵丽红;;基于可能世界的不确定空间co-location模式挖掘研究[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 赵立江;何钦铭;;聚类分析在个性化学习中的研究与应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 陈雷明;邹欣;党德玉;;一种基于语义优化非单调推理的方法[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
10 夏庆;马元元;孙志挥;;路径遍历模式挖掘方法的改进[A];第十六届全国数据库学术会议论文集[C];1999年
中国重要报纸全文数据库 前3条
1 记者 温婷 编辑 全泽源;上海文交所总裁张天:用创新模式挖掘“文化的北大荒”[N];上海证券报;2010年
2 本报记者 姚琳;科学与追求相伴[N];广西日报;2011年
3 记者 姚琳;广西两位专家入选国家“千人计划”[N];广西日报;2011年
中国博士学位论文全文数据库 前10条
1 阮备军;Web使用挖掘若干关键问题研究[D];复旦大学;2004年
2 郑晓艳;频繁模式挖掘技术研究及其在供应链管理中的应用[D];天津大学;2010年
3 刘勇;图模式挖掘技术的研究[D];哈尔滨工业大学;2010年
4 李超锋;Web使用挖掘关键技术研究[D];华中科技大学;2007年
5 肖敏;基于领域本体的电子商务推荐技术研究[D];武汉理工大学;2009年
6 凌海峰;基于ACO的Web使用挖掘方法研究[D];合肥工业大学;2009年
7 周翀;搜索引擎中文档聚类方法研究[D];华中科技大学;2009年
8 高飞;关联规则挖掘算法研究[D];西安电子科技大学;2001年
9 徐剑波;基于本体的电子政务资源管理系统研究[D];东华大学;2007年
10 杨厚群;半结构化数据频繁模式挖掘相关技术研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前10条
1 王书舟;基于Web挖掘的自适应网站研究[D];哈尔滨理工大学;2003年
2 汪曦东;Web使用挖掘方法的研究和实现[D];合肥工业大学;2004年
3 周军;基于图的模式挖掘及其应用研究[D];合肥工业大学;2009年
4 万宇文;用户访问模式在线挖掘推荐系统的研究[D];江西师范大学;2003年
5 梁爽;不同语义距离材料下概念结合创造过程的研究[D];西南大学;2010年
6 刘国光;基于聚类的Web使用挖掘研究[D];山东大学;2007年
7 段淑敏;数据挖掘在Web个性化服务中的应用研究[D];河南大学;2007年
8 王慧博;Web使用挖掘技术的研究[D];长春理工大学;2008年
9 胡德勇;基于电信数据的模式挖掘与分析[D];北京邮电大学;2010年
10 邓凯;基于Web使用挖掘和关联规则的页面推荐模型的研究与实现[D];华东师范大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026