收藏本站
《复旦大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web挖掘的网页动态推荐系统研究

段利君  
【摘要】: 使用Web挖掘技术提取用户访问模式具有重要的现实意义。在用户浏览网页时为用户提供预取服务,在电子商务中为用户推荐商品以及改善网站的组织结构等。然而,在信息爆炸的今天,从网站内容到用户浏览行为都时刻发生着变化。这对网页推荐系统的设计提出了新的要求。 推荐系统为了预测用户下一步可能访问的网页,需要向前参考浏览序列。而序列模式考虑了页面浏览序列,因此本文以序列模式相关理论为基础。在基于序列模式的用户浏览模式挖掘相关研究中,比较流行的有基于Markov模型和PLSA模型。本文分析发现这两种模型在适应网站内容和用户浏览行为迅速变化方面都存在不足。 本文首先介绍了该领域的国内外研究现状和Web数据挖掘的一般流程。在Web日志数据预处理方面,本文给出了一种过滤日志数据的方法。在网页聚类方面,先分析了现有的各种聚类方法,接着提出了在网站组织结构良好的情况下基于URL的聚类方法包括:基于URL间距离和基于路径树的方法。由于URL间距离的算法不适应动态增长的Web页面结构,本文主要采用的是基于路径树的方法。在序列模式挖掘阶段,本文分析了PLSA方法的不足并提出了RTA算法,此方法基于路径树。随后,本文给出了推荐系统的更新方法。接下来本文分析了用户在访问网站时的使用习惯,并据此给出了网页推荐系统的设计方案。 本文最后采用命中率来评价推荐系统,给出了推荐页面数、支持度以及滑动窗口长度与命中率之间的关系。并将实验结果与基于PLSA算法的实验进行了对比,结果表明在一定条件下,RTA算法优于PLSA算法。
【学位授予单位】:复旦大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.092

【参考文献】
中国期刊全文数据库 前8条
1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
2 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
3 吴斌,傅伟鹏,郑毅,刘少辉,史忠植;一种基于群体智能的Web文档聚类算法[J];计算机研究与发展;2002年11期
4 涂承胜,鲁明羽,陆玉昌;Web内容挖掘技术研究[J];计算机应用研究;2003年11期
5 孙学刚,陈群秀,马亮;基于主题的Web文档聚类研究[J];中文信息学报;2003年03期
6 苏中,马少平,杨强,张宏江;基于Web-Log Mining的Web文档聚类[J];软件学报;2002年01期
7 宋擒豹,沈钧毅;基于关联规则的Web文档聚类算法[J];软件学报;2002年03期
8 杨正余;王卫平;;基于用户访问序列的实时网页推荐研究[J];计算机系统应用;2008年05期
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
3 宁小红;;Web Usage Mining在电子商务中的应用[J];安徽农业科学;2007年13期
4 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
5 田卉;;用数据挖掘技术构建政府智能化网络投诉平台[J];办公自动化;2009年18期
6 张克君;杨炳儒;赵耿;曲文龙;李欣;;一种分布式Web使用模式挖掘模型及算法[J];北京科技大学学报;2006年09期
7 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
8 暴海龙,李金林;专利检索中的IPC和主题词识别方法研究[J];北京理工大学学报(社会科学版);2003年05期
9 谢秋华;;Web文本挖掘的相关技术问题探讨[J];长春理工大学学报;2010年07期
10 贾丙静;吴长勤;葛华;;Web文本聚类的研究与实现[J];长春师范学院学报;2011年06期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
3 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
4 钟福金;穆斌;;语义Web挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
5 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
6 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
7 詹宇斌;殷建平;周文兰;;基于概率关联图挖掘Web日志中有趣关联规则[A];2006年全国理论计算机科学学术年会论文集[C];2006年
8 王丹;蔡红柳;王斌;;基于混沌序列的数字水印算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
9 冯迪;李晋宏;曹原;;基于网页的数据挖掘研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
10 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
2 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
3 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
5 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
6 熊文;基于群智的特征选择、分类与聚类挖掘的研究[D];北京邮电大学;2010年
7 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
8 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
9 马俊;信息技术嵌入的物流企业服务能力研究[D];武汉理工大学;2011年
10 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
3 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
4 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
5 李媛;电子商务个性化推荐关键技术研究[D];哈尔滨工程大学;2010年
6 景向永;电子资源使用统计标准化研究[D];大连理工大学;2010年
7 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
8 王月;改进的模糊C-均值算法在文本聚类中的应用研究[D];辽宁工程技术大学;2009年
9 刘琼;基于群体智能的聚类算法研究[D];长沙理工大学;2010年
10 程淑玉;基于协同过滤算法的个性化推荐系统的研究[D];合肥工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前7条
1 王爱华,张铭,杨冬青,唐世渭;PCCS部分聚类分类:一种快速的Web文档聚类方法[J];计算机研究与发展;2001年04期
2 吴斌,史忠植;一种基于蚁群算法的TSP问题分段求解算法[J];计算机学报;2001年12期
3 韩客松,王永成,陈桂林;无词典高频字串快速提取和统计算法研究[J];中文信息学报;2001年02期
4 邹涛,王继成,张福炎;基于WWW的资料搜集系统的设计与实现[J];情报学报;1999年03期
5 陈滢,王能斌;半结构化数据查询的处理和优化[J];软件学报;1999年08期
6 王宁,王能斌;异构数据源集成系统查询分解和优化的实现[J];软件学报;2000年02期
7 王宁,徐宏炳,王能斌;基于带根连通有向图的对象集成模型及代数[J];软件学报;1998年12期
【相似文献】
中国期刊全文数据库 前10条
1 涂伟;甘丽新;黄乐辉;李艳;;个性化学术推荐系统的研究与设计[J];商业时代;2011年18期
2 崔春生;;基于隐式浏览输入的用户聚类分析[J];计算机应用研究;2011年08期
3 周祥;郑应平;王令群;;一种基于Web服务的网页智能推荐方法[J];计算机应用研究;2006年09期
4 王丽爱;周旭东;陈崚;;Web信息个性化的研究[J];现代情报;2006年11期
5 王丽爱;周旭东;陈崚;;个性化的Web信息搜索研究[J];情报杂志;2007年06期
6 曹波;苏一丹;;基于蚁群聚类的top-N推荐系统[J];微计算机信息;2009年09期
7 全海金;邱玉辉;李瑞;;基于用户行为及语义相关实时更新用户兴趣的推荐系统[J];计算机科学;2005年03期
8 刘旭东;;个性化网页推荐系统在电子商务中的设计与应用[J];烟台职业学院学报;2008年04期
9 蔡琬琰;;基于数据挖掘的高校图书馆网站个性化推荐系统[J];情报探索;2011年03期
10 黄晓斌;;基于协同过滤的数字图书馆推荐系统研究[J];大学图书馆学报;2006年01期
中国重要会议论文全文数据库 前10条
1 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 白清源;林锦贤;谢丽聪;;信息自动获取系统的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 江志纲;丁增喜;刘洋;王大玲;鲍玉斌;于戈;;基于面向属性规约方法的网页和超链的分类[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
5 孔辉;梁洪亮;辛阳;杨义先;陈林顺;;一种高性能的网页篡改检测与恢复机制[A];2010年全国通信安全学术会议论文集[C];2010年
6 谢科;刘奕群;岑荣伟;马少平;茹立云;杨磊;;基于维基百科层次分类框架的主题推荐系统的研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 刘晖;赵萍;;新疆环境气象中心网站的总体规划及建设[A];信息技术在气象领域的开发应用论文集(一)[C];2005年
8 李立宗;高铁杠;陈蓉;陈超;;基于混沌系统的web信息隐藏研究与实现[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
9 王玉龙;叶新铭;李秀华;;网页优化策略的模糊C均值(FCM)聚类算法研究(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
10 朱建国;孙钟德;刘婷;;地市级网络管理监控初探[A];“推进气象科技创新,提高防灾减灾和应对气候变化能力”——江苏省气象学会第七届学术交流会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 任悦采写 本报记者 方妍;照片买家说,网页繁复不招喜欢[N];中国摄影报;2009年
2 鸣涧;走近3D梦幻网页(3)[N];中国电脑教育报;2002年
3 湖南 Ringfo;防止你的网页被“偷拍”[N];电脑报;2002年
4 路人甲;在网页上圈圈点点[N];电脑报;2004年
5 湖南 郭荣辉;网页图片保存四法[N];电子报;2005年
6 鸣涧;网页的编辑[N];中国电脑教育报;2002年
7 鸣涧;初次握手3D网页[N];中国电脑教育报;2002年
8 辽宁 张策;滚动的字幕 滚动的网页[N];中国电脑教育报;2002年
9 李芳香;和网页垃圾说再见[N];中国电脑教育报;2002年
10 马淑芬 记者 吴岳福;宝清 率先启动“村村通网页”工程[N];黑龙江日报;2010年
中国博士学位论文全文数据库 前10条
1 李涛;推荐系统中若干关键问题研究[D];南京航空航天大学;2009年
2 任磊;推荐系统关键技术研究[D];华东师范大学;2012年
3 邓爱林;电子商务推荐系统关键技术研究[D];复旦大学;2003年
4 张寅;个性化技术及其在数字图书馆中应用的研究[D];浙江大学;2009年
5 张亮;推荐系统中协同过滤算法若干问题的研究[D];北京邮电大学;2009年
6 许敏;[D];西南师范大学;2003年
7 孙小华;协同过滤系统的稀疏性与冷启动问题研究[D];浙江大学;2005年
8 王宏宇;商务推荐系统的设计研究[D];中国科学技术大学;2007年
9 郁雪;基于协同过滤技术的推荐方法研究[D];天津大学;2009年
10 王进;开放计算系统中基于DSmT的信任管理研究[D];南京理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 段利君;基于Web挖掘的网页动态推荐系统研究[D];复旦大学;2010年
2 闫祥雨;基于语义Web技术的推荐系统研究[D];太原理工大学;2010年
3 章晋波;推荐系统中协同过滤算法的研究与实现[D];北京邮电大学;2010年
4 寇艳艳;电子商务推荐系统中用户聚类问题与用户兴趣变化问题研究[D];中国科学技术大学;2011年
5 王昆;一种基于Bayesian CBR的推荐系统研究[D];河北师范大学;2011年
6 何克勤;基于标签的推荐系统模型及算法研究[D];华东师范大学;2011年
7 林源;英文短文本相似性研究及在图书推荐中的应用[D];北京林业大学;2010年
8 林佳雄;关联规则挖掘在电子商务推荐系统中的应用研究[D];暨南大学;2011年
9 王霞;协同过滤在电子商务推荐系统中的应用研究[D];河海大学;2003年
10 李惠民;电子商务推荐系统中协同过滤算法的研究[D];吉林大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026