收藏本站
《河北工业大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web日志的数据挖掘研究

田海山  
【摘要】: 近年来,Internet正以令人难以置信的速度在飞速发展,越来越多的机构、团体和个人在Internet上发布信息、查找信息。虽然Internet上有海量的数据,但由于Web是无结构的、动态的,并且Web页面的复杂程度远远超过了文本文档,人们要想找到自己想要的数据犹如大海捞针一般。网站不能对用户及其页面进行聚类,因此也不能针对特定的用户给出特殊的服务。另外,网站的拓扑结构与用户期望之间也存在着差距。而有些特殊用户的硬件资源有限,他们使用掌上电脑浏览网页,如何为他们实现页面预取也是应当研究的课题。 如何解决这些问题?将传统的数据挖掘技术与Web结合起来,进行Web挖掘就是一个途径。Web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏信息的过程。Web挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面,Web文档分类,Web Log分类、智能查询等。 本文首先介绍了Web挖掘的定义、任务、分类,Web挖掘的模型及处理过程。 接着,提出了一种适用于Web日志挖掘的数据结构及相应的算法。数据结构是一个用户/页面(User_URL)关联矩阵,用来表示用户对页面的访问信息。挖掘算法采用矩阵聚类(Matrix Cluster),可以实现客户、页面聚类和频繁访问路径识别及访问预测等。 本文最后总结了工作尚存的不足,并指出了Web挖掘研究的方向、应用前景和它所面临的挑战。 实验证明,采用以上算法对校园网的Web日志进行挖掘效果良好。另外,把算法应用于电子商务网站,可以建设一个自适应网站(Adaptire Website),进而实现针对具体客户的个性化服务,最终为商家的决策提供有力的支持。
【学位授予单位】:河北工业大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:TP311.13

【引证文献】
中国期刊全文数据库 前3条
1 陈阳,崔英敏;基于WEB日志的数据挖掘在校园网应用中的探索[J];广东轻工职业技术学院学报;2005年01期
2 刘明刚;吴继娟;;基于Web数据挖掘研究[J];黑龙江科技信息;2007年08期
3 黄永平;王健;;Web数据挖掘在高校教务考试中的应用[J];现代电子技术;2009年16期
中国硕士学位论文全文数据库 前7条
1 凌晓琴;基于Web日志的用户挖掘研究与实现[D];南京理工大学;2011年
2 李晓辉;基于用户行为分析的数据挖掘系统研究与设计[D];北京邮电大学;2011年
3 林伟强;基于web挖掘的电子商务推荐系统的实现与研究[D];电子科技大学;2011年
4 李亚哲;基于数据挖掘技术的求职招聘系统设计与实现[D];河北科技大学;2012年
5 张姝;网站可用性分析及可视化技术研究[D];沈阳工业大学;2006年
6 吴勇;网络环境下用户行为研究与实现[D];南京理工大学;2007年
7 崔志勇;WEB技术以及在现代远程教育教学系统中的应用[D];电子科技大学;2010年
【参考文献】
中国期刊全文数据库 前10条
1 宋擒豹,沈钧毅;Web日志的高效多能挖掘算法[J];计算机研究与发展;2001年03期
2 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
3 游湘涛,叶施仁,史忠植;多策略通用数据采掘工具MSMiner[J];计算机研究与发展;2001年05期
4 周斌,吴泉源,高洪奎;用户访问模式数据挖掘的模型与算法研究[J];计算机研究与发展;1999年07期
5 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
6 王运峰,张蕾,韩纪富,黄勇;数据库中关联规则的并行挖掘算法[J];计算机工程与应用;2001年16期
7 陈宁;周龙骧;;数据采掘在Internet中的应用[J];计算机科学;1999年07期
8 刁力力;胡可云;陆玉昌;石纯一;;数据挖掘与组合学习[J];计算机科学;2001年07期
9 张伟;刘勇国;彭军;廖晓峰;吴中福;;数据挖掘发展研究[J];计算机科学;2001年07期
10 杨怡玲,管旭东,尤晋元;Web日志挖掘预处理中的Frame页面过滤算法[J];计算机工程;2001年02期
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 朱先琦,胡学钢;基于模糊理论的铸件质量管理中的数据挖掘[J];安徽工程科技学院学报;2002年02期
3 宁小红;;Web Usage Mining在电子商务中的应用[J];安徽农业科学;2007年13期
4 张友志;钱萌;程玉胜;;基于关联规则web日志挖掘方法的研究[J];安庆师范学院学报(自然科学版);2006年01期
5 廖亚莉,王锡钢,战学刚;基于关联规则的网站个性化服务[J];鞍山科技大学学报;2004年06期
6 王剑;卢华明;;数据挖掘技术在CRM中的应用[J];北京信息科技大学学报(自然科学版);2010年02期
7 张克君;杨炳儒;赵耿;曲文龙;李欣;;一种分布式Web使用模式挖掘模型及算法[J];北京科技大学学报;2006年09期
8 李业丽,陆利坤;数据挖掘在虚拟企业联盟中的应用研究[J];北京印刷学院学报;2004年01期
9 宋伟,王举成,马根峰,赵济林;Internet数据挖掘原理及实现[J];重庆邮电学院学报(自然科学版);2001年02期
10 谢秋华;;Web文本挖掘的相关技术问题探讨[J];长春理工大学学报;2010年07期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
3 陈震;陈维默;;浅谈数据挖掘技术[A];福建省科协第五届学术年会数字化制造及其它先进制造技术专题学术年会论文集[C];2005年
4 胥永康;岳筱玲;;浅谈网络信息挖掘应用技术[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
5 钟福金;穆斌;;语义Web挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
6 祖巧红;陈定方;胡吉全;;分析型客户关系管理系统的研究[A];2005年十二省区市机械工程学会学术年会论文集(湖北专集)[C];2005年
7 王洪锋;;数据挖掘在客户关系管理中的应用研究[A];河南省通信学会2005年学术年会论文集[C];2005年
8 蔡猷花;张岐山;;Web日志挖掘及其在电子商务领域的应用[A];第10届计算机模拟与信息技术会议论文集[C];2005年
9 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
10 王波;张斌;;一种基于云模型的时间序列特征表示方法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
中国博士学位论文全文数据库 前10条
1 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
2 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
3 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
4 马春山;移动增值业务的个性化推荐研究[D];北京邮电大学;2011年
5 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
6 刘慧君;用户浏览模式挖掘方法与应用研究[D];重庆大学;2010年
7 马俊;信息技术嵌入的物流企业服务能力研究[D];武汉理工大学;2011年
8 陈燕;数据仓库的设计与实现[D];大连理工大学;2000年
9 高飞;关联规则挖掘算法研究[D];西安电子科技大学;2001年
10 王靖飞;动物疾病诊断专家系统的研究与应用[D];东北农业大学;2002年
中国硕士学位论文全文数据库 前10条
1 蔡浩;基于Web使用挖掘的协同过滤推荐算法研究[D];浙江理工大学;2010年
2 刘建东;基于Web访问信息挖掘的数字图书馆个性化服务研究[D];浙江理工大学;2010年
3 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
4 李媛;电子商务个性化推荐关键技术研究[D];哈尔滨工程大学;2010年
5 丛强;基于模糊关联规则Web挖掘算法的研究[D];哈尔滨工程大学;2010年
6 景向永;电子资源使用统计标准化研究[D];大连理工大学;2010年
7 张峰;基于支持向量机的网站发布系统设计与实现[D];大连理工大学;2010年
8 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
9 张峰;基于数据挖掘技术的教学管理应用研究[D];合肥工业大学;2010年
10 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 姚亚辉;侯德恒;;Web数据挖掘在校园网络化考试中的应用[J];安阳工学院学报;2007年01期
2 宋爱波,胡孔法,董逸生;Web日志挖掘[J];东南大学学报(自然科学版);2002年01期
3 王利强,刘正捷,张丽萍,张海昕,陈军亮;网站用户行为数据收集和分析方法[J];电脑开发与应用;2004年02期
4 李勇,韦兆文,肖智;基于EJB的电子商务系统结构设计[J];重庆大学学报(自然科学版);2003年08期
5 苏安洋,张江,林华,贺仲雄;电子商务中的Agent虚拟协商与智能决策[J];中国工程科学;2003年10期
6 李金秀;我国网络信息用户基本情况调查[J];广东行政学院学报;2005年04期
7 王华;王治和;王平;;Web用户聚类研究[J];甘肃联合大学学报(自然科学版);2010年01期
8 邹艺;;信息用户的研究热点分析[J];高校图书馆工作;2006年05期
9 王熙照,王丽娟,袁方,湛燕;Web用户访问模式挖掘[J];河北大学学报(自然科学版);2002年04期
10 李亚飞,刘业政;Web挖掘的体系研究[J];合肥工业大学学报(自然科学版);2004年03期
中国博士学位论文全文数据库 前3条
1 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
2 郭岩;网络日志中用户兴趣的挖掘及利用[D];中国科学院研究生院(计算技术研究所);2004年
3 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 秦勉;电子商务网上支付系统探析[D];西南财经大学;2000年
2 刘念伯;网络考试系统的设计与实现[D];电子科技大学;2001年
3 张社广;网上教学系统的设计与实现[D];北京工业大学;2001年
4 杨秋翔;办公自动化考试系统的设计与实现[D];华北工学院;2002年
5 水俊峰;面向智能Web站点的数据挖掘技术研究及应用[D];武汉理工大学;2003年
6 李纪文;校园网规划与基于校园网的MIS系统开发[D];大连理工大学;2002年
7 葛昕;数据挖掘在Web使用模式中的研究和应用[D];广西大学;2003年
8 李东海;数据挖掘技术在远程教学系统中的应用研究[D];首都师范大学;2003年
9 何波;基于数据挖掘的Web个性化信息推荐研究[D];西南师范大学;2003年
10 周宇;基于WUM的个性化智能推荐技术研究[D];浙江工业大学;2003年
【二级引证文献】
中国期刊全文数据库 前4条
1 陈阳;崔英敏;;利用WEB挖掘技术构建智能化电子商务站点[J];广东技术师范学院学报;2005年06期
2 刘梦超;肖基毅;陈荣;贺祥;;数据挖掘在用户上网行为分析中的应用研究[J];电脑知识与技术;2012年31期
3 孙燕花;李杰;李建;;基于CURE算法的网络用户行为分析[J];计算机技术与发展;2011年09期
4 张琳;;Web日志挖掘技术在校园网信息处理中的应用研究[J];遵义师范学院学报;2011年05期
中国硕士学位论文全文数据库 前10条
1 葛苗苗;基于校园网的网络用户行为分析研究[D];南京财经大学;2010年
2 杜立平;Web用户访问聚类模式研究[D];西安电子科技大学;2010年
3 贾晓倩;基于相似性的P2P网络资源发现策略研究[D];山东师范大学;2011年
4 凌晓琴;基于Web日志的用户挖掘研究与实现[D];南京理工大学;2011年
5 贾梦青;基于用户访问行为分析的网站分类研究[D];郑州大学;2009年
6 罗曼;全Flash视频网站用户行为数据的采集及其预处理[D];东华大学;2010年
7 董肖莉;森林生态站时序数据的模式挖掘系统研建[D];北京林业大学;2012年
8 杜杰;基于校园网海量访问日志的用户行为分析[D];大连海事大学;2012年
9 张艳华;面向多站点Web日志挖掘中的数据采集与预处理技术研究[D];重庆大学;2012年
10 蔡茜;基于Web挖掘的个性化教学系统研究与设计[D];吉林大学;2012年
【二级参考文献】
中国期刊全文数据库 前8条
1 欧阳为民,蔡庆生;在大型数据库中多层序贯模式的发现[J];计算机研究与发展;1998年10期
2 周斌,吴泉源,高洪奎;用户访问模式数据挖掘的模型与算法研究[J];计算机研究与发展;1999年07期
3 阳小华,周龙骧;WEB用户的视图[J];软件学报;1999年07期
4 欧阳为民,蔡庆生;发现广义序贯模式的增量式更新技术[J];软件学报;1998年10期
5 杨怡玲,管旭东,陆丽娜,尤晋元;一个简单的Web日志挖掘系统[J];上海交通大学学报;2000年07期
6 谭宁,叶施仁,游湘涛,史志植;应用面向对象知识处理的选案专家系统[J];计算机系统应用;1999年05期
7 李水平,陈意云,黄刘生;数据采掘技术回顾[J];小型微型计算机系统;1998年04期
8 张晓辉,邵华,常桂然;WWW上的信息发现与搜索引擎技术[J];小型微型计算机系统;1998年06期
【相似文献】
中国期刊全文数据库 前10条
1 李翠霞;谭莹军;;关于Web日志挖掘的研究[J];安阳工学院学报;2007年01期
2 何典;宋中山;梁英;;结合用户交易情况的改进聚类算法[J];计算机应用与软件;2007年11期
3 董一鸿,庄越挺;基于新型的竞争型神经网络的Web日志挖掘[J];计算机研究与发展;2003年05期
4 邹媛,牛振东;基于模糊理论的远程教育网站自调整策略[J];现代图书情报技术;2004年03期
5 左鹏,徐和龙,于国庆;Web挖掘在FDSS中的应用探讨[J];计算机与现代化;2001年05期
6 汪全莉;陈代春;;Web数据挖掘在网络教育中的应用[J];中国科技资源导刊;2008年02期
7 陈莉萍;哈渭涛;;一种基于关联矩阵的自适应Web站点的研究与实现[J];科学技术与工程;2009年08期
8 陈建华,包煊;Web挖掘系统的设计与实现[J];计算机工程;2002年08期
9 易高翔,程耕国;数据挖掘在Web智能化中应用研究[J];计算机工程与设计;2005年01期
10 陈振,郑诚,朱小栋;一种基于关联分类方法的Web用户兴趣预测[J];微机发展;2005年05期
中国重要会议论文全文数据库 前10条
1 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
2 董燕;;Web挖掘对电子商务网站建设的影响[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
3 易虹;许德刚;;Web数据挖掘的研究与应用[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
4 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
5 张艳;周国祥;;Web挖掘在个性化信息检索中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
6 吴珊;杨桦;;基于日志挖掘的Web预取模型[A];2006年电气工程教育专业委员会年会论文集[C];2006年
7 习慧丹;;Web日志挖掘探析[A];第三届全国软件测试会议与移动计算、栅格、智能化高级论坛论文集[C];2009年
8 宋江春;沈钧毅;;基于CORBA的分布式Web挖掘系统的设计与实现[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
9 王磊;王丰辉;郑康锋;杨义先;;基于Web挖掘技术的漏洞收集系统研究与设计[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
10 林政;吕雅娟;刘群;马希荣;;基于双语混和网页的平行语料挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国重要报纸全文数据库 前5条
1 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
2 涂序彦 陈泓娟;在网络信息海洋中淘金[N];计算机世界;2001年
3 ;Web收获:吸纳有用信息[N];计算机世界;2004年
4 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
5 本报记者 仝仁;数据库网联服务[N];中国计算机报;2001年
中国博士学位论文全文数据库 前10条
1 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
2 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
3 肖敏;基于领域本体的电子商务推荐技术研究[D];武汉理工大学;2009年
4 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
5 阮备军;Web使用挖掘若干关键问题研究[D];复旦大学;2004年
6 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
7 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
8 孙舒杨;统计关系学习的若干问题研究[D];吉林大学;2006年
9 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年
10 张榛楠;面向电子商务的Web使用挖掘关键技术研究[D];中国矿业大学(北京);2009年
中国硕士学位论文全文数据库 前10条
1 田海山;基于Web日志的数据挖掘研究[D];河北工业大学;2003年
2 蒲秋梅;基于XML的Web数据挖掘技术的研究[D];武汉大学;2004年
3 覃拥军;基于Web使用挖掘的用户模式识别研究[D];湖南师范大学;2008年
4 孙丽;Web数据的挖掘方法研究[D];大庆石油学院;2004年
5 黄荣兵;RBF神经网络在Web挖掘中的应用研究[D];太原理工大学;2004年
6 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
7 吕毅;基于Web挖掘的Portal个性化服务模型的研究及实现[D];西北大学;2007年
8 马征;基于本体的Web页面分类挖掘[D];中南大学;2004年
9 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
10 张承明;基于Web的数据挖掘研究[D];山东科技大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026