收藏本站
《哈尔滨工程大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web日志挖掘系统的设计与实现

刘鑫  
【摘要】:随着互联网的迅速普及和广泛应用,Web上产生的信息也随之飞速增长,如何从浩瀚的资料中挖掘出有价值的信息,受到各方面的关注。WWW网无论是在访问量、规模上还是在网站设计的复杂度上都以惊人的速度增长着。像Web站点设计、Web服务设计和一些通过Web网站进行简单的导航模式设计也都增大了设计的难度。为了更好地设计Web服务器,一个更好的方式就是分析原来的网站是如何被利用的。日志数据的分析可以通过统计数据的形式,像统计经常被访问的页面集、统计经常需要分析的重要的表格数据、通过网站分析找出一般的访问路径模式等。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,从而解决上面提出的各种问题。 本研究在简述了Web日志挖掘的概念、研究内容、关键技术和目前的国内外研究状况的基础上,针对某区政府门户网站的访问日志,采用数据挖掘技术进行数据分析,从而找出用户访问规律和内容喜好,为改进网站结构和内容提供了决策支持。论文所做的主要工作是: (1) 对Web日志的预处理进行了研究,给出了预处理的流程并分析了其中的难点;包括数据净化、会话识别、用户识别、路径补充,并描述了预处理模型及其算法流程; (2) 对其经典Apriori算法进行了剖析,提出了改进算法M-Apriori算法,并通过缩减数据项集的办法来提高Apriori算法的执行效率; (3) 对路径遍历模式挖掘进行了研究,例如最大向前路径生成算法,频繁遍历路径挖掘算法,最大频繁遍历挖掘算法,并尝试将其用到某区政府网站的挖掘之中; (4) 根据Apriori改进算法,通过修改源代码的方式应用到Weka挖掘工具中;用改进后的Weka挖掘工具对该政府网站日志进行挖掘,依据挖掘结果给出针对该区政府门户网站的改进建议。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP311.52

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 金骅;陈基漓;阮百尧;吕彦红;;基于关联规则的Web日志挖掘算法[J];桂林工学院学报;2009年04期
中国硕士学位论文全文数据库 前5条
1 朱越强;Web日志挖掘在网站优化中的研究与应用[D];大连海事大学;2007年
2 王燕;Web日志挖掘技术应用研究[D];贵州大学;2008年
3 周青;基于粗糙集和自组织神经网络的web日志挖掘聚类研究[D];南昌大学;2008年
4 王靓明;融合多重模糊矩阵_SOFM的Web日志挖掘研究[D];南昌大学;2010年
5 王丽;模糊聚类算法在矿业城市竞争力中的应用研究[D];太原理工大学;2010年
【参考文献】
中国期刊全文数据库 前10条
1 吴良刚,周海涛;一种基于数理统计数据挖掘方法的研究[J];广西大学学报(自然科学版);2002年01期
2 张静,田忠和;基于IIS和web日志的关联关系的挖掘[J];华中科技大学学报(自然科学版);2002年08期
3 高毅龙;Web服务器访问日志的保存方法及其实现[J];计算机工程;1999年09期
4 陆丽娜,杨怡玲,管旭东,魏恒义;Web日志挖掘中的数据预处理的研究[J];计算机工程;2000年04期
5 陈宝树,党齐民;Web数据挖掘中的数据预处理[J];计算机工程;2002年07期
6 肖立英,李建华,谭立球;Web日志挖掘技术的研究与应用[J];计算机工程;2002年07期
7 鲍钰,黄国兴,张召;基于Web日志挖掘的网站结构优化方法[J];计算机工程;2003年12期
8 李燕风;Web访问信息挖掘系统[J];计算机工程;2003年15期
9 陶树平,屠颖;关联规则和分类规则挖掘算法的改进与实现[J];计算机工程;2003年15期
10 李建,刘红星;新的数据挖掘工具——Poly Analyst[J];计算机应用;2002年07期
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 张友志;钱萌;程玉胜;;基于关联规则web日志挖掘方法的研究[J];安庆师范学院学报(自然科学版);2006年01期
3 孔昊;周长胜;;Web日志挖掘预处理研究[J];北京机械工业学院学报;2005年04期
4 纪良浩;王国胤;杨勇;;基于协作过滤的Web日志数据预处理研究[J];重庆邮电学院学报(自然科学版);2006年05期
5 吴琪;一种基于客户端的用户浏览行为的采集方法[J];长春师范学院学报;2005年09期
6 洪梅;;Web日志挖掘在电子商务中的应用[J];长春大学学报;2008年10期
7 余肖生;;基于XGMML-LOGML的Web日志挖掘[J];重庆工学院学报(自然科学版);2008年07期
8 李儒银;;基于IIS的站点安全设置与管理[J];长沙通信职业技术学院学报;2009年02期
9 王霞俊;;基于Web使用挖掘的实时推荐技术[J];常州轻工职业技术学院学报;2006年01期
10 赵文忠;张长利;房俊龙;;Web日志挖掘在农业网站的应用[J];东北农业大学学报;2010年08期
中国重要会议论文全文数据库 前7条
1 ;Research on page view identification based on the site topology[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 6)[C];2005年
2 魏新;廖闻剑;彭艳兵;;基于数据挖掘的校园网络行为分析[A];第十届中国科协年会信息化与社会发展学术讨论会分会场论文集[C];2008年
3 黎陨;詹晓红;孙莉;;基于频繁遍历路径的个性化推荐系统[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 蔡丽萍;李茂青;;一种基于模糊聚类的日志挖掘方法及应用[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 周常恩;谢伙生;白清源;谢丽聪;张莹;;挖掘邻近序列模式的一个高效算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
6 邹丽霞;薛海燕;;应用于个性化推荐的web日志挖掘聚类算法研究[A];Proceedings of 2010 The 3rd International Conference on Computational Intelligence and Industrial Application(Volume 6)[C];2010年
7 ;Design and Implementation of Online Exam System Based on Data Mining[A];Proceedings of 2010 The 3rd International Conference on Computational Intelligence and Industrial Application(Volume 3)[C];2010年
中国博士学位论文全文数据库 前10条
1 刘雪梅;服务器端软件性能分析和诊断方法研究[D];哈尔滨工程大学;2010年
2 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
3 熊家军;基于数据挖掘的入侵检测关键技术研究[D];华中科技大学;2004年
4 余轶军;Web访问信息挖掘若干关键技术的研究[D];浙江大学;2006年
5 李建强;基于数据挖掘的电站运行优化理论研究与应用[D];华北电力大学(河北);2006年
6 颜跃进;最大频繁项集挖掘算法的研究[D];国防科学技术大学;2005年
7 吴德会;基于质量信息集成的智能质量控制技术研究[D];合肥工业大学;2006年
8 徐雪琪;基于统计视角的数据挖掘研究[D];浙江工商大学;2007年
9 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
10 李超锋;Web使用挖掘关键技术研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 王宇轩;电子信箱的可用性实验研究[D];浙江理工大学;2010年
2 刘建东;基于Web访问信息挖掘的数字图书馆个性化服务研究[D];浙江理工大学;2010年
3 杨彦玲;一种基于GWRN模型的自组织神经网络算法的研究及应用[D];南昌大学;2010年
4 程澄;一种舆情数据挖掘平台的研究[D];北京交通大学;2011年
5 王鹏;Windows日志取证与恢复技术研究[D];杭州电子科技大学;2009年
6 孙丽佳;基于WEB日志挖掘的政府网站可用性研究[D];哈尔滨工业大学;2010年
7 李建芳;基于关联规则及序列模式的Web日志挖掘系统[D];解放军信息工程大学;2009年
8 马红梅;电子商务时代的顾客信息管理[D];南京理工大学;2002年
9 周海涛;应用数据仓库技术提升企业决策能力研究[D];中南大学;2002年
10 程静;基于Agent和Web挖掘的个性化用户模型研究[D];西南师范大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 纪良浩;王国胤;杨勇;;基于协作过滤的Web日志数据预处理研究[J];重庆邮电学院学报(自然科学版);2006年05期
2 王岚,张鹏祥;基于Web的数据挖掘研究[J];长春师范学院学报;2005年07期
3 香丽芸;浅谈数据挖掘及其应用[J];昌吉师专学报;2001年02期
4 赵霞,李大学;基于Web日志的用户访问模式挖掘[J];重庆工业高等专科学校学报;2004年01期
5 马江洪,张文修,徐宗本;数据挖掘与数据库知识发现:统计学的观点[J];工程数学学报;2002年01期
6 肖国强,肖轶;一种从Web日志中挖掘访问模式的新算法[J];华中科技大学学报(自然科学版);2004年05期
7 衡萍,李明星,董沛武,陈健;Web日志挖掘中的用户浏览序列模式识别[J];管理科学;2003年06期
8 王实,高文,李锦涛,谢辉;路径聚类:在Web站点中的知识发现[J];计算机研究与发展;2001年04期
9 杜家强,韩其睿,王科,杜家兴;Web日志中用户频繁路径快速挖掘算法[J];计算机工程与应用;2005年22期
10 王新;马万青;潘文林;;基于Web日志的用户访问模式挖掘[J];计算机工程与应用;2006年21期
中国博士学位论文全文数据库 前2条
1 范九伦;模糊聚类新算法与聚类有效性问题研究[D];西安电子科技大学;1998年
2 王实;基于Web访问信息挖掘的推荐方法研究[D];中国科学院研究生院(计算技术研究所);2001年
中国硕士学位论文全文数据库 前10条
1 许东;我国典型案例城市竞争力的分析与评价[D];河南大学;2003年
2 邓松林;基于粗糙集的Web用户模式挖掘研究[D];重庆大学;2003年
3 宫改云;FCM算法参数研究及其应用[D];西安电子科技大学;2004年
4 陈丽雯;基于神经网络的数据挖掘模型研究与应用[D];大连海事大学;2004年
5 叶蕾;数据挖掘在电信客户细分领域的应用[D];昆明理工大学;2004年
6 杨厚群;Web日志挖掘技术及应用研究[D];重庆大学;2005年
7 胡杰荣;矿业城市综合竞争力分析与评价[D];中国地质大学(北京);2006年
8 叶海军;模糊聚类分析技术及其应用研究[D];合肥工业大学;2006年
9 李艺明;基于模糊聚类的客户分类方法研究[D];广东工业大学;2006年
10 高晓琴;基于粗糙集和模糊聚类的WEB使用挖掘的研究[D];西南交通大学;2006年
【二级引证文献】
中国期刊全文数据库 前2条
1 杨际林;戴勃;唐姿伟;王礼景;;基于数据挖掘算法的网格日志分析[J];辽宁工业大学学报(自然科学版);2011年02期
2 姜雷;;Apriori改进算法在图书借阅数据中的应用[J];情报探索;2011年05期
中国硕士学位论文全文数据库 前4条
1 李丽;面向交友网站的Web日志关联规则挖掘及系统实现[D];重庆大学;2010年
2 王靓明;融合多重模糊矩阵_SOFM的Web日志挖掘研究[D];南昌大学;2010年
3 熊熙;基于WEB日志挖掘的个性化服务技术的研究[D];湖北工业大学;2010年
4 张令杰;基于模糊聚类算法的道路交通安全状况研究[D];北京交通大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 宋擒豹,沈钧毅;Web日志的高效多能挖掘算法[J];计算机研究与发展;2001年03期
2 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
3 谢丹夏;Web上的数据挖掘技术和工具设计[J];计算机工程与应用;2001年06期
4 陆丽娜,杨怡玲,管旭东,魏恒义;Web日志挖掘中的数据预处理的研究[J];计算机工程;2000年04期
5 王利强,唐常杰,于中华,何雪梅;基于Web的数据采掘[J];计算机应用;1998年10期
6 陈才扣,金远平;基于Web的时间序列模式挖掘[J];计算机应用研究;2000年07期
7 张朝晖,陆玉昌,张钹;发掘多值属性的关联规则[J];软件学报;1998年11期
8 施建生,伍卫国,陆丽娜,杨怡玲;Web日志中挖掘用户浏览模式的研究[J];西安交通大学学报;2001年06期
9 陆丽娜,魏恒义,杨怡玲,管旭东;Web日志挖掘中的序列模式识别[J];小型微型计算机系统;2000年05期
10 李水平,陈意云,黄刘生;数据采掘技术回顾[J];小型微型计算机系统;1998年04期
【相似文献】
中国期刊全文数据库 前10条
1 毕永成;;Web日志处理中Apriori算法及其改进[J];电脑知识与技术;2010年14期
2 许珂;;关联挖掘在图书借阅数据库中的应用[J];福建电脑;2006年09期
3 闫禹;;数据挖掘在客户信息管理中的运用[J];辽宁大学学报(自然科学版);2006年03期
4 李超;余昭平;;基于矩阵的Apriori算法改进[J];计算机工程;2006年23期
5 胡静芳;;基于关联规则的Web日志数据分析系统[J];电脑知识与技术;2008年16期
6 孙赵平;李龙澍;;基于关联规则的Web日志挖掘算法研究[J];电子技术;2010年08期
7 沈元怿;;一种关联规则挖掘方法在客户分析中的应用[J];现代计算机;2005年12期
8 喻金平;齐先锋;罗珊梅;;一种c#实现改进的关联规则挖掘算法[J];科技广场;2006年02期
9 陆璐;杨志献;;基于关联规则的数据挖掘技术在铁路物流行业中的应用[J];科技信息(科学教研);2007年23期
10 成平广;;关联规则在高校招生录取决策中的应用研究[J];黔西南民族师范高等专科学校学报;2008年02期
中国重要会议论文全文数据库 前10条
1 李阳;徐锡山;韩伟红;郑黎明;徐镜湖;;网络安全事件关联规则的自动化生成方法研究与实践[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
2 左万利;刘居红;;包含正负属性的关联规则及其挖掘[A];第十六届全国数据库学术会议论文集[C];1999年
3 王宁;董淳;胡运发;陶晓鹏;;面向集合的关联规则挖掘算法[A];第十五届全国数据库学术会议论文集[C];1998年
4 李超;余昭平;;基于矩阵的Apriori算法改进研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 陶兰;吕建军;王保迎;;数据挖掘技术在高校数据管理中的应用研究[A];第六届全国计算机应用联合学术会议论文集[C];2002年
6 周焕银;张永;;关联规则候选项频度规律研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
7 王翠茹;王少华;;关联规则经典算法的一种改进[A];中国通信学会第五届学术年会论文集[C];2008年
8 方艳;别荣芳;;关联规则的有趣性研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 黄晓燕;许龙飞;;基于关联规则的网络入侵检测技术的应用研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 李庆忠;张世栋;董国庆;;在数据多维体中进行关联规则的挖掘[A];第十六届全国数据库学术会议论文集[C];1999年
中国重要报纸全文数据库 前10条
1 严宁;挖掘数据寻保险商机[N];网络世界;2007年
2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
3 南京市地方税务局信息管理处、计算机中心 明靖 朱岚;数据挖潜让业务说话[N];中国计算机报;2006年
4 本报记者 袁跃;点击七彩人生[N];财会信报;2005年
5 王玮 蔡莲红;数据挖掘走入语音处理[N];计算机世界;2001年
6 ;选择SIM的十大理由[N];中国计算机报;2008年
7 贵州省移动通信公司 苏思妮;让信息去主动寻找用户[N];通信产业报;2004年
8 主持人 李禾;数据挖掘技术如何驱动经济车轮[N];科技日报;2007年
9 中期研究院;数据仓库与数据挖掘在期货行业的应用[N];期货日报;2008年
10 陈星霖;NIDS:老树发新枝[N];网络世界;2009年
中国博士学位论文全文数据库 前10条
1 肖波;可信关联规则挖掘算法研究[D];北京邮电大学;2009年
2 王越;分布式关联规则挖掘的方法研究[D];重庆大学;2003年
3 叶小飞;基于自发呈报系统与循证医学的药品不良反应信号挖掘[D];第二军医大学;2011年
4 牛成林;增量数据挖掘及其在电站运行优化中的理论研究及应用[D];华北电力大学(北京);2010年
5 毛国君;数据挖掘技术与关联规则挖掘算法研究[D];北京工业大学;2003年
6 王春雨;刑事案件关联分析与防控警务模式研究[D];大连理工大学;2010年
7 赵春;基于数据挖掘技术的财务风险分析与预警研究[D];北京化工大学;2012年
8 李学明;计算机数据的关联规则挖掘理论和算法研究[D];重庆大学;2003年
9 蔡瑞初;基因表达数据挖掘若干关键技术研究[D];华南理工大学;2010年
10 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 毛科技;政府网站日志挖掘的研究与实践[D];浙江工业大学;2005年
2 刘鑫;基于Web日志挖掘系统的设计与实现[D];哈尔滨工程大学;2006年
3 张友平;基于关联规则的数据挖掘模型SM-MINER的设计与实现[D];上海海运学院;2002年
4 顾泽元;关联规则数据挖掘频繁项目集发现算法的研究[D];哈尔滨工程大学;2005年
5 吕寻才;数据挖掘在地震预报中的应用[D];天津大学;2006年
6 蒋晓静;基于XML及关联规则的WEB日志挖掘技术研究[D];江西师范大学;2003年
7 刘影;一种入侵防御系统模型的研究与设计[D];哈尔滨工程大学;2008年
8 高翔;基于J2EE架构的知识发现技术在CRM系统中的应用研究[D];西北工业大学;2006年
9 王景;基于关联规则数据挖掘的研究[D];广西大学;2003年
10 蒋秀英;数据挖掘中的关联规则算法优化研究及应用[D];山东师范大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026