收藏本站
《武汉科技大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web日志的数据挖掘

吴海红  
【摘要】: 数据挖掘是近年来随着数据库和人工智能技术的发展而出现的一种全新信息技术,也是计算机科学与技术,尤其是计算机网络的发展和普遍使用所提出的而且迫切需要解决的重要课题。数据挖掘是指从数据中提取模式的过程,数据挖掘的提出,让人们最终有能力认识数据的真正价值,即蕴藏在数据中的信息和知识。数据挖掘技术的产生,使得企业用户可以从大量的数据中发现隐含的规律,从而为企业决策提供更可靠的依据。由于web上存在许多半结构化数据,而数据挖掘-必须建立在结构化良好的数据基础之上,可以说,即便在web上得到一些相关数据,将其用于挖掘和分析也是相当困难的,面向web的数据挖掘要比面向单个数据仓库中的数据挖掘要复杂的多,传统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据,同时可以很好的定义和解释相关的查询语言;由于Internet和www的广泛应用,出现了基于异构数据源的数据挖掘,如文档数据挖掘、时间序列数据挖掘、电子商务系统中的数据挖掘。伴随数据库技术的发展,多媒体数据库的数据挖掘、空间数据库的数据挖掘等也引起了许多人的关注。 Internet的迅猛发展,尤其是Web的全球普及,使得Web上信息量无比丰富。通过对Web的挖掘,可从Web页面中提取所需的知识:对总的用户访问行为、频度、内容的分析,可得到关于群体用户访问行为和方式的普遍知识,用以改进我们的Web服务设计。而更重用的是,通过对这些用户特征的理解和分析,可以有助于开展有针对性的电子商务活动。 web数据挖掘于与传统的数据挖掘有着很大的不同,传统数据挖掘技术处理的数据对象主要是结构化数据,很少处理结构上异质的、非结构化信息,因此,对Web上的数据进行挖掘具有极大的挑战性,这些使得Web挖掘成为数据挖掘的一个新主题,引起了人们的极大兴趣。 web上有海量的数据信息,怎样对这些数据进行应用,成了现今数据库技术的研究热点,数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题,充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术最重要的应用。Web信息的多样性决定了Web挖掘任务的多样性。Web内容挖掘的重点是页面分类和聚类。Web内容挖掘的主要方向在文本挖掘。Web结构挖掘的目的在于揭示蕴含在这些文档结构信息中有用模式。超链接还反映了文档间的引用关系,一个页面被引用的次数体现了该页面的重要性。Web页面的URL可能会反映页面的类型,也可能会反映页面之间的目录结构关系。 本文在讨论web日志挖掘问题的困难和现状的基础上,提出了一个新的挖掘模型:PCWS模型,它充分地利用了现有的算法,可以自适应不同的用户群,以 武汉科技大学硕士论文 简便用户访问网页。最后,具体介绍了利用该模型进行日志文件预处理,用户识 别,会话识别,挖掘用户路径和序列模式识别的方法,并给出试验结果。
【学位授予单位】:武汉科技大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:TP393.09

【参考文献】
中国期刊全文数据库 前2条
1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
2 阳小华;Web站点的超链结构挖掘[J];计算机工程与应用;2001年08期
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
3 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
4 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
5 暴海龙,李金林;专利检索中的IPC和主题词识别方法研究[J];北京理工大学学报(社会科学版);2003年05期
6 谢秋华;;Web文本挖掘的相关技术问题探讨[J];长春理工大学学报;2010年07期
7 贾丙静;吴长勤;葛华;;Web文本聚类的研究与实现[J];长春师范学院学报;2011年06期
8 王志明;沙莎;;Web文本挖掘技术在新闻主题检测中的应用研究[J];长沙大学学报;2007年05期
9 李淑领;;网络社区中的虚拟身份挖掘[J];沧州师范专科学校学报;2008年03期
10 孙鸿敏;;Web数据挖掘技术及其在铁通通信中的应用研究[J];科技创新与应用;2012年13期
中国重要会议论文全文数据库 前4条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
3 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 王丹;蔡红柳;王斌;;基于混沌序列的数字水印算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
2 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
3 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
4 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
5 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
6 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
7 李四明;基于智能Agent的网上农业信息挖掘研究[D];中国农业大学;2003年
8 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
9 常明山;面向大规模定制产品规划关键技术的研究[D];天津大学;2003年
10 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
3 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
4 程淑玉;基于协同过滤算法的个性化推荐系统的研究[D];合肥工业大学;2010年
5 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
6 周绪倩;基于电子商务的Web数据挖掘系统架构研究[D];河北工程大学;2010年
7 艾伟;基于本体的Web信息文本挖掘与检索服务研究[D];北京信息控制研究所;2010年
8 姜晓伟;粒子群算法在查询优化中的应用[D];哈尔滨理工大学;2010年
9 周志辉;基于用户兴趣模型的个性化搜索引擎研究与分析[D];江西理工大学;2010年
10 程澄;一种舆情数据挖掘平台的研究[D];北京交通大学;2011年
【二级参考文献】
中国期刊全文数据库 前1条
1 邹涛,王继成,张福炎;基于WWW的资料搜集系统的设计与实现[J];情报学报;1999年03期
【相似文献】
中国期刊全文数据库 前10条
1 谢维奇;翟璐璐;;基于Web日志的远程教育学员网上学习行为的识别[J];福建电脑;2007年02期
2 王英培;;Web日志挖掘在数字图书馆个性化服务中的应用[J];科技情报开发与经济;2005年22期
3 张宁;何晓萍;;Web日志挖掘在图书馆中的应用探讨[J];江西图书馆学刊;2008年03期
4 张冬梅,张志东;构建基于Web数据挖掘技术的信息服务系统[J];图书情报工作;2003年02期
5 闫炳宽;;基于点击技术的用户兴趣数据挖掘研究[J];电脑知识与技术;2009年33期
6 王长征;;基于Web日志挖掘的网上教学质量评估方法研究[J];科技广场;2008年05期
7 潘有能;;基于XML的Web日志挖掘研究[J];现代图书情报技术;2006年05期
8 尹晓丽;李济洪;;一种访问者行为的相似度度量方法[J];太原科技大学学报;2007年05期
9 聂超;高慧颖;;基于集成Excel的个性化Web日志分析研究[J];现代电子技术;2009年24期
10 吴慧韫;;利用Web日志进行CRM数据挖掘研究[J];科技广场;2006年01期
中国重要会议论文全文数据库 前10条
1 王彤;;对Web使用记录挖掘算法的改进[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
2 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
3 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
4 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
5 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
6 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
7 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
8 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
10 王星;谢邦昌;戴稳胜;;数据挖掘在保险业中的应用[A];北京市第十二次统计科学讨论会论文选编[C];2003年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
中国博士学位论文全文数据库 前10条
1 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
2 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
3 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
4 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
5 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
6 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
7 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
8 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
9 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年
10 余红;网络时政论坛舆论领袖研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 吴海红;基于Web日志的数据挖掘[D];武汉科技大学;2003年
2 王春霞;基于WEB日志的数据挖掘[D];郑州大学;2003年
3 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
4 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
5 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
6 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
7 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
8 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
9 王浩;数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究[D];华东理工大学;2012年
10 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026