收藏本站
《中国科学技术大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

云计算技术在web日志挖掘中的应用研究

程苗  
【摘要】:如何解决数据挖掘中海量数据处理的问题一直是数据挖掘领域一个非常重要的研究课题。尤其是随着网络技术的迅猛发展,web上的数据正以指数级形式飞速增长,且web上的数据具有海量、多样、异构、动态变化等特点,这使得基于单一节点的集中式数据挖掘平台已经不能满足目前海量数据网络的分析任务了。如何实现快速地从web这个最大的数据集合中提取出有用的信息已成为数据挖掘领域一个备受国内外学者关注的课题。 云计算正是产生于这样的背景之下,它的出现给海量数据的处理和存储带来了曙光。同时,云计算只需要部署在普通的廉价计算机集群上即可运行,但是数据处理能力却很强,因此Web数据挖掘系统在云计算集群框架下的成功实行具有很重要的意义和应用价值。 本文在Hadoop平台上,结合web日志挖掘的特点,给出了一种基于云计算的web日志挖掘系统的设计方案,并对该系统的各个功能模块进行了详细的阐述。同时,针对目前从web日志中挖掘用户偏爱路径的算法注重客观访问频度,而忽略用户对这一频繁访问路径是否感兴趣的不足,结合网站拓扑结构图修正基于频度的用户偏爱路径的衡量标准,提出了有用偏爱度的概念,给出了一个挖掘用户浏览偏爱路径的方法,从而剔除了由于页面放置和链接等因素对挖掘的影响。 最后对本文给出的改进算法的有效性以及云计算平台的高效性进行了实验比较分析。实验结果表明,改进后的挖掘用户偏爱浏览路径的算法更能反映用户的浏览意图。同时,利用云计算平台,通过“云”中多个资源完成原先由一个节点承担的工作,无论是在数据处理还是任务执行上,其效率都高于基于单机集中式环境的web日志挖掘。
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP311.13

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 魏清凤;罗长寿;孙素芬;张峻峰;;云计算在我国农业信息服务中的研究现状与思考[J];中国农业科技导报;2013年04期
中国博士学位论文全文数据库 前1条
1 霍旭光;基于云计算的大规模地形数据处理方法的研究[D];中国地质大学(北京);2013年
中国硕士学位论文全文数据库 前8条
1 周姚;基于云计算的文本挖掘技术研究[D];国防科学技术大学;2011年
2 张玄;基于云计算的软件资源服务平台研究[D];东华大学;2012年
3 艾明;面向海量数据的云存储系统实现与应用研究[D];南京理工大学;2012年
4 徐娟娟;基于NoSQL的Web日志分析系统的设计[D];安徽理工大学;2012年
5 陶礼亮;基于云计算的BI处理技术研究[D];吉林大学;2013年
6 薛良飞;云计算在新型信息化系统中的综合研究[D];山东大学;2013年
7 高子喆;基于云计算的并行FFT算法及其在高铁数据中的应用研究[D];西南交通大学;2013年
8 曹旭;Hadoop平台下海量日志数据处理模型的研究及改进[D];浙江理工大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 齐玉成;郑丽英;高三营;;基于网格的数据挖掘算法[J];电脑知识与技术;2010年04期
2 刘华元;袁琴琴;王保保;;并行数据挖掘算法综述[J];电子科技;2006年01期
3 李颖基,彭宏,郑启伦,曾炜;Web日志中有趣关联规则的发现[J];计算机研究与发展;2003年03期
4 周斌,吴泉源,高洪奎;用户访问模式数据挖掘的模型与算法研究[J];计算机研究与发展;1999年07期
5 任永功;付玉;张亮;吕君义;;一种新的基于Web日志的挖掘用户浏览偏爱路径的方法[J];计算机科学;2008年10期
6 刘业政,李亚飞,杨善林;电子商务环境下基于移动Agent的Web数据挖掘[J];计算机工程;2004年20期
7 任永功;付玉;张亮;;一种改进的用户浏览偏爱路径挖掘方法[J];计算机工程;2009年08期
8 郭本俊;王鹏;陈高云;黄健;;基于MPI的云计算模型[J];计算机工程;2009年24期
9 邢东山,沈钧毅,宋擒豹;从Web日志中挖掘用户浏览偏爱路径[J];计算机学报;2003年11期
10 唐卫宁,耿国华;电子商务中基于CORBA的Web数据挖掘研究[J];计算机应用研究;2002年07期
中国硕士学位论文全文数据库 前7条
1 万至臻;基于MapReduce模型的并行计算平台的设计与实现[D];浙江大学;2008年
2 任晓霞;一种WEB日志数据挖掘系统的设计与实现[D];北京邮电大学;2008年
3 纪俊;一种基于云计算的数据挖掘平台架构设计与实现[D];青岛大学;2009年
4 徐超;云计算技术在中国农村信息化建设中的应用[D];山东大学;2010年
5 高勋;基于云计算的Web结构挖掘算法研究[D];北京交通大学;2010年
6 李雪锋;基于云计算环境的web数据挖掘算法研究[D];北京交通大学;2010年
7 李军华;云计算及若干数据挖掘算法的MapReduce化研究[D];电子科技大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 李珺;;基于Hadoop云计算模型探究[J];信息安全与技术;2011年06期
2 廖亚莉,王锡钢,战学刚;基于关联规则的网站个性化服务[J];鞍山科技大学学报;2004年06期
3 张勉;基于隐马尔可夫模型的用户兴趣漂移模式发现方法[J];北京建筑工程学院学报;2005年03期
4 秦永波;陈杨林;;基于云平台的物联网数据挖掘算法的能量分析[J];成都信息工程学院学报;2010年06期
5 张雪英;朱少楠;徐希涛;;基于Neogeography的中文地名词典维护和服务机制[J];测绘通报;2012年01期
6 吕佳;;Web日志挖掘技术应用研究[J];重庆师范大学学报(自然科学版);2006年04期
7 康中尉,罗飞路,潘孟春,陈棣湘;基于数据挖掘技术的网络化无损检测系统(英文)[J];测试技术学报;2004年03期
8 卢咏;卢云;;基于WEB日志挖掘的旅游信息资源网站个性化研究[J];长沙铁道学院学报(社会科学版);2007年04期
9 杨振东;郑冀;刘光霆;;云计算在军事后勤领域的应用研究[J];中国储运;2011年08期
10 赵文忠;张长利;房俊龙;;Web日志挖掘在农业网站的应用[J];东北农业大学学报;2010年08期
中国重要会议论文全文数据库 前8条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 耿涛;;Web日志分析在电子数据取证中的应用[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
3 安伦;周斌;贾焰;;在线Web挖掘中的计算资源动态平衡[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 岑琴;赵建民;朱信忠;;基于Multi-Agent与数据挖掘的电子商务系统[A];2006年全国理论计算机科学学术年会论文集[C];2006年
5 詹宇斌;殷建平;周文兰;;基于概率关联图挖掘Web日志中有趣关联规则[A];2006年全国理论计算机科学学术年会论文集[C];2006年
6 吴雯雯;王浩;杨静;;基于用户访问模式的个性化推荐算法研究[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
7 李宇飞;朱春鸽;刘欣然;徐倩华;;一种基于虚拟计算环境的业务承载节点架构[A];2010年全国通信安全学术会议论文集[C];2010年
8 朱湘;金松昌;贾焰;;一种基于Hadoop平台的海量Web数据挖掘系统研究与实现[A];第九届中国通信学会学术年会论文集[C];2012年
中国博士学位论文全文数据库 前10条
1 刘雪梅;服务器端软件性能分析和诊断方法研究[D];哈尔滨工程大学;2010年
2 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
3 王平平;缺血性中风不同时点神经功能缺损程度、证候特征与预后相关性的研究[D];北京中医药大学;2011年
4 罗建宏;粒计算分类知识发现算法及其应用[D];浙江大学;2010年
5 刘慧君;用户浏览模式挖掘方法与应用研究[D];重庆大学;2010年
6 方雷;基于云计算的土地资源服务高效处理平台关键技术探索与研究[D];浙江大学;2011年
7 陈燕;数据仓库的设计与实现[D];大连理工大学;2000年
8 刘君强;海量数据挖掘技术研究[D];浙江大学;2003年
9 陈莉;KDD中的几个关键问题研究[D];西安电子科技大学;2003年
10 郭秀娟;基于关联规则数据挖掘算法的研究[D];吉林大学;2004年
中国硕士学位论文全文数据库 前10条
1 蔡浩;基于Web使用挖掘的协同过滤推荐算法研究[D];浙江理工大学;2010年
2 刘建东;基于Web访问信息挖掘的数字图书馆个性化服务研究[D];浙江理工大学;2010年
3 吴贵鑫;云计算中的MapReduce并行编程模式研究[D];河南理工大学;2010年
4 周绪倩;基于电子商务的Web数据挖掘系统架构研究[D];河北工程大学;2010年
5 余璟飞;企业信息网用户决策支持系统设计[D];哈尔滨理工大学;2010年
6 胡清;基于云计算的券商网络营销服务平台研究与设计[D];南昌大学;2010年
7 程澄;一种舆情数据挖掘平台的研究[D];北京交通大学;2011年
8 相景丽;Web挖掘技术在远程教学系统中的应用[D];电子科技大学;2010年
9 徐海兰;Web日志挖掘技术在个性化信息推荐中的应用[D];延边大学;2009年
10 李婵;基于云计算的智能手机数据挖掘平台的架构和实现[D];武汉理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李光达;郑怀国;谭翠萍;邱琳;赵静娟;;基于云计算的农业信息服务研究[J];安徽农业科学;2011年27期
2 程承旗;宋树华;;全球空间信息GeoDNA编码模型及应用方法初探[J];北京大学学报(自然科学版)网络版(预印本);2009年01期
3 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
4 王宇,王乘,刘吉平;一种基于数学形态学的遥感图像边缘检测算法[J];重庆邮电学院学报(自然科学版);2003年02期
5 陈磊;王鹏;董静宜;任超;;基于云计算架构的分布式数据挖掘研究[J];成都信息工程学院学报;2010年06期
6 杨靖宇;张永生;于美娇;纪松;;基于小波变换多分辨率分析特性的遥感影像动态重构的金字塔模型[J];测绘科学;2007年05期
7 李德仁;肖志峰;朱欣焰;龚健雅;;空间信息多级网格的划分方法及编码研究[J];测绘学报;2006年01期
8 万元嵬;程承旗;宋树华;;大数据量遥感影像快速显示剖分组织方法研究[J];地理与地理信息科学;2009年03期
9 程承旗;张恩东;万元嵬;宋树华;;遥感影像剖分金字塔研究[J];地理与地理信息科学;2010年01期
10 王结臣;王豹;胡玮;张辉;;并行空间分析算法研究进展及评述[J];地理与地理信息科学;2011年06期
中国博士学位论文全文数据库 前10条
1 刘晓茜;云计算数据中心结构及其调度机制研究[D];中国科学技术大学;2011年
2 杨晓蓉;分布式农业科技信息共享关键技术研究与应用[D];中国农业科学院;2011年
3 方雷;基于云计算的土地资源服务高效处理平台关键技术探索与研究[D];浙江大学;2011年
4 邓雪清;栅格型空间数据服务体系结构与算法研究[D];中国人民解放军信息工程大学;2003年
5 邓水光;Web服务自动组合与形式化验证的研究[D];浙江大学;2007年
6 张丰;面向网格的海量时空数据访问、集成与互操作研究[D];浙江大学;2007年
7 刘扬;分布环境下的海量三维地形可视化关键技术研究[D];北京师范大学;2008年
8 赵春宇;高性能并行GIS中矢量空间数据存取与处理关键技术研究[D];武汉大学;2006年
9 许欢;面向服务的土地资源空间信息多级语义网格研究[D];浙江大学;2009年
10 王萍;网络环境下的领域知识挖掘[D];华东师范大学;2010年
中国硕士学位论文全文数据库 前10条
1 吴贵鑫;云计算中的MapReduce并行编程模式研究[D];河南理工大学;2010年
2 谢毅;海量遥感影像数据存储组织结构研究[D];河南大学;2011年
3 王静一;基于云计算技术的数字图书馆云服务平台架构研究[D];吉林大学;2011年
4 任豪栋;基于Web日志挖掘的原型系统研究与实现[D];西华大学;2011年
5 施岩;云计算研究及Hadoop应用程序的开发与测试[D];北京邮电大学;2011年
6 赵海舟;基于云计算平台的电信经营分析系统研究[D];北京邮电大学;2011年
7 骆明月;基于Map-Reduce分布式日志信息处理研究与实现[D];北京邮电大学;2011年
8 崔倩楠;基于云计算环境的虚拟化资源平台研究与评价[D];北京邮电大学;2011年
9 姜文;基于Hadoop平台的数据分析和应用[D];北京邮电大学;2011年
10 任萱萱;基于Hadoop平台的作业调度研究[D];天津师范大学;2011年
【二级引证文献】
中国期刊全文数据库 前2条
1 雒江涛;李晴川;;基于云存储的分组域监测系统[J];重庆邮电大学学报(自然科学版);2012年06期
2 吴珍珍;朱峰;;云计算在数字湖南建设中的应用研究[J];电子技术与软件工程;2013年23期
中国重要会议论文全文数据库 前1条
1 生昕格;;基于hadoop的交通云数据处理平台设计[A];第七届中国智能交通年会优秀论文集——智能交通应用[C];2012年
中国博士学位论文全文数据库 前1条
1 黄健;基于3D WebGIS技术的地质灾害监测预警研究[D];成都理工大学;2012年
中国硕士学位论文全文数据库 前9条
1 钱进进;私有云安全存储技术的研究与实现[D];广东工业大学;2013年
2 莫晓云;基于云计算的科普服务平台研究[D];广东技术师范学院;2013年
3 麦迪乃·热合木江;基于Hadoop的分布式Web文本检索系统的研究与开发[D];新疆大学;2013年
4 秦佳媚;空间天气海量数据可视化[D];中国地质大学(北京);2013年
5 张磊;基于云计算的网格化均值聚类算法的并行化研究[D];合肥工业大学;2013年
6 蔡官明;开放式云存储服务平台设计及移动云盘应用开发[D];华南理工大学;2013年
7 金鹏;基于Hadoop的SKNN文本分类算法的设计与实现[D];华中师范大学;2013年
8 吕波;辽宁网通宽带商务平台的设计与实现[D];大连理工大学;2013年
9 韩岩;基于.Net远程处理的电子病历系统[D];大连理工大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 温家宝;;让科技引领中国可持续发展[J];安庆科技;2009年04期
2 黎春兰;邓仲华;;论云计算的价值[J];图书与情报;2009年04期
3 ;中共中央国务院关于2009年促进农业稳定发展农民持续增收的若干意见[J];山西农业(村委主任);2009年02期
4 唐箭;;云存储系统的分析与应用研究[J];电脑知识与技术;2009年20期
5 ;中共中央国务院关于进一步加强农村工作提高农业综合生产能力若干政策的意见[J];湖南政报;2005年04期
6 ;中共中央国务院关于积极发展现代农业扎实推进社会主义新农村建设的若干意见[J];甘肃政报;2007年04期
7 ;中华人民共和国国民经济和社会发展第十一个五年规划纲要[J];环境保护;2006年06期
8 石军;;“感知中国”促进中国物联网加速发展[J];通信管理与技术;2009年05期
9 宋擒豹,沈钧毅;Web日志的高效多能挖掘算法[J];计算机研究与发展;2001年03期
10 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
中国硕士学位论文全文数据库 前6条
1 孙雪津;社会主义新农村信息化建设研究[D];西安理工大学;2007年
2 张静;软件即服务模型的研究与实现[D];南昌大学;2007年
3 付志超;基于Map/Reduce的分布式智能搜索引擎框架研究[D];武汉理工大学;2008年
4 赵春燕;云环境下作业调度算法研究与实现[D];北京交通大学;2009年
5 李志伟;虚拟机设备的高可用技术研究及应用[D];国防科学技术大学;2009年
6 邓自立;云计算中的网络拓扑设计和Hadoop平台研究[D];中国科学技术大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 桑军;李丽;;基于交友网站的日志挖掘和分析系统[J];数字技术与应用;2010年10期
2 陈秀菊;;基于Web日志挖掘技术的服务器数据预处理研究[J];重庆科技学院学报(自然科学版);2007年03期
3 周凤丽;程黎艳;;关联规则算法在Web个性化服务中的研究与应用[J];计算机时代;2008年10期
4 周凤丽;于海平;;改进的关联规则挖掘算法在Web个性化服务中的应用[J];计算机与数字工程;2011年05期
5 王涛伟;;基于Web日志的频繁访问页面挖掘研究[J];计算机系统应用;2006年10期
6 宁彬;;Web数据挖掘综述[J];华南金融电脑;2006年02期
7 李方敏;CGI的安全编程[J];计算机工程与应用;1999年06期
8 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期
9 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期
10 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期
中国重要会议论文全文数据库 前10条
1 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
3 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
4 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
8 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
10 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
2 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
3 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
4 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
5 黄雪娟;语义Web服务及其合成方法的研究[D];武汉大学;2009年
6 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
7 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
8 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
9 王秀峰;Web导航中用户认知特征及行为研究[D];南京大学;2013年
10 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
中国硕士学位论文全文数据库 前10条
1 程苗;云计算技术在web日志挖掘中的应用研究[D];中国科学技术大学;2011年
2 史振华;基于Web日志挖掘的网站优化技术与应用[D];武汉理工大学;2010年
3 刘宇婷;基于Web日志挖掘的个性化服务研究与应用[D];北京理工大学;2010年
4 杨鹏;Web日志挖掘数据预处理算法研究与实现[D];北京邮电大学;2011年
5 任豪栋;基于Web日志挖掘的原型系统研究与实现[D];西华大学;2011年
6 桂辉;WEB日志挖掘在网站推荐服务中的应用研究[D];华北电力大学(北京);2011年
7 孙赵平;基于关联规则的web日志挖掘应用研究[D];安徽大学;2010年
8 王靓明;融合多重模糊矩阵_SOFM的Web日志挖掘研究[D];南昌大学;2010年
9 徐海兰;Web日志挖掘技术在个性化信息推荐中的应用[D];延边大学;2009年
10 吴金桥;XML及关联规则在Web日志挖掘中的应用研究[D];东华大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026