收藏本站
《武汉理工大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web服务的分布式数据挖掘系统研究

范斌  
【摘要】: 与理论研究的空前繁荣相对比,数据挖掘在实际中的应用却比较冷淡。而在国内,很少听到有商家使用数据挖掘来辅助商业决策,这与数据挖掘在技术上的先进性形成了鲜明的对比。当然,作为新兴学科,理论应用于实践一定存在许多矛盾,其中的一些已经相当尖锐,现列举如下: 1.数据挖掘又称从数据库中发现知识,这里的数据库要求在规模、数量上达到一定标准。而国内企业的信息化尚处于起步发展阶段,所拥有的基本上是中小型数据库。在这些数据库上构建数据挖掘系统首先从经济上来讲并不划算,其次在这些数据库中挖掘出的规律、知识的可信度并不高。 2.随着Internet和Intranet技术在企业应用系统中的普及,以及ERP、CRM等商业应用系统的引入,激增了企业信息系统在功能划分、重用和集成的需求。这些需求导致企业的IT系统必须具备互相通信和相互合作的能力,即企业应用集成(EAI,Enterprise Application Integration)能力。目前,EAI正在从企业内部集成(A2A)向企业间集成(B2B)转化,这就为解决1中的矛盾提供了一个好的方案:通过企业间的挖掘信息共用,可以构建一个对每个单独企业而言廉价、可信度高的分布式数据挖掘系统。但这时新的问题又出现了:如何简单地统一不同企业的软件接口、系统构架及工具软件版本。 3.对于拥有分布式数据库的大型企业而言,2中所提到的问题都可以解决,因为企业所使用的IT系统可以事先制定统一的接口、架构、版本,一切问题似乎都解决了。但作为企业命脉的每个分布式业务数据库都会藏在层层代理、防火墙之后,数据挖掘需要执行所有数据库操作的权限。防火墙的规则随着网络的变动经常改变,如何让数据挖掘正常访问数据库就成了企业网络安全部门的头疼问题。 本文正是讨论了一个基于Web服务的分布式数据挖掘模型,这一模型构建了一个独立于企业的数据挖掘服务,基本上可以解决前面所探讨的几个问题。 本文首先给出了基于Web服务的数据挖掘系统结构,将Web服务这一最新的技术引入了数据挖掘。然后给出了基于Web服务的分布式数据挖掘系统结构,这一部分主要针对分布式挖掘环境,给出了一个用于关联规则挖掘的Apriori算法分布式实现,然后针对Internet环境给出了一个分布式Apriori算法的优化算法。本文第三部分详细分析了Web使用日志预处理的几个流程后,给出了一个统一、高效的算法。 文章的最后给出了一个基于Web服务的分布式数据挖掘系统原型,用来从多个电子商务网站的Web日志中挖掘用户的访问关联规则,从而证明了本文提出的系统结构具有较高的效率、可信度、可实施性和安全性。
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP393.09

【相似文献】
中国期刊全文数据库 前10条
1 李艳;;关联规则在吸毒人员动态管控中的应用[J];信息技术;2011年07期
2 禤世丽;杨秋叶;梁朝湘;;基于数组的Apriori算法的改进研究[J];计算机与数字工程;2011年08期
3 宫俊;董俊龙;梁茂新;唐加福;;基于关联规则的广义药对最适合病证的挖掘方法[J];东北大学学报(自然科学版);2011年08期
4 张士玉;郝旭光;;基于关联规则的调查问卷多项选择题分析[J];图书情报工作;2011年10期
5 李炳燃;张金哲;;数据挖掘在设备故障诊断专家系统知识获取中的应用[J];科技信息;2011年20期
6 赵晓岚;张招杰;;数字化图书馆个性化推荐研究与实例[J];科技情报开发与经济;2011年23期
7 万伟明;;用决策树方法挖掘寿险数据中的投资风险规则[J];科技创新导报;2011年23期
8 李玲俐;;数据挖掘中分类算法综述[J];重庆师范大学学报(自然科学版);2011年04期
9 卫剑;杨滋荣;;应用Benford法则和Apriori算法对海量数据的审计分析[J];中国管理信息化;2011年14期
10 武丽芬;吴华;;关联规则在学生成绩分析处理中的应用[J];晋中学院学报;2011年03期
中国重要会议论文全文数据库 前10条
1 王娜娜;谢炜;李烨;;邳州慢性病与生活习惯等因素的关联规则分析[A];中国生物医学工程学会成立30周年纪念大会暨2010中国生物医学工程学会学术大会壁报展示论文[C];2010年
2 邱勇;兰永杰;刘晓华;;高效FP-TREE创建算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 王寅北;夏庆;孙志挥;;FSETM:一种面向集合关联规则的数据挖掘新算法[A];第十五届全国数据库学术会议论文集[C];1998年
4 郭道宁;舒华英;;数据挖掘在电信运营市场决策支持中的应用[A];中国通信发展与经营管理学术研讨会论文集[C];2003年
5 李存荣;张开敏;杨明忠;;关联知识规则在产品质量控制中的应用[A];第二届全国信息获取与处理学术会议论文集[C];2004年
6 王翠茹;王少华;;关联规则经典算法的一种改进[A];中国通信学会第五届学术年会论文集[C];2008年
7 付忠广;田志友;靳涛;戈志华;卞双;;关联规则数据挖掘及其在电厂DCS数据分析中的应用[A];2004电站自动化信息化学术技术交流会议论文集[C];2004年
8 杨子良;陶宏才;;一种基于向量运算的频繁项集快速挖掘算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
9 王一飞;章勇;;基于条件模式的最大频繁项目集挖掘算法[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
10 浦磊;潘永湘;;一种自适应快速关联规则挖掘算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
中国重要报纸全文数据库 前10条
1 陈宇;数据挖掘:信息战场“淘金术”[N];中国国防报;2011年
2 王玮 蔡莲红;数据挖掘走入语音处理[N];计算机世界;2001年
3 潘总机;数据挖掘:洞察客户需求[N];人民邮电;2005年
4 早报记者 胡孝敏;跨国企业掘金中国“数据挖掘”市场[N];东方早报;2005年
5 吴勇毅;软件选型:数据挖掘是重点[N];中国冶金报;2009年
6 刘光强;靠数据挖掘抓住客户的心[N];中国计算机报;2009年
7 本报记者 郭白岩;大众点评网向数据挖掘要收益[N];中国经营报;2011年
8 赵骏飞;数据挖掘在金融行业的应用[N];中国保险报;2011年
9 本报记者 黎宇文;博时基金王德英: 数据挖掘促进基金精细化管理[N];中国证券报;2011年
10 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
中国博士学位论文全文数据库 前10条
1 王曙燕;医学图像智能分类算法研究[D];西北大学;2006年
2 佘春东;数据挖掘算法分析及其并行模式研究[D];电子科技大学;2004年
3 宋世杰;基于序列模式挖掘的误用入侵检测系统及其关键技术研究[D];国防科学技术大学;2005年
4 姜保庆;关于弱比例规则的挖掘及推理研究[D];西南交通大学;2005年
5 李实;中文网络客户评论中的产品特征挖掘方法研究[D];哈尔滨工业大学;2009年
6 牛成林;增量数据挖掘及其在电站运行优化中的理论研究及应用[D];华北电力大学(北京);2010年
7 李强;数据挖掘中关联分析算法研究[D];哈尔滨工程大学;2010年
8 邱桃荣;面向本体学习的粒计算方法研究[D];北京交通大学;2009年
9 刘杰;分布式资源环境下船舶动力设备诊断系统的关键技术研究[D];武汉理工大学;2010年
10 翟坤;基于数据挖掘的成本管理方法研究[D];大连理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 王景;基于关联规则数据挖掘的研究[D];广西大学;2003年
2 刘玉锋;数据挖掘中关联规则算法的研究与应用[D];长春理工大学;2010年
3 耿晓中;超市管理系统及数据挖掘技术在其上的应用[D];吉林大学;2004年
4 孙彤;活性炭纤维吸附和解吸中的数据挖掘技术[D];辽宁工程技术大学;2004年
5 蒋秀英;数据挖掘中的关联规则算法优化研究及应用[D];山东师范大学;2003年
6 吕文志;基于分类和关联规则的数据挖掘研究及应用[D];大连理工大学;2001年
7 浦磊;数据挖掘中关联规则的研究与应用[D];西安理工大学;2005年
8 谢李兵;基于关联规则的锅炉异常工况数据挖掘[D];华北电力大学(北京);2005年
9 汪洪涛;数据挖掘中关联规则算法研究[D];重庆大学;2003年
10 岳慧颖;含有时空约束的关联规则挖掘方法研究[D];哈尔滨工程大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026