收藏本站
《扬州大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

分布式序列模式挖掘算法研究

张长海  
【摘要】: 目前信息主导的时代,海量数据存储在数据库或者数据仓库中。面对这种“信息爆炸”的现实,如何从海量数据中提取有价值的信息已显得尤为重要。数据挖掘技术的出现和发展为人们解决了这一难题。所谓数据挖掘技术是利用各种分析工具从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取潜在有用的信息和知识的过程。 在本文中,我们对序列模式挖掘技术做了深入研究。序列模式挖掘是数据挖掘研究的一个重要课题,挖掘基于时间或者其他顺序出现频率高的模式,是对关联规则挖掘的进一步推广,但克服了关联规则中不能反映事件在时间顺序上的前后相关性。序列模式挖掘技术已在顾客购买行为的分析、网络访问模式分析、科学实验的分析、疾病治疗的早期诊断、自然灾害的预测、DNA序列模式的分析等方面广泛应用。 在研究现有的单机和分布式序列模式挖掘算法的基础上,本文围绕着单机下基于位图序列模式挖掘、分布式序列模式挖掘以及分布式多维序列模式的近似挖掘等几方面做了深入研究,主要创新点如下: 1)基于传统序列模式挖掘方法不能有效地解决候选序列费时难题,本文提出一种基于位图的序列模式挖掘方法SMBR(sequential patterns mining based onbitmap representation)。SMBR算法采用一种简化的位图表示结构表示数据库的方法。该方法首先由序列扩展和项扩展产生候选序列,然后通过原序列位图和被扩展项位图位置快速运算生成频繁序列,有效地获得序列模式。 2)由于分布式环境下挖掘全局序列模式常常产生过多候选序列,加大了网络通信代价。为此提出一种基于分布式环境下的挖掘全局序列模式算法-FMGSP(fastmining of global sequential pattern)。FMGSP算法将各站点得到的局部序列模式压缩到一种语法序列树上,避免了重复的序列前缀传输;基于合并树中结点序列规则、简单的特点,提出一种I/S-E(Item Extension and Sequence Extension)剪枝策略,有效地约减了候选序列,减少了网络传输量,从而快速生成全局序列模式。 3)提出一种多维序列模式近似挖掘算法AMSP(Approximate Mining of GlobalMultidimensional Sequential Patterns),以解决分布式环境中大型数据库中多维序列模式挖掘问题。该方法不同于传统的分布式多维序列模式挖掘方法,具备较好的伸缩性。首先将维度信息嵌入相应序列中,使多维序列模式挖掘转化为序列模式挖掘;然后在各分站点对转换后序列聚类、概化和分析,采用有效的近似挖掘方法获得局部模式;最后集中所有局部模式,通过高频度序列模式模型挖掘全局多维序列模式,有效地解决通信代价大、维度高等难题。
【学位授予单位】:扬州大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前8条
1 陆介平,刘月波,倪巍伟,刘同明,孙志挥;基于PrefixSpan的快速交互序列模式挖掘算法[J];东南大学学报(自然科学版);2005年05期
2 杨明,孙志挥,吉根林;快速挖掘全局频繁项目集[J];计算机研究与发展;2003年04期
3 宋世杰;胡华平;周嘉伟;金士尧;;一种基于大项集重用的序列模式挖掘算法[J];计算机研究与发展;2006年01期
4 金阳;左万利;;多维概念格与多维序列模式的增量挖掘[J];计算机研究与发展;2007年11期
5 程银波;任家东;司菁菁;;基于H-tree的多维序列模式挖掘算法[J];计算机工程与应用;2006年06期
6 胡孔法;张长海;陈崚;宋爱波;达庆利;;分布式环境下全局序列模式挖掘技术研究[J];计算机集成制造系统;2007年11期
7 邹翔,张巍,刘洋,蔡庆生;分布式序列模式发现算法的研究[J];软件学报;2005年07期
8 张长海;胡孔法;陈凌;;序列模式挖掘算法综述[J];扬州大学学报(自然科学版);2007年01期
【共引文献】
中国期刊全文数据库 前10条
1 杨明,杨萍;一种基于前缀广义表的快速间接关联挖掘算法[J];安徽工程科技学院学报(自然科学版);2004年04期
2 吴蓓;;数据库系统的建立方法和参考模型[J];信息安全与技术;2011年10期
3 王永飞;;数据仓库系统中索引法压缩基量数据技术[J];安庆师范学院学报(自然科学版);2006年01期
4 李爱玲,沈宪章,李豫州;数据挖掘在财务预测中的应用[J];安阳师范学院学报;2005年02期
5 马帅,唐世渭,杨冬青,王腾蛟,高军;移动环境中的最大移动序列模式挖掘(英文)[J];北京大学学报(自然科学版);2004年03期
6 郑根让;陕西省人民医院HIS系统索引优化的设计与实现[J];宝鸡文理学院学报(自然科学版);2005年03期
7 刘祖兴,汪林林;iLogic业务协作平台在电信中的解决方案[J];重庆邮电学院学报(自然科学版);2003年03期
8 肖蓉,李旭伟,朱宏;IP网管数据挖掘系统的分析与设计[J];成都信息工程学院学报;2004年02期
9 王旭旭;;浅析农业语音服务电话关键实现技术[J];河北旅游职业学院学报;2011年03期
10 秦晓薇;刘燕;;序列模式挖掘算法的分析[J];赤峰学院学报(自然科学版);2012年01期
中国重要会议论文全文数据库 前10条
1 姚伟力;王锡禄;宋俊德;;基于序列模式挖掘的告警相关性分析算法[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
2 樊世燕;彭玉清;贾莲;;关于广播收听调查领域中数据处理问题的研究[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 ;Research of Log Analysis based on an Improvement Mining Seq uential Pattern[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
4 钱庆生;魏雪松;赵霁;;ERP系统中物料库存管理系统的实现与研究[A];先进制造技术论坛暨第二届制造业自动化与信息化技术交流会论文集[C];2003年
5 张秋彤;;数据挖掘与高校图书馆个性化信息服务[A];第九届中国不确定系统年会、第五届中国智能计算大会、第十三届中国青年信息与管理学者大会论文集[C];2011年
6 金妮;;一种基于数据仓库和OLAP技术的聚类挖掘系统[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
7 王丹阳;田卫东;胡学钢;;基于SMP系统的并行Apriori算法研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
8 潘国林;杨帆;;数据挖掘算法在保险客户分析中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
9 徐仁干;吴共庆;李海光;胡学钢;吴信东;;基于Web的频繁分子结构挖掘系统[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
10 单莘;;一种网络告警的增量式情景规则挖掘方法[A];中国通信学会第五届学术年会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 李彤岩;基于数据挖掘的通信网告警相关性分析研究[D];电子科技大学;2010年
2 程文聪;面向大规模网络安全态势分析的时序数据挖掘关键技术研究[D];国防科学技术大学;2010年
3 叶红云;面向金融营销问题的个性化推荐方法研究[D];合肥工业大学;2011年
4 朱辉生;基于情节规则匹配的数据流预测研究[D];复旦大学;2011年
5 林冠洲;网络流量识别关键技术研究[D];北京邮电大学;2011年
6 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
7 周明;基于数据挖掘的制造业采购DSS理论及方法研究[D];天津大学;2009年
8 刘维;生物序列模式挖掘与识别算法的研究[D];南京航空航天大学;2010年
9 杨钤雯;序列模式挖掘方法及Web使用挖掘研究[D];天津大学;2010年
10 李海波;频繁子结构挖掘算法研究与应用[D];华中科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 张成雷;地层三维建模空间数据组织与查询优化[D];山东科技大学;2010年
2 韩冬振;远程诊断中心的设计与实现[D];郑州大学;2010年
3 史文财;省级政务网安全检测系统的设计与实现[D];哈尔滨工程大学;2010年
4 徐艳红;基于倾斜时间窗口的频繁项集挖掘算法研究[D];哈尔滨工程大学;2010年
5 刘洁;基于关联挖掘的深层网络接口模式匹配方法的研究[D];哈尔滨工程大学;2010年
6 侯宗仁;TD-SCDMA网络性能分析系统的设计与实现[D];大连理工大学;2010年
7 任芳;时间序列数据挖掘研究[D];辽宁师范大学;2010年
8 肖晴;基于数据仓库的高速公路信息管理系统的研究[D];长沙理工大学;2010年
9 崔山;网络会议平台数据分析系统的设计与实现[D];苏州大学;2010年
10 刘斌;基于数据挖掘的高校图书馆借阅数据特性分析与应用[D];苏州大学;2010年
【二级参考文献】
中国期刊全文数据库 前9条
1 陆介平,刘月波,倪巍伟,刘同明,孙志挥;基于PrefixSpan的快速交互序列模式挖掘算法[J];东南大学学报(自然科学版);2005年05期
2 谢志鹏,刘宗田;概念格与关联规则发现[J];计算机研究与发展;2000年12期
3 杨明,孙志挥,吉根林;快速挖掘全局频繁项目集[J];计算机研究与发展;2003年04期
4 金阳,左万利;有序概念格与WWW用户访问模式的增量挖掘[J];计算机研究与发展;2003年05期
5 宋世杰;胡华平;周嘉伟;金士尧;;一种基于大项集重用的序列模式挖掘算法[J];计算机研究与发展;2006年01期
6 邹翔,张巍,蔡庆生,王清毅;大型数据库中的高效序列模式增量式更新算法[J];南京大学学报(自然科学版);2003年02期
7 路松峰,卢正鼎;快速开采最大频繁项目集[J];软件学报;2001年02期
8 陆介平,杨明,孙志挥,鞠时光;快速挖掘全局最大频繁项目集[J];软件学报;2005年04期
9 邹翔,张巍,刘洋,蔡庆生;分布式序列模式发现算法的研究[J];软件学报;2005年07期
【相似文献】
中国期刊全文数据库 前10条
1 孙京兰;;OLAP技术及数据挖掘 技术[J];中文信息;2003年04期
2 冯进;利用数据挖掘技术 深入挖掘图书馆工作[J];现代情报;2005年03期
3 王小燕;数据挖掘技术在超市中的应用研究[J];商场现代化;2005年05期
4 方忠祥,屠立;数据挖掘技术在客户关系管理中的应用研究[J];机床与液压;2005年06期
5 龙腾芳;数据挖掘技术在农业领域中的应用研究[J];微计算机信息;2005年08期
6 周勇;数据挖掘技术发展综述[J];中国科技信息;2005年16期
7 徐守军,高波,甄蓓,彭奕,王东根,王玉民,吴乐山;数据挖掘技术在科研管理中应用前景初探[J];中华医学科研管理杂志;2005年04期
8 张特来,刘万军;数据挖掘在医学领域的应用研究[J];自动化技术与应用;2005年10期
9 杨小云;;数据挖掘在图书馆中的应用[J];渭南师范学院学报;2005年S2期
10 刘蓉;陈晓红;;利用数据挖掘技术 提高电信企业管理决策水平[J];计算机应用与软件;2005年12期
中国重要会议论文全文数据库 前10条
1 马洪杰;曲晓飞;;数据挖掘技术和过程的特点[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
2 戈欣;吴晓芬;许建荣;;数据挖掘技术在放射科医疗管理中的潜在作用[A];2009中华医学会影像技术分会第十七次全国学术大会论文集[C];2009年
3 魏元珍;杨沂凤;;数据挖掘技术及其在数字图书馆中的应用[A];网络信息资源的搜集与应用——全国高校社科信息资料研究会第十次年会论文集[C];2004年
4 肖健;沈彩霞;;浅谈数据挖掘技术现状[A];广西计算机学会2008年年会论文集[C];2008年
5 巩耀亮;邱晓东;孙丽君;李树强;;数据挖掘技术在企业竞争情报系统中的应用研究[A];信息时代——科技情报研究学术论文集(第三辑)[C];2008年
6 王洪锋;;数据挖掘在客户关系管理中的应用研究[A];河南省通信学会2005年学术年会论文集[C];2005年
7 姚小磊;彭清华;;数据挖掘技术在中医眼科应用的设想[A];中华中医药学会第七次眼科学术交流会论文汇编[C];2008年
8 张婧;;数据挖掘技术在进销存系统中的应用[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
9 杨利军;勾学荣;;数据挖掘在移动客户流失预测中的研究和应用[A];2008年中国高校通信类院系学术研讨会论文集(上册)[C];2009年
10 孙义明;曾继东;;数据挖掘技术及其应用[A];全国计算机安全学术交流会论文集(第二十二卷)[C];2007年
中国重要报纸全文数据库 前10条
1 陈晓 山西财经大学教师;数据挖掘技术在高校教学管理中的应用[N];山西经济日报;2010年
2 记者 吕贤如;大力加强数据挖掘技术研究应用[N];光明日报;2006年
3 主持人 李禾;数据挖掘技术如何驱动经济车轮[N];科技日报;2007年
4 首之;数据挖掘并不神秘[N];金融时报;2006年
5 刘红岩、何军;利用数据挖掘技术获得商业智能[N];中国计算机报;2003年
6 ;IBM公司推出新型数据挖掘技术[N];中国高新技术产业导报;2001年
7 徐扬;如何从数据中“挤出”效益[N];中国计算机报;2002年
8 山西银行学校 王林芳;数据挖掘在银行业务中的应用[N];山西科技报;2005年
9 任中华;财务数据挖掘六步走[N];中国计算机报;2007年
10 ;数据挖掘阻止银行客户流失[N];计算机世界;2007年
中国博士学位论文全文数据库 前10条
1 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年
2 庞淑英;三江并流带旅游地质景观数据挖掘及旅游价值评价研究[D];昆明理工大学;2008年
3 赵晨;过程控制中的数据挖掘技术研究及其智能控制策略探讨[D];浙江大学;2005年
4 高清东;复杂供矿条件矿山技术指标整体动态优化系统及应用[D];北京科技大学;2005年
5 李兴;高光谱数据库及数据挖掘研究[D];中国科学院研究生院(遥感应用研究所);2006年
6 王玉峰;变电站瞬态电磁环境及微机保护系统EMC研究[D];大连理工大学;2007年
7 潘海天;数据挖掘技术在聚合过程建模与控制的应用研究[D];浙江大学;2003年
8 程其云;基于数据挖掘的电力短期负荷预测模型及方法的研究[D];重庆大学;2004年
9 束志恒;化学化工数据挖掘技术的研究[D];浙江大学;2005年
10 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年
中国硕士学位论文全文数据库 前10条
1 张长海;分布式序列模式挖掘算法研究[D];扬州大学;2008年
2 樊世燕;多维序列模式挖掘算法在广播收听率分析中的研究与应用[D];河北工业大学;2007年
3 赵林明;基于数据仓库的信用卡数据挖掘研究[D];山东科技大学;2005年
4 陈骏武;基于数据挖掘技术的电信客户关系管理研究[D];湖南大学;2005年
5 房静;面向CRM的数据挖掘在电力市场营销中的应用[D];天津大学;2004年
6 罗国甫;数据挖掘在银行客户经理考核系统中的应用[D];同济大学;2006年
7 王鑫;数据挖掘中聚类分析算法的研究[D];山东师范大学;2006年
8 袁明;基于网格的数据挖掘应用研究[D];西安电子科技大学;2007年
9 左红武;基于数据挖掘的房地产企业客户关系管理研究[D];昆明理工大学;2006年
10 田静;数据挖掘技术在防范住房信贷风险中的应用[D];贵州大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026