收藏本站
《浙江大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

动态数据中的数据挖掘研究

郭斯羽  
【摘要】: 本文针对时间序列的数据挖掘问题,研究了将时间序列转化为趋势序列,以及趋势序列中的数据挖掘问题。 文章主要涉及以下几方面的工作: 1)提出了趋势序列的定义,指出趋势序列从本质上而言是一种字符串,并且应能抽象而概括地表达时间序列中我们感兴趣的信息; 2)针对时间序列转化为趋势序列的问题,讨论了转化过程中使用的趋势变换的选取问题,给出了变换的代价函数,并结合转化后的趋势序列的游程压缩表达,给出了信息描述代价的概念。进一步地,我们利用信息描述代价来指导趋势变换的选取; 3)提出了趋势相似的定义。研究了趋势序列的全匹配问题。针对小趋势指标集、高相似度阈值与低频序列的情况,我们提出了趋势分布的概念,并利用这一概念,给出了一个利用趋势分布来过滤候选序列集的全匹配算法DistFil。与已有方法相比,取得了满意的效果; 4)研究了在长的搜索序列中寻找与待查询序列相似的子序列搜索问题。同样,我们利用趋势分布的概念,给出了一个递推式的搜索算法INDIC,以及一个变步长递增算法VISL。与已有方法相比,在小趋势指标集、高相似度阈值及低频序列的情况下,取得了满意的效果; 5)提出了挖掘趋势序列中的频繁子序列的问题,给出了一个递推式的挖掘算法INAMFT,取得了较好的效果; 6)探讨了利用趋势序列对时间序列进行分类的方法,并对利用聚类进行时间序列符号化的不同途径进行了一定的比较与说明; 7)在一个实际的数据库上进行了数据挖掘工作,对数据挖掘的实际应用进行了示范,并我们的工作结果进行了一定的应用和检验。
【关键词】:数据挖掘 时间序列 趋势序列 序列相似性查询
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2002
【分类号】:TP311.12
【目录】:
  • 中文摘要8-9
  • 英文摘要9-10
  • 第一章 绪论10-34
  • 1.1 数据挖掘的起因10-11
  • 1.2 数据挖掘的定义11-12
  • 1.3 数据挖掘的功能及主要方法12-22
  • 1.3.1 概念/类描述:特征化和区分13-15
  • 1.3.2 大型数据库中关联规则的挖掘15-17
  • 1.3.3 分类和预测17-19
  • 1.3.4 聚类分析19-21
  • 1.3.5 复杂类型数据的挖掘21-22
  • 1.4 时间序列中的数据挖掘22-28
  • 1.4.1 相似序列的查询问题22-27
  • 1.4.2 时间序列中的知识发现27-28
  • 1.4.3 时间序列的符号化28
  • 1.5 近似字符串匹配28-29
  • 1.6 数据挖掘的应用与发展趋势29-30
  • 1.7 论文的研究目的与结构30-32
  • 1.8 小结32-34
  • 第二章 趋势序列的获取34-46
  • 2.1 趋势及趋势序列的定义34-36
  • 2.2 趋势序列的压缩36-37
  • 2.3 趋势变换的选取37-38
  • 2.4 本文中使用的获取趋势序列的方法38-45
  • 2.4.1 RAWK数据库39-41
  • 2.4.2 SINT数据库41-45
  • 2.5 小结45-46
  • 第三章 趋势序列的全匹配问题46-60
  • 3.1 等长趋势序列的全匹配问题的提出46-47
  • 3.2 简单的顺序搜索方法47-49
  • 3.3 利用前缀树来搜索相似序列49-52
  • 3.4 利用趋势分布来搜索相似序列52-55
  • 3.5 仿真实验及讨论55-59
  • 3.6 小结59-60
  • 第四章 趋势序列中相似子序列的搜索60-70
  • 4.1 搜索相似子序列问题的提出60-61
  • 4.2 利用逆向链表搜索相似子序列61
  • 4.3 利用前缀树搜索相似子序列61-62
  • 4.4 利用趋势分布搜索相似子序列62-66
  • 4.5 仿真实验及讨论66-69
  • 4.6 小结69-70
  • 第五章 频繁子序列的挖掘70-80
  • 5.1 挖掘频繁子序列问题的提出70-71
  • 5.2 利用逆向链表来挖掘频繁子序列71-72
  • 5.3 一种递增式频繁子序列挖掘算法72-76
  • 5.4 仿真实验及讨论76-78
  • 5.5 小结78-80
  • 第六章 利用趋势序列进行时间序列的分类80-92
  • 6.1 时间序列分类问题的提出80
  • 6.2 通过分段聚类进行时间序列符号化并分类80-83
  • 6.3 通过趋势序列进行分类83-88
  • 6.4 仿真实验与讨论88-89
  • 6.5 小结89-92
  • 第七章 数据挖掘在实际数据库上的应用示例92-104
  • 7.1 实验数据库介绍92-95
  • 7.2 利用趋势相似寻找变量间的简单关系95-96
  • 7.3 关联规则的挖掘96-99
  • 7.4 对于例外情况的关联规则挖掘99-101
  • 7.5 频繁子趋势的挖掘101-103
  • 7.6 小结103-104
  • 第八章 总结与展望104-106
  • 8.1 工作总结104-105
  • 8.2 未来工作展望105-106
  • 参考文献106-119

【相似文献】
中国期刊全文数据库 前10条
1 王艳;;数据隐私保护技术综述[J];知识经济;2011年14期
2 杜垒;王飞;;数据挖掘在学生管理中的应用[J];科技信息;2011年18期
3 胡锟;杨路明;;浅谈移动CRM客户价值细分[J];电脑知识与技术;2011年13期
4 李想;;PLE编码在关联数据挖掘中的应用[J];电脑知识与技术;2011年15期
5 张博;张超伟;;中药方剂数据挖掘中的数据预处理研究[J];电脑知识与技术;2011年17期
6 杜英;;关联规则挖掘研究[J];知识经济;2011年14期
7 李炳燃;张金哲;;数据挖掘在设备故障诊断专家系统知识获取中的应用[J];科技信息;2011年20期
8 李丹实;;使用SQL Server2005构建数据挖掘应用程序[J];煤炭技术;2011年07期
9 张红艳;都娟;;关联规则中Apriori算法的应用[J];数字技术与应用;2011年08期
10 吴旭东;柳炳祥;;聚类分析在高校图书馆管理中的应用[J];电脑开发与应用;2011年09期
中国重要会议论文全文数据库 前10条
1 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
2 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
5 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
6 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
7 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
9 王星;谢邦昌;戴稳胜;;数据挖掘在保险业中的应用[A];北京市第十二次统计科学讨论会论文选编[C];2003年
10 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病阴阳类证辨证规范的数据挖掘研究[A];2010中国医师协会中西医结合医师大会摘要集[C];2010年
中国重要报纸全文数据库 前10条
1 早报记者 胡孝敏;跨国企业掘金中国“数据挖掘”市场[N];东方早报;2005年
2 吴勇毅;软件选型:数据挖掘是重点[N];中国冶金报;2009年
3 刘光强;靠数据挖掘抓住客户的心[N];中国计算机报;2009年
4 本报记者 郭白岩;大众点评网向数据挖掘要收益[N];中国经营报;2011年
5 赵骏飞;数据挖掘在金融行业的应用[N];中国保险报;2011年
6 本报记者 黎宇文;博时基金王德英: 数据挖掘促进基金精细化管理[N];中国证券报;2011年
7 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
8 吴辅世;打破数据挖掘的5个神话[N];中国计算机报;2003年
9 ;数据挖掘:如何挖出效益?[N];中国计算机报;2004年
10 ;数据挖掘流程[N];人民邮电;2001年
中国博士学位论文全文数据库 前10条
1 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
2 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
3 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
4 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
5 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
6 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
7 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
8 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
9 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年
10 余红;网络时政论坛舆论领袖研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 吾喻明;水文时间序列趋势分析的研究与应用[D];河海大学;2007年
2 孙小林;金融数据挖掘中的增量聚类算法及应用研究[D];华中科技大学;2004年
3 马丽娜;基于Web的数据挖掘技术研究[D];山东师范大学;2002年
4 赵彩云;数据挖掘在外贸业务分析决策系统中的应用研究[D];北京工业大学;2003年
5 王景;基于关联规则数据挖掘的研究[D];广西大学;2003年
6 高延铭;数据挖掘在通信行业CRM中的应用研究[D];中国海洋大学;2003年
7 刘玉锋;数据挖掘中关联规则算法的研究与应用[D];长春理工大学;2010年
8 张吉楠;机场预报预测系统的相关技术研究[D];河南大学;2010年
9 周绪倩;基于电子商务的Web数据挖掘系统架构研究[D];河北工程大学;2010年
10 高伟华;基于BP神经网络的WEB数据挖掘[D];中南民族大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026