动态数据中的数据挖掘研究
【摘要】:
本文针对时间序列的数据挖掘问题,研究了将时间序列转化为趋势序列,以及趋势序列中的数据挖掘问题。
文章主要涉及以下几方面的工作:
1)提出了趋势序列的定义,指出趋势序列从本质上而言是一种字符串,并且应能抽象而概括地表达时间序列中我们感兴趣的信息;
2)针对时间序列转化为趋势序列的问题,讨论了转化过程中使用的趋势变换的选取问题,给出了变换的代价函数,并结合转化后的趋势序列的游程压缩表达,给出了信息描述代价的概念。进一步地,我们利用信息描述代价来指导趋势变换的选取;
3)提出了趋势相似的定义。研究了趋势序列的全匹配问题。针对小趋势指标集、高相似度阈值与低频序列的情况,我们提出了趋势分布的概念,并利用这一概念,给出了一个利用趋势分布来过滤候选序列集的全匹配算法DistFil。与已有方法相比,取得了满意的效果;
4)研究了在长的搜索序列中寻找与待查询序列相似的子序列搜索问题。同样,我们利用趋势分布的概念,给出了一个递推式的搜索算法INDIC,以及一个变步长递增算法VISL。与已有方法相比,在小趋势指标集、高相似度阈值及低频序列的情况下,取得了满意的效果;
5)提出了挖掘趋势序列中的频繁子序列的问题,给出了一个递推式的挖掘算法INAMFT,取得了较好的效果;
6)探讨了利用趋势序列对时间序列进行分类的方法,并对利用聚类进行时间序列符号化的不同途径进行了一定的比较与说明;
7)在一个实际的数据库上进行了数据挖掘工作,对数据挖掘的实际应用进行了示范,并我们的工作结果进行了一定的应用和检验。