基于特征分析的金融时间序列挖掘若干关键问题研究
【摘要】:随着金融行业的竞争日益激烈,分析决策对数据的依赖性和敏感度也越来越高。在此背景下,许多金融机构开始运用更先进的信息技术与智能决策支持技术,对业务系统中积累的海量数据进行深入的分析,以发现有价值的各种规律。作为一种新兴的智能决策支持技术,数据挖掘逐步在金融行业中得到应用。
在金融领域,时间序列数据是一类重要的数据类型,对时间序列的挖掘是金融数据挖掘的一个重要内容。本文在分析金融时间序列特征与实际应用需求的基础上,针对金融时间序列挖掘的若干关键问题进行了研究,这些问题的研究对于金融领域的趋势分析与趋势预测、数据的精确建模、风险分析以及投资组合研究等方面有着重要的意义。总的说来,本文的主要研究成果包括:
(1)针对金融时间序列的趋势性和趋势变动性,提出了一种基于回归系数的时间序列维约简与相似性查找方法。本文首先证明了对于任意长度的时间序列,可以仅使用常数存储空间、在线性时间内递推计算其回归系数。在此基础上提出了一种基于回归系数的时间序列维约简方法——逐段回归近似(PRA),该方法具有线性时间复杂度,并且对均值平稳的独立噪声干扰不敏感。同时本文证明了使用PRA方法进行相似性查找满足下界定理(也称为收缩性),因而是有效的。对实际数据的实验结果表明,使用PRA方法,可以对金融时间序列进行基于趋势与趋势变动的相似性查找,这一点在外汇、期货市场的数据分析中尤为重要。
(2)针对金融时间序列的自相关特征以及底层生成机制的动态变化特征,提出了一种基于ARMA模型的联机时间序列分割算法。根据ARMA模型的最小方差预测特性,首先提出了一种用于度量当前ARMA模型是否适合描述后续数掘的指标——适合度。在此基础上,提出了一种基于ARMA模型的联机时间序列分割算法,算法通过计算模型对后续数据段的适合度,判断当前模型是否适合继续描述后续数据,从而对模型进行动态调整,或者对序列进行分割并逐段建立ARMA模型。实验结果表明,对跨越较长时期的金融时间序列逐段建立ARMA模型,不仅能够用于分析数据的底层生成机制与自相关特征的变化情况,并且能对序列进行更精确的建模。
(3)基于金融时间序列的自相似性与波动聚集性,提出了一种新的波动聚集性模型——基于自相似的波动聚集模型,用于研究在不同时段,序列波动的自相似特征。为了研究该模型,提出了一种新的基于线性回归模型的联机时间序列分割算法,与以往基于拟合误差的分割算法不同,该算法根据序列的拟合