收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

交易序列数据挖掘研究

汤春蕾  
【摘要】:交易序列数据描述的是在各类交易过程中商品或证券价格随时间的变化规律,分析这些数据能为商家或投资者制定营销策略或选择价值投资方法提供量化依据,由此交易序列数据挖掘技术成为当前研究和应用的热点。 交易序列数据挖掘的目的是识别商品或证券交易价格变化规律,主要任务有分类、聚类、关联分析和异常检测等,还可以进行各种扩展的数据分析与挖掘,如允许有时间间隔约束的关联规则、数据有缺失值存在的模式分析等。 目前,针对交易序列数据的大量研究使用的是其他序列数据挖掘与分析方法,比如将其离散时间的序元序看作连续的、使用时间序列结构化或非结构化模型与各种复杂算法相结合的方法,又如忽略其数值型序元值、使用特征构建成事件序列进行频繁模式挖掘方法;再如将其数值型的序元值进行字符表示、使用字符序列模式查找的方法。这些研究方法存在以下两方而问题:一方而,没有同时兼顾交易序列数据本身固有的离散时间序和数值型元素值两大特性;另一方而,没有利用可用的经济与金融领域知识。兼顾交易序列本身原有特性并有效找到各种符合领域意义的频繁相似模式,能使数据分析与挖掘结果更有效。 本文从交易序列基本模式出发,定义了5种交易序列原子模式(包括:趋平模式、头部模式、底部模式、增长模式和下降模式)及其关联关系,即交易序列复合模式,着重研究了交易序列模式挖掘、交易序列模式查询与预测和基于交易序列模式的聚类三方面问题,主要研究成果如下: (1)针对交易序列模式挖掘问题,在原子模式快速查找及其TOP K频繁项挖掘两个算法的基础上,提出了一种频繁的交易序列复合模式挖掘算法。 频繁的交易序列复合模式是由多种满足一定时间约束及其周期循环关系的交易原子模式频繁集组成的,在此项挖掘任务中,由于候选原子模式空间是呈指数级增长的,因而效率问题成为一个瓶颈。 首先,根据领域知识定义了5种交易序列原子模式,提出了一种伸缩距离函数的序列模式通用相似性度量及其趋势融合和对称使用距离函数的计算方法,将“缩放”相似的4种交易序列原子模式(除趋平模式)分别转化为相似性无向图进行谱聚类;然后,在以结果簇近似代替最大团的基础上,引入时间约束代替趋平模式找到由各种交易序列原子模式频繁集构成的频繁复合模式。在真实股票交易序列集上,采用多种相似性计算方法比较得到算法准确性,并且所求得的频繁复合模式有较好的应用解释。 (2)针对交易序列模式查询问题,提出了两种有效的相似性查询算法。 在现实应用中,交易序列有一种重要的相似性——“缩放”相似性,这是交易序列模式在时间维度上的“弹性”拉长或缩短但会保留在数值维度上整体变化趋势的一种相似性。因而如何定义合理的相似性度量来捕捉这种相似性是一个需要解决的重要问题。 针对序列间的细微变化,先对待查询的序列进行单调区间的“融合”处理,然后根据各区间的长度和幅度比例进行序列模式的候选产生,最后使用伸缩距离函数作为相似性度量进行计算并返回最后结果;针对交易序列的价格区间变化,先将所有序列进行规范化,在改进伸缩距离函数定义的基础上进行计算并得到查询结果。实验结果表明,“趋势融合”和“价格融合”两种相似性查询算法都能找到在总体形状上与给定序列模式“放大”或“缩小”的所有模式结果。 (3)针对交易序列预测问题,提出了一种有较高准确率的序列模式趋势预测算法。 预测是根据给定交易序列数据集,对给定待查序列的后续时间进行数值属性上的估计。由于数据变化的复杂性,在交易序列中进行趋势预测比精确预测更有意义,因而提高对给定序列趋势预测准确度成为预测问题的关键。 基于“价格融合”的相似性查询,本文使用Parzen窗密度和KNN的估计两种方法分别证明了将查询结果候选集的TOP k个结果的后续长度为τ的模式加权平均,能近似替代全部查询结果,进而综合出预测结果。在真实股票交易序列集上的实验结果表明,趋势预测有较高的准确率。 (4)针对交易序列聚类问题,提出了一种考虑时限约束目标函数的聚类算法。 交易序列进行聚类选择何种对象进行很关键。在一定时问范围内,总体呈增长或下降趋势更能反映商品或证券的价格规律,因而从原始的交易序列中提取了这种反映局部信息的增长或下降模式进行特征创建并进行聚类的意义大于直接使用原始交易序列。 首先,从商品或证券价格及其变化趋势等角度研究了交易序列集的内在结构,定义了一种反映价格变化趋势的增长或下降模式及其错位组合距离和角度向量距离两种递进的相似性度量,在此基础上,设计了一个考虑时限约束的目标函数进行先划分再层次合并的聚类研究。实验结果表明,在时限约束的条件下,增长或下降模式这种特征提取方式及其模式间的两种距离函数能较好地产生聚类结果,并且这些聚类结果能得到较好地解释。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 邹翔,张巍,蔡庆生,王清毅;大型数据库中的高效序列模式增量式更新算法[J];南京大学学报(自然科学版);2003年02期
2 吴卫华,袁宁;基于序列模式的关联规则Apriori算法的研究与优化[J];山东机械;2003年05期
3 宋世杰,胡华平,胡笑蕾;关联规则和序列模式算法在入侵检测系统中的应用[J];成都信息工程学院学报;2004年01期
4 杨学兵,刘胜军,蔡庆生;一种实时过程控制中的数据挖掘算法研究[J];计算机应用;1999年09期
5 胡笑蕾,胡华平,宋世杰;数据挖掘算法在入侵检测系统中的应用[J];计算机应用研究;2004年07期
6 张兵,聂永红,林士敏;NPSP:一种高效的序列模式增量挖掘算法[J];广西师范大学学报(自然科学版);2004年04期
7 龚惠群,黄超,彭江平;具有双时间维约束的股票序列模式挖掘[J];计算机工程;2003年20期
8 郭跃斌;翟延富;董祥军;;序列模式的关联规则在彩票分析中的应用研究[J];山东轻工业学院学报(自然科学版);2008年01期
9 周斌,吴泉源,高洪奎;序列模式挖掘的增量式算法的设计原则[J];计算机研究与发展;2000年10期
10 陈安,刘鲁,陈宁;多层次序列模式采掘算法及其在供需链管理中的应用[J];信息与控制;2000年06期
11 韩明涛;时间序列模式挖掘的算法研究[J];山东大学学报(工学版);2004年03期
12 张琪,黄厚宽;基于铁路客票分析的序列模式挖掘[J];铁路计算机应用;2004年07期
13 王红侠;胡学钢;;基于可信度约束的序列模式发现研究[J];淮北煤炭师范学院学报(自然科学版);2008年01期
14 孙贺全;彭勤科;张全伟;;基于序列模式特征和SVM的剪切位点预测[J];计算机工程;2009年05期
15 周斌,吴泉源;序列模式挖掘的一种渐进算法[J];计算机学报;1999年08期
16 宋世杰,胡华平,胡笑蕾,金士尧;数据挖掘技术在网络型异常入侵检测系统中的应用[J];计算机应用;2003年12期
17 孙晓冬;一种基于χ~2测试的序列模式挖掘算法[J];辽宁大学学报(自然科学版);2004年02期
18 贺桂娇;;一种改进的序列模式挖掘算法[J];电脑知识与技术;2008年S1期
19 陈金玉,樊兴华,曹长修;序列模式的一种挖掘算法[J];重庆大学学报(自然科学版);2001年01期
20 刘旭,祁之力,谭立刚;一种基于灰关联的序列模式挖掘算法[J];北京邮电大学学报;2003年03期
中国重要会议论文全文数据库 前10条
1 朱扬勇;郭德培;施伯乐;;数据库中序列模式的增量数据采矿技术[A];数据库研究进展97——第十四届全国数据库学术会议论文集(上)[C];1997年
2 童咏昕;张媛媛;袁玫;马世龙;于丹;赵莉;;一种挖掘压缩序列模式的有效算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
3 丁祥武;;序列模式的可信度[A];第十六届全国数据库学术会议论文集[C];1999年
4 周常恩;谢伙生;白清源;谢丽聪;张莹;;挖掘邻近序列模式的一个高效算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 张琪;朱秋云;朱绍文;姬朝阳;魏苑琦;陈亮;;对一种序列模式的增量式算法的改进[A];2005年中国智能自动化会议论文集[C];2005年
6 程银波;司菁菁;;带有间隔约束的序列模式挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
7 郝刚;袁永明;胡启明;;叶绿体trnL-F和核核糖体ITS序列数据揭示珍珠菜属(广义紫金牛科)为一并系群[A];中国植物学会七十周年年会论文摘要汇编(1933—2003)[C];2003年
8 赵桦;曲飞;;序列模式挖掘算法在Web挖掘上的应用[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
9 彭峰云;彭智勇;;基于数字指纹的大规模DNA序列索引的永存方法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 姚伟力;王锡禄;宋俊德;;基于序列模式挖掘的告警相关性分析算法[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 汤春蕾;交易序列数据挖掘研究[D];复旦大学;2011年
2 佘春东;数据挖掘算法分析及其并行模式研究[D];电子科技大学;2004年
3 张柱金;DNA序列二维可视化研究[D];华中科技大学;2011年
4 刘惠;蛋白质序列数据的分类预测研究[D];上海交通大学;2007年
5 徐敏;基于数据挖掘的Web信息检索研究[D];南京航空航天大学;2006年
6 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
7 佟强;科学数据网格中数据挖掘技术研究[D];中国科学院研究生院(计算技术研究所);2006年
8 牛蔚然;基于混沌分形理论的大型煤粉锅炉炉内压力非线性特性研究[D];山东大学;2009年
9 黄鑫;基于序列数据的太阳耀斑预报方法研究[D];哈尔滨工业大学;2010年
10 黄鑫;基于序列数据的太阳耀斑预报方法研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 陈鸣;序列数据多分类问题的研究与实现[D];复旦大学;2010年
2 杨天霞;基于序列模式的序列聚类挖掘算法研究[D];西北师范大学;2010年
3 聂成林;数据库中序列模式发现的研究[D];合肥工业大学;2003年
4 孟霞;泛在网络中情景感知业务的实现及用户移动序列模式研究[D];北京邮电大学;2010年
5 李明月;基于约束的闭序列模式挖掘算法的研究[D];燕山大学;2012年
6 苗东菁;不确定序列模式发现与查询算法的研究[D];哈尔滨工业大学;2011年
7 伯明超;基于序列模式的Web挖掘的研究[D];长春理工大学;2012年
8 王伟娜;基于投影位置的序列模式挖掘算法研究与应用[D];广西大学;2012年
9 公伟;序列模式挖掘算法及其在云取证中的应用研究[D];山东师范大学;2012年
10 杨琳;蛋白质对称性远程预测系统的设计实现[D];华中科技大学;2011年
中国重要报纸全文数据库 前10条
1 记者 谢军;我国首次向全球公布日本血吸虫基因组工作框架图序列数据[N];光明日报;2006年
2 安仲文;市场将在震荡中屡创新高[N];上海证券报;2007年
3 易雄飞、邓春慧;Excel中数据的简易输入[N];中国电脑教育报;2003年
4 李涛;宝盈基金:把握中下游行业公司[N];中华工商时报;2007年
5 记者 王春;我学者认知一个新的蛋白质结构域[N];科技日报;2004年
6 蔡建生;跨国公司为什么会“出事”?[N];中国经营报;2004年
7 岳阳;国内生物信息平台首发大规模基因组数据[N];中国医药报;2006年
8 中国社科院金融所副研究员 殷剑峰;殷剑峰:过热还是不热 中国经济多维观察[N];民营经济报;2007年
9 程林;宝盈基金:二季度把握中下游行业机会[N];证券时报;2007年
10 俞凯;国家级“基因银行”在沪启动[N];新华日报;2000年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978