收藏本站
《西南财经大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于数据挖掘技术的股价预测实证分析

唐文慧  
【摘要】:随着人类经济社会的不断发展,各行各业的信息量正呈现爆发性增长趋势,其中极具代表性的是数据量以50%以上的年成长量不断刷新纪录。为了应对数据成长的压力,人们需要更多的技术与产品来满足数据成长的需要。而数据挖掘技术恰恰能做到这一点。 金融业是基于信息驱动的行业,近年来数据挖掘技术在金融领域上的应用逐渐成熟,并且有越来越多的专家参与到技术开发中,数据挖掘技术已经广泛渗透到金融行业的各个机构、各项业务、各个工作环节,这种趋势推动着金融领域数据管理的不断完善和发展,相反也让越来越多的人开始学习掌握这一门新兴的技术。 在金融业中,证券业属于数据密集型行业,积累了上市公司财务报表、客户关系、市场信息、交易数据等大量信息,伴随着时间的增长和不断增加的上市公司数量,数据已呈指数型增长趋势。此外,国内证券行业政策的不断完善和开放,以及越来越多的证券公司参与进来,使得证券行业的竞争已经白热化,券商分析决策时对实时数据和历史数据的敏感度和依赖度都越来越高。数据挖掘技术作为分析与辅助决策工具已经越来越得到国内券商的重视。 由于证券市场反映的是一个国家的经济状况,所受影响的因素,包括行业竞争力、国家政策、国外经济环境等各类因素,影响因素众多且影响程度均不相同,因此券商的经营对数据的正确性、实时性、安全性要求很高。整个经营过程产生的数据主要分为客户交易数据和股票行情数据两大类:股票行情数据由交易所产生,主要反映了上市公司的经营能力及其股票的市场供求状况,属于实时共享信息;客户交易数据在各个证券公司营业部产生,反映了客户的资金状况,交易状况等,属于私有数据。对于数据挖掘技术而言,上述两类数据都有很大的应用空间,其主要的应用方向有:上市公司财务指标分析、风险分析、投资组合分析、交易数据分析、客户关系管理分析等。 本文探讨了数据挖掘技术在股票价格分析与预测中的应用及适应程度。以数据挖掘技术为指导,以中国A股市场的个股基本面和技术面指标作为分析对象,通过对个股进行数据挖掘,探讨各类数据挖掘技术分析在分析与预测我国A股市场股票走势的应用情况。整个步骤采用了基于sas数据挖掘方法论(semma)过程:抽样(Sample)、探测(Explore)、修正(Modify)、建模(Model)、评估(Assess)、打分(Scoring)。 论文主要分为五个部分: 第一部分首先介绍了股票市场的相关概念和各类学术人士对股票市场的研究和分类:根据有效市场理论将股票市场分为弱势有效市场、半强势有效市场和强势有效市场三大类,并对当前各国股票市场进行归类。然后根据市场分类的特点,叙述了当前股价分析与预测的主要方法,将股价分析与预测方法分为技术分析和基本分析两大类:技术分析包括了股票选择和建立投资组合;基本分析包括了选择交易策略和买卖时机。最后叙述了我国A股市场从1990年建市至今的发展历程,并从中总结了我国A股市场的特有性质:一是我国A股市场属于弱势有效市场;二是我国A股市场不是一般的弱势有效市场,而是具有社会主义性质的弱势有效市场。 第二部分首先叙述了国内外专家对数据挖掘的定义,并通过流程图介绍数据挖掘过程: (1)应用领域知识的掌握,尤其是对应用目标相关的知识了解。 (2)建立目标数据集:有针对性的选择所需数据集。 (3)数据预处理:去除噪声或不一致的数据等 (4)数据转换:数据变换或统一成符合挖掘的格式,如维变换。 (5)选定挖掘算法:依据挖掘的目的,选择某种特定的算法以提取数据中的模式。 (6)数据挖掘:用已选定的算法搜索并获取数据集中有需要的模式和知识。 (7)解释:解释某个发现的模式,将其转化为能为用户所理解的模式。 (8)模式评估:根据用户所需,识别出有价值的模式与知识,并将其结合到运行系统,以检查和证明所这些模式与知识的作用。 其次通过图表对数据挖掘技术进行分类并介绍了各种国内外主流数据挖掘技术: (1)决策树,用二叉或多叉树形表述处理逻辑的技术,常用算法有ID3.0、C4.5、CHAID、CHRT算法,支持对离散属性和连续属性进行建模。 (2)人工神经网络,模仿生物神经网络行为特征,进行分布式并行信息处理的技术,常用模型有前向式网络模型、反馈式网络模型。 (3)逻辑回归,分析多个变量对结果的影响效果,常用模型有二分变量逻辑回归模型、多分变量逻辑回归模型。 (4)聚类,对大量事先并未知晓其属性的数据集,按照数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。主要算法有:基于划分的算法、基于层次的算法、基于密度的算法、基于网格的算法、基于人工神经网络的算法。 (5)关联规则分析,从给定的数据集中搜索数据项(items)之间所存在的有价值联系。关联规则算法主要有Aprior算法,基于划分的算法、FP-树频集算法。 (6)时序模式分析,从历史的数据变动总结出其走势并预测未来走势的过程。主要分析模型有:AR模型、MA模型、ARMA模型、ARIMA模型。 最后利用表格阐明各类数据挖掘算法在股票分析与预测中的作用。 第三部首先介绍了股票分析预测中的基本分析和技术分析: (1)基本分析,指以经济学的供求关系原理为基础,以判断金融市场的未来走势为目标对经济和政治数据进行分析,分析因素主要有宏观经济状况、利率水平、通货膨胀、企业素质、政治因素。狭义上的基本分析通常是指广义基本分析中的企业素质,分析因素主要包括企业财务报表、行业状况、管理层素质、产品的市场竞争力等 (2)技术分析,技术分析主要是根据金融商品在过去某一时间段的供需变动来分析判断该商品未来价格的走势,最初是由人们在长期观察股价变动中积累的经验所形成的能够在某种程度上反映金融商品价格行为的交易法则。从分析因素上分,主要有形态类指标,如日K线,5分钟K线等;技术类指标,如RSI指标、MACD指标等。 其次分别论述了决策树、关联分析、聚类、人工神经网络、逻辑回归算法五种数据挖掘技术在股票基本分析中的应用。并以上市公司财务指标、营业能力指标、获利能力指标、负债指标等基本面指标为分析变量分别建立分析预测模型。其中决策树采用了ID3.0算法;人工神经网络采用了BP算法;关联分析采用了划分法,聚类采用了自组织映射图算法。 第四部分分别论述了决策树、人工神经网络、时间序列分析四种数据挖掘技术在股票技术分析中的应用。并以个股股价、日K线、月K线、MACD、KDJ、RSI等技术面指标作为分析变量分别建立分析预测模型。其中决策树采用了C4.5算法;人工神经网络采用了BP算法;时间序列模式分析采用了ARIMA模型分析。 第五部分对利用各算法建立的股票分析预测模型进行评价,对各类算法的适用程度进行评价。
【学位授予单位】:西南财经大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:F830.91;F224

【引证文献】
中国硕士学位论文全文数据库 前1条
1 袁多利;基于中文社会媒体分析的股票行为预测[D];合肥工业大学;2013年
【参考文献】
中国期刊全文数据库 前3条
1 余国合;我国股市量价规律实证分析[J];统计与信息论坛;2003年06期
2 吴冲锋,吴文锋;基于成交量的股价序列分析[J];系统工程理论方法应用;2001年01期
3 陈平,王成震,周俊,刘萍;运用SAS软件对上证指数月线数据的综合预测分析[J];系统工程理论与实践;2003年06期
中国硕士学位论文全文数据库 前9条
1 伊鸣;数据挖掘方法在股票交易数据分析及股票走势预测方面的应用和研究[D];吉林大学;2005年
2 黄敏;自组织数据挖掘在股票市场中的应用研究[D];电子科技大学;2006年
3 汪廷华;基于股票时间序列数据的关联规则挖掘研究[D];南昌大学;2006年
4 韩冰;股票投资行为模式研究[D];西南财经大学;2007年
5 郑继萍;时间序列的相似性挖掘及其在股票时间序列中的应用[D];东北财经大学;2007年
6 杨希;基于数据挖掘的股票预测研究[D];长春理工大学;2008年
7 闭英权;基于关联规则的股票时间序列趋势预测研究[D];广西大学;2008年
8 左辉;基于事件研究的股票数据挖掘[D];西南交通大学;2008年
9 郑海荣;数据挖掘技术在股票分析与预测中的应用[D];哈尔滨工业大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 袁皓;;中国证券市场β系数稳定性:一个大样本的检验[J];中大管理研究;2007年02期
2 张玉峰;徐海峰;;基于数据挖掘的竞争对手关键成功因素分析研究[J];情报理论与实践;2011年10期
3 胡怀瑾;李怀成;;浅析数据挖掘及应用系统框架[J];热带农业工程;2008年02期
4 谢忠;傅鹂;;数据挖掘——证券投资分析的有力工具[J];软件导刊;2005年17期
5 李必成;盛赛斌;;一种基于数据挖掘的入炉燃料发热量在线智能软诊断方法研究[J];热能动力工程;2007年01期
6 程向辉;刘俊勇;杨嘉湜;王民昆;;电力系统运行状态分析和识别方法研究[J];四川电力技术;2009年S1期
7 郭跃斌;翟延富;董祥军;杨越越;李刚;;基于序列模式的正负关联规则研究[J];山东大学学报(理学版);2007年09期
8 黄育芹;判定树归纳分类法在数据挖掘中的应用[J];湛江海洋大学学报;2004年06期
9 吴文锋,吴冲锋;股价的成交量推进进程及其动力学分析[J];上海交通大学学报;2003年04期
10 王承炜,吴冲锋,朱战宇;混合分布理论研究[J];上海交通大学学报;2004年03期
中国重要会议论文全文数据库 前1条
1 王伟珍;刘春红;张漫;李民赞;刘刚;;基于BP神经网络的温室番茄光合作用速率预测模型研究[A];中国农业工程学会2011年学术年会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
2 王俊杰;基于ArcGIS Server的震害风险管理系统研究[D];中国海洋大学;2010年
3 罗彬;基于MMOI方法的电信客户流失预测与挽留研究[D];电子科技大学;2010年
4 文振华;基于静电感应的航空发动机气路监测技术研究[D];南京航空航天大学;2009年
5 鞠可一;石油价格波动对经济的影响及其预警知识库系统研究[D];南京航空航天大学;2011年
6 黄建兵;中国证券市场微观结构研究[D];复旦大学;2003年
7 向继东;基于数据挖掘的自适应入侵检测建模研究[D];武汉大学;2004年
8 王燕;非对称信息对资产价格的影响[D];天津大学;2004年
9 柳会珍;金融收益率时间序列的极值研究[D];中国人民大学;2005年
10 徐茂卫;我国证券投资者投资行为研究[D];武汉理工大学;2005年
中国硕士学位论文全文数据库 前10条
1 郭婧;内地股市与香港股市的联动效应研究[D];山东科技大学;2010年
2 周东海;基于记账凭证的高校教育成本数据挖掘研究[D];哈尔滨工程大学;2010年
3 邹颖;聚类算法在图书馆馆际互借系统中的应用[D];大连理工大学;2010年
4 王月;改进的模糊C-均值算法在文本聚类中的应用研究[D];辽宁工程技术大学;2009年
5 刘菲;基于决策树技术的忠诚客户挖掘研究[D];辽宁工程技术大学;2009年
6 刘斌;基于数据挖掘的高校图书馆借阅数据特性分析与应用[D];苏州大学;2010年
7 孙永浩;基于改进型生态位的股票价值投资评价方法研究[D];河北工程大学;2010年
8 余君亮;基于数据仓库技术的税务决策支持系统[D];南昌大学;2010年
9 唐业祎;基于轻量级J2EE的证券数据分析系统研究与设计[D];浙江大学;2011年
10 董小艳;陕西农机化水平评价及耕种收机械化水平预测研究[D];西北农林科技大学;2010年
【同被引文献】
中国期刊全文数据库 前9条
1 赵妍妍;秦兵;刘挺;;文本情感分析[J];软件学报;2010年08期
2 陈友;程学旗;杨森;;面向网络论坛的高质量主题发现[J];软件学报;2011年08期
3 包建祥;信息与股票价格变动研究[J];世界经济;2000年08期
4 王波;郭晓军;;基于情感分析的网络财经媒体通货膨胀预期研究[J];图书情报工作;2011年16期
5 吴云勇;范树杰;;证券投资分析方法研究[J];中国市场;2012年27期
6 陈兴,孟卫东,严太华;基于T-S模型的模糊神经网络在股市预测中的应用[J];系统工程理论与实践;2001年02期
7 饶育蕾;彭叠峰;成大超;;媒体注意力会引起股票的异常收益吗?——来自中国股票市场的经验证据[J];系统工程理论与实践;2010年02期
8 宋泽芳;李元;;投资者情绪与股票特征关系[J];系统工程理论与实践;2012年01期
9 徐龙炳,陆蓉;R/S分析探索中国股票市场的非线性[J];预测;1999年02期
中国博士学位论文全文数据库 前1条
1 何国正;基于领先用户的顾客参与新产品研发研究[D];华中科技大学;2008年
中国硕士学位论文全文数据库 前4条
1 杨振宇;投资者情绪与中国股票市场收益波动研究[D];江西财经大学;2010年
2 付玲玲;结合本体HowNet的中文文本分类研究[D];重庆大学;2011年
3 陈鑫;基于主动学习的汉语依存树库构建[D];哈尔滨工业大学;2011年
4 许泱;基于神经网络的股票市场预测研究[D];华中科技大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 刘红岩,陈剑,陈国青;数据挖掘中的数据分类算法综述[J];清华大学学报(自然科学版);2002年06期
2 李爱国,覃征;在线分割时间序列数据[J];软件学报;2004年11期
3 程继华,施鹏飞;多层次关联规则的有效挖掘算法[J];软件学报;1998年12期
4 文淑惠;理性与非理性:证券市场投资者行为分析[J];四川大学学报(哲学社会科学版);2001年02期
5 韩明涛;时间序列模式挖掘的算法研究[J];山东大学学报(工学版);2004年03期
6 杨敏,王志坚,尹燕敏;时间序列相似性搜索算法研究[J];山东师大学报(自然科学版);2001年04期
7 张竹润,谢康林,张忠能;多粒度时间序列中模糊规则的提取[J];上海交通大学学报;2001年09期
8 叶中行,顾立庭;股市变化模式分类的两种神经网络方法[J];上海交通大学学报;1995年02期
9 张思奇,马刚,冉华;股票市场风险、收益与市场效率:——ARMA-ARCH-M模型[J];世界经济;2000年05期
10 程继华,施鹏飞;基于子块划分的关联规则的挖掘[J];计算机工程与设计;1999年05期
中国博士学位论文全文数据库 前5条
1 郭刚;股票智能预测决策研究及应用[D];西北工业大学;2000年
2 曾海泉;时间序列挖掘与相似性查找技术研究[D];复旦大学;2003年
3 王晓晔;时间序列数据挖掘中相似性和趋势预测的研究[D];天津大学;2003年
4 殷光伟;中国股票市场预测方法的研究[D];天津大学;2003年
5 兰秋军;金融时间序列隐含模式挖掘方法及其应用研究[D];湖南大学;2005年
中国硕士学位论文全文数据库 前10条
1 陈胜荣;技术分析有效性的实证研究[D];厦门大学;2001年
2 雷震;基于遗传神经网络的上证股票指数预测[D];厦门大学;2002年
3 俞海;自组织数据挖掘理论与方法及经济系统的复杂性研究[D];四川大学;2003年
4 龚惠群;具有时间约束的股票序列模型及采掘算法研究[D];湖南大学;2003年
5 马艳;中国A股市场对增发事件反应的实证研究[D];清华大学;2002年
6 崔华丽;基于粗神经网络的数据挖掘方法及其应用[D];西安建筑科技大学;2004年
7 王道远;数据挖掘算法在股市预测中的应用研究[D];辽宁工程技术大学;2004年
8 蒋志全;基于GMDH原理的自组织数据挖掘模型研究[D];大连海事大学;2004年
9 武晓炜;基于人工神经网络的股价预测模型研究[D];大连理工大学;2004年
10 李军;数据挖掘方法及其在上市公司中的应用研究[D];湖南大学;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026