收藏本站
《兰州理工大学》 2019年
收藏 | 手机打开
二维码
手机客户端打开本文

基于R & Python的股市文本挖掘及预测研究

Almadhagi Rafat Abdullah Qaid Mahmood  
【摘要】:随着网络时代的飞速发展,互联网上的财经新闻数据和股票评论信息已经成为了舆情数据的重要组成部分之一,这些非结构型文本数据中包含着许多能够对未来股市波动进行预测的情绪信息的,而这信息资讯在一定程度上能够影响投资者对未来股票市场的投资决策。本文基于文本挖掘技术和机器学习方法,利用Python语言爬取上证180(SSE 180)股市非结构化评论数据作为研究对象,利用R语言在情感字典的基础上计算每日情感指数,使用Spearman相关系数及Granger因果检验对预测模型的影响因子进行相关性分析,结合Wind数据库的收盘价和成交量等相关交易指标,构建回归模型对一定时间范围内的股票收益进行预测。基于RPython的股市文本挖掘及预测研究的具体内容如下:1.采用网络爬虫技术获取股评文本数据,并对其进行分词、去停用词等数据预处理工作,利用文本向量化表示方法将非结构文本转换为结构型特征矩阵。在情感字典的基础上,根据每日的财经新闻计算情感指数。2.运用Spearman相关系数对新闻情绪与股市收益、收盘价和成交量的同步性、超前性和滞后性进行相关分析,通过Granger因果检验进一步验证新闻情绪值与股市收益之间的因果关系,通过脉冲响应分析及方差分解方法分析财经新闻对股票收益的贡献率。研究结果表明,新闻情绪值在滞后收盘价中接近峰值,在提前收盘价中接近最小值,新闻情绪值与股票收益之间存在双向格兰杰因果关系,在滞后期为3时,新闻情绪值对股票收益的贡献率达到了高点。3.根据支持向量回归(SVR)算法构建财经新闻与股票收益率之间的回模型预测股票收益率,结果表明SVR预测模型准确率较高,平均绝对误差为0.004。利用支持向量机(SVM)模型构建每日情感指数与股票收益之间的预测模型,实验发现SVM模型的预测准确率达到89%。
【学位授予单位】:兰州理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 毛京宇;魏云靖;;有趣的Python turtle绘图[J];中国科技教育;2019年06期
2 刘瑞;;Python语言在科学算法中的优势[J];信息与电脑(理论版);2019年04期
3 刘家岐;;利用Python对自然语言进行简单处理[J];现代商贸工业;2019年07期
4 张誉曜;陈媛媛;;基于Python下的爬虫综述及应用[J];中国新通信;2019年06期
5 武永娇;黄宁;;基于Python技术电影口碑的研究[J];计算机与网络;2019年09期
6 赵少农;赵学作;;Python环境部署及调试[J];网络安全和信息化;2019年07期
7 闯跃龙;郭文平;;面向非计算机专业学生的Python教学内容设计[J];台州学院学报;2018年03期
8 汪琴;李明;;谈树莓派在学生创新教育中的应用[J];中国信息技术教育;2017年05期
9 姚建盛;李淑梅;;Python在科学计算中的应用[J];数字技术与应用;2016年11期
10 钱程;阳小兰;朱福喜;;基于Python的网络爬虫技术[J];黑龙江科技信息;2016年36期
中国重要会议论文全文数据库 前10条
1 黄佳聪;高俊峰;;基于Python编程语言的空间动态模型集成[A];自然地理学与生态安全学术论文摘要集[C];2012年
2 连高欣;;Python语言在Cimiss中的应用[A];第35届中国气象学会年会 S20 深度信息化:应用支持与智能发展[C];2018年
3 王亚东;;Python在气象数据可视化中的应用[A];第34届中国气象学会年会 S20 气象数据:深度应用和标准化论文集[C];2017年
4 ;Development of Python-based ArcGIS Tools for Spatially Balanced Forest Sampling Design[A];Information Technology and Computer Science—Proceedings of 2012 National Conference on Information Technology and Computer Science[C];2012年
5 陈琳;任芳;;基于Python的新浪微博数据爬虫程序设计[A];第33届中国气象学会年会 S13 “互联网+”与气象服务——第六届气象服务发展论坛[C];2016年
6 高绵新;;基于Python的ArcGIS脚本工具在DEM精细化生产中的应用[A];全国测绘科技信息网中南分网第三十次学术信息交流会论文集[C];2016年
7 于文丽;;基于Python的空间自相关模式研究[A];中国地理学会百年庆典学术论文摘要集[C];2009年
8 李磊鑫;李越峰;董维;邱名友;;基于Python数据分析功能在空调器实验数据处理中的应用[A];2018年中国家用电器技术大会论文集[C];2018年
9 刘啸虎;赵云梦;金磊;赵兴;;一种针对MQTT协议的测试系统设计与开发[A];2017年中国家用电器技术大会论文集[C];2017年
10 欧阳晓;刘笑;;基于Python的基础测绘DLG元数据处理方法[A];第二十届华东六省一市测绘学会(江苏)学术交流会论文集[C];2018年
中国重要报纸全文数据库 前10条
1 ;你使用的Python对象占用了多少内存?(上)[N];电脑报;2019年
2 ·特约作者 邹肇辉;BT编程的王者[N];电脑报;2005年
3 张俊红 《对比Excel,轻松学习Python数据分析》作者;为什么要写《对比Excel,轻松学习Python数据分析》[N];新华书目报;2019年
4 高寿福;无所不能的灵蛇——Python[N];中华读书报;2001年
5 本报记者 王延斌;小学教育应有Python一席之地[N];科技日报;2018年
6 易水;IT新词集锦(403)[N];计算机世界;2004年
7 Christina Mercer 编译 杨勇;2018年的主要IT技术:最需要、增长最快的IT技术[N];计算机世界;2018年
8 ;Ruby on Rails[N];计算机世界;2006年
9 中国信息通信研究院泰尔终端实验室 曾晨曦 段虎才;深度学习框架的前世今生[N];人民邮电;2018年
10 本报记者 原竟格;建设安全文化 确保平稳运营[N];中国石油报;2016年
中国博士学位论文全文数据库 前2条
1 徐兆桂;Python程序缺陷的自动检测与定位技术[D];南京大学;2017年
2 张幂;基于动态语言的系统描述、验证和综合[D];复旦大学;2009年
中国硕士学位论文全文数据库 前10条
1 钱宇;基于Python的自动化图片特征存取系统的设计与实现[D];北京邮电大学;2019年
2 杨帆;初中学段编程校本课程开发与评价研究[D];上海师范大学;2019年
3 Almadhagi Rafat Abdullah Qaid Mahmood;基于R & Python的股市文本挖掘及预测研究[D];兰州理工大学;2019年
4 李银国;基于Python的UEFI开发系统的研究与实现[D];上海交通大学;2017年
5 王文韬;基于Python的城市PM_(2.5)数据分析与绿色经济效率研究[D];中国石油大学(华东);2017年
6 许晓飞;基于Python的宽带车联网路由层和MAC层的设计与实现[D];厦门大学;2017年
7 马洪跃;面向类型推导的Python类型标注分析[D];南京大学;2019年
8 刘原铭;基于Python的中小学云课堂平台设计与实现[D];北京交通大学;2018年
9 董天聪;Python静态类型分析及其应用[D];南京大学;2015年
10 韩辉;基于Python的私募量化平台的设计与实现[D];浙江工业大学;2018年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026