收藏本站
《哈尔滨工业大学》 2014年
收藏 | 手机打开
二维码
手机客户端打开本文

结合文本倾向性分析的股评可信度计算研究

丘桥云  
【摘要】:随着互联网和金融服务行业的联系日益密切,人们对于快速、准确获取金融信息的需求越来越迫切。但大量不可信信息的存在给投资决策带来了巨大的挑战。如何在庞大的数据中找到可信的信息成为了金融信息服务领域的关键性问题。针对股票投资这个特定领域的金融信息服务需求,本文研究结合文本倾向性分析的股评文本可信度计算方法。本文的主要工作包括:第一、在对股评文本和股票领域文本特点进行分析的基础上,研究面向股评文本的倾向性分析方法。着重研究三种特征选择方法,包括:基于Uni-Gram/Bi-gram过滤的特征选择方法、基于自动发现领域词典的特征选择方法以及基于文章结构的特征选择方法,实验显示当三种特征同时使用时,系统的性能最优。第二、由于中国股市没有做空机制,导致股评文本中正面股评的数量远远大于负面股评。股评类别分布的不平衡明显影响了基于有监督学习的分类器性能。为此,研究了面向不平衡股评数据的倾向性分析。这里分别研究了基于过采样和基于集成学习的不平衡分类处理方法。实验结果显示基于过采样的方法对系统性能的提升有限,而基于集成学习的方法明显提高了少类样本分类性能。第三、利用带有分类标注的股评和股评发布后实际股价变化的一致性分别评估发布者的历史可信度和行业可信度。第四、结合股评文本倾向性分析和信息发布者的可信度评估实现了股评可信度计算和股价预测系统。实验显示本文实现系统的预测性能优于主流股评机构。本文的主要贡献在于:第一、基于短股评文本建立了股评相关的领域词典。在对股评文本的特点深入观察分析的基础上,提出了多种有效特征用于股评倾向性分析。第二、对股评数据的特点进行了深入分析,并设计实现了两种面向不平衡训练数据的倾向性分类方法。实验结果显示,基于集成学习的方法有效提高了少类样本的分类性能。第三、设计实现了结合股评文本倾向性分析、股评发布者历史可信度和行业可信度的股评可信度计算方法。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 袁汉宁;;双层多示例集成学习[J];武汉理工大学学报(信息与管理工程版);2011年05期
2 俞扬;周志华;;集成学习中完全随机学习策略研究[J];计算机工程;2006年17期
3 张沧生;崔丽娟;杨刚;倪志宏;;集成学习算法的比较研究[J];河北大学学报(自然科学版);2007年05期
4 陈凯;;基于聚类技术的集成学习差异性研究[J];南京工业职业技术学院学报;2008年04期
5 李凯;崔丽娟;;集成学习算法的差异性及性能比较[J];计算机工程;2008年06期
6 潘志松;燕继坤;;少数类的集成学习[J];南京航空航天大学学报;2009年04期
7 陈凯;马景义;;一种选择性SER-BagBoosting Trees集成学习研究[J];计算机科学;2009年09期
8 陈全;赵文辉;李洁;江雨燕;;选择性集成学习算法的研究[J];计算机技术与发展;2010年02期
9 张燕平;曹振田;赵姝;郑尧军;杜玲;窦蓉蓉;;一种新的决策树选择性集成学习方法[J];计算机工程与应用;2010年17期
10 饶峰;;核机器集成学习算法的误差分析[J];重庆文理学院学报(自然科学版);2010年04期
中国重要会议论文全文数据库 前4条
1 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 阿里木·赛买提(Alim.Samat);基于集成学习的全极化SAR图像分类研究[D];南京大学;2015年
2 王永明;集成回归问题若干关键技术研究[D];华东师范大学;2015年
3 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
4 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
5 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
6 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
7 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
8 侯勇;特征提取与集成学习算法的研究及应用[D];北京科技大学;2015年
9 李烨;基于支持向量机的集成学习研究[D];上海交通大学;2007年
10 程丽丽;支持向量机集成学习算法研究[D];哈尔滨工程大学;2009年
中国硕士学位论文全文数据库 前10条
1 高伟;基于半监督集成学习的情感分类方法研究[D];苏州大学;2015年
2 宋文展;基于抽样的集成进化算法研究[D];广西大学;2015年
3 汤莹;迁移与集成学习在文本分类中的应用研究[D];江苏科技大学;2015年
4 刘政;基于知识元和集成学习的中文微博情感分析[D];大连理工大学;2015年
5 丘桥云;结合文本倾向性分析的股评可信度计算研究[D];哈尔滨工业大学;2014年
6 张妤;支持向量机集成学习方法研究[D];山西大学;2008年
7 李涛;基于条件互信息的集成学习的研究与应用[D];中国海洋大学;2009年
8 杨长盛;基于成对差异性度量的选择性集成学习方法研究[D];安徽大学;2010年
9 曹振田;基于Q统计量的选择性集成学习研究[D];安徽大学;2010年
10 王丽丽;集成学习算法研究[D];广西大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026