收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

流式数据的并行分类算法研究

魏亚红  
【摘要】:近几年随着移动互联网技术的发展,全球数据量与日俱增,人们已经进入大数据时代。随着大数据而来的信息风暴正在改变着人们的生活方式、工作方式以及思维方式。传统的数据挖掘技术也随着大数据时代的到来面临着巨大的挑战,其中最大的挑战是数据形态的改变,处理的数据形态由传统的静态数据变为海量动态数据。流式数据是大数据中最为典型的一种数据形式,它具有海量性、实时性及时变性等特点,这极大地加大了挖掘算法的复杂度。因此,如何设计出一种能够适应流式数据特点的分类算法,有效的解决流式数据分类面临的问题,并从中挖掘新的知识,已成为学术界研究的热点问题。本文从流式数据的基本特点入手,重点研究了概念漂移流式数据分类并行化的问题。针对概念漂移致分类算法低效、分类精度低等问题,本文从流式数据的基本特点出发,以BP神经网络作为基础分类器,做了以下三个方面的工作:(1)在分析近年来有关概念漂移相关研究成果、特点和产生原因的基础上,给出了概念漂移的基本概念,总结了常用的概念漂移检测方法和处理机制。继而针对流式数据分类的实时性要求,提出了采用欧氏距离判断概念漂移的方法,并给出了概念漂移发生后的分类模型重新训练和更新机制。(2)针对分类器能检测到概念漂移却无法快速更新分类模型的问题,在增量式学习的基础上,提出了一种增量式BP神经网络概念漂移数据流分类算法——IBPNN-CDCA。该模型能在保存先前学习知识的基础上,通过增量式学习动态更新神经元节点间的权值,避免了对分类模型重新训练,从而使得BP神经网络能快速适应流式数据的变化。(3)针对流式数据海量性的特点,研究了使用集群并行化处理流式数据的方法,给出了基于Spark的IBPNN-CDCA并行化算法。该算法可以运用整个集群的计算能力对流式数据进行分类,具有较高的数据吞吐量。总之,本文针对流式数据的海量性、实时性与时变性的特点,利用并行化处理可以提高模型数据吞吐量的优势,分别提出并设计了增量式BP神经网络概念漂移数据流分类算法及其并行化分类算法。算法利用增量式在线学习可以适应时变性的优势,在保证分类准确度的情况下,减少了模型更新的时间消耗,提高了分类效率。实验结果表明,IBPNN-CDCA算法较之传统的BP神经网络分类算法具有更好的抗漂移能力,相对于CVFDT、CDRDT和MSRT等概念漂移分类算法,在分类准确度上也具有一定提升。本文的研究工作为实时分类存在概念漂移的海量流式数据提供了一种新方法,对进一步研究流式数据分类问题具有一定的借鉴价值。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 邓爱华;;大数据时代来临 你准备好了吗?[J];科技潮;2012年09期
2 刘中宇;刘海良;;大数据时代高校云资源应用[J];现代教育技术;2013年07期
3 陶雪娇;胡晓峰;刘洋;;大数据研究综述[J];系统仿真学报;2013年S1期
4 ;大数据[J];财务与会计(理财版);2013年07期
5 孙志伟;;大数据时代中小企业的应对策略[J];未来与发展;2013年10期
6 宋慧欣;;大数据时代的自动化机遇[J];自动化博览;2013年10期
7 ;大数据的崛起:趋势、机遇与挑战[J];互联网周刊;2013年24期
8 邓春宇;郭阳;李俊妮;王伯伊;;大数据在县级供电公司中的应用[J];农村电气化;2014年03期
9 谢然;;大数据引领智能交通 且行且珍惜[J];互联网周刊;2014年08期
10 李晓辉;王淑艳;;大数据及其挑战[J];科技风;2012年23期
11 严霄凤;张德馨;;大数据研究[J];计算机技术与发展;2013年04期
12 赵敬;;大数据在日本的发展及应用[J];声屏世界;2013年11期
13 孟小峰;高宏;;大数据专题前言[J];软件学报;2014年04期
14 金保印;;迎接“大数据”时代[J];民营科技;2013年03期
15 Peter Liu;;电信行业中的大数据[J];电信网技术;2013年08期
16 侯冬梅;谷雨;谷新胜;;大数据在科技、教育与信息领域的应用[J];计算机教育;2014年01期
17 杨永强;;大数据时代的应用研究[J];电脑编程技巧与维护;2014年08期
18 尤文辰;徐跃通;高尚;;浅析GIS大数据[J];电脑知识与技术;2013年24期
19 杨敏;;浅谈大数据在银行的落地[J];中国金融电脑;2014年06期
20 马建光;姜巍;;大数据的概念、特征及其应用[J];国防科技;2013年02期
中国重要会议论文全文数据库 前4条
1 李田;郭利;冯鹏;;某型导弹单元设备自动检测系统软件设计[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
2 高世光;邓苏;王长缨;;关于ADO+引导数据种类的演变的研究[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
3 颜涯;邵佩英;;GIS与MIS系统集成技术在城市规划中的应用[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
4 谢国忠;;大数据时代下的企业管理与创新[A];创新驱动:新机遇 新挑战——2013年全国企业管理创新大会资料汇编[C];2013年
中国博士学位论文全文数据库 前5条
1 张兰廷;大数据的社会价值与战略选择[D];中共中央党校;2014年
2 李琦;基于多源数据的交通状态监测与预测方法研究[D];吉林大学;2013年
3 张新;区域性防灾减灾信息服务体系研究[D];中国科学院研究生院(遥感应用研究所);2006年
4 李智慧;基于可视化的三维放射治疗计算机模拟系统的研究[D];四川大学;2002年
5 袁培森;基于LSH的Web数据相似性查询研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 郭铭;大数据时代包头公安基础信息化建设研究[D];内蒙古大学;2015年
2 贾同;大数据对高等教育发展的推动研究[D];西南大学;2015年
3 张靖雯;基于GPS路网的重卡动力参数分析系统开发[D];长安大学;2015年
4 张辉;基于移动互联网的高速公路公众信息服务系统分析与研究[D];长安大学;2015年
5 邓先明;基于西安市矿产资源规划关系数据库的数据质量控制研究[D];长安大学;2015年
6 魏亚红;流式数据的并行分类算法研究[D];曲阜师范大学;2015年
7 黄成鹏;大数据时代的个人隐私[D];华中师范大学;2015年
8 霍美娜;基于Hadoop海量数据分析的反腐云计算设计与实现[D];山东大学;2015年
9 朱迪;云计算在电力系统中的应用研究[D];华北电力大学;2015年
10 程彬彬;基于Hadoop的气温数据组织及时空分异特征提取方法研究[D];南京师范大学;2015年
中国重要报纸全文数据库 前10条
1 中国科学技术发展战略研究院 许晔;大数据时代来袭 中国宜加紧布局[N];经济参考报;2013年
2 记者 李成成;崭露头角的大数据时代[N];企业家日报;2013年
3 ;精简企业数据是时候了[N];计算机世界;2008年
4 光大证券;“大数据”或成重要投资主线[N];中国证券报;2012年
5 本报记者 郭涛 李奕;与大数据打交道的那些人[N];中国计算机报;2012年
6 本报记者 齐洁;大数据蕴藏创业空间[N];中国经营报;2012年
7 吴勇毅;大数据“热”下的“冷”思考[N];中国冶金报;2012年
8 抚苏;众望所归,大数据时代来临[N];电脑报;2013年
9 《网络世界》记者 于翔;大数据的价值实现之旅[N];网络世界;2013年
10 本报记者 孙琦子;这些年,一起忽悠着的“大数据”[N];经济观察报;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978