收藏本站
《太原理工大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于大数据技术的随机森林模型并行化设计及实现

郑凯航  
【摘要】:滑坡,属于一种高发并且带来严重危害的地质灾害,滑坡带来的危害包括巨额的经济损失以及惨痛的人员伤亡,并且影响社会的安定。滑坡灾害在我国分布范围较广,如四川、贵州等地的地质构造复杂多样,是滑坡灾害的高发地区。近几年来,随着人类活动的大规模进行,崩塌滑坡泥石流等地质灾害发生频繁,灾害的预防工作尤为重要。因此,提供更加准确的方法来进行滑坡灾害的防治,已经是非常急迫的任务。当灾害发生时,首要任务是做出正确且快速的应急决策,对于灾害管理工作而言,如何能对地质灾害的发生及发展做出快速而准确的评估工作,是一个亟待解决的问题,所以,研究如何提高地质灾害评估的效率更具有研究价值和现实意义。本文介绍了研究滑坡的意义、国内外对于滑坡研究的进展和现状以及云平台的相关知识和评估模型的基本理论。选取随机森林模型作为实验模型,选取山西省2000年以来的全省地貌、岩土体、地质构造、地震峰值加速度、坡度、降水量等1:50万基础资料,搭建了Hadoop大数据平台,利用Map Reduce并行编程框架,通过此并行计算框架对模型进行并行化设计,并对改进后的模型进行有效性验证等工作,实验得到以下结论:1.在单节点上对模型改进后的准确性进行验证。并行化改进后的随机森林模型精度相对于传统的串行随机森林模型的精度较高,说明改进后的模型具有一定的可行性与实用性。2.在Hadoop平台上,在机器数目不同的情况下,进行算法执行时间的比较。当选取的滑坡样本数据的总量不变时,平台机器数目增加,算法执行时间减少,说明模型改进后的运行效率提高。3.进而又考虑了不同的样本总数,在运行1台、2台、3台机器的情况下实验效果:(1)样本数据规模较小为Data1时,随着服务器数量的增加,算法在运行时间上相差并不大。这是因为在Hadoop平台上进行并行计算时,多台设备间要通信以及数据交换,而这一过程对时间效率的损耗很大,算法效率时有下降。(2)当样本数据规模较大时,将单机情况与1台机器参与运算进行对比发现,这一过程曲线斜率最大,也就是说并行化以后的随机森林模型的运行时间的显著减小,说明模型效率明显提高。(3)通过对比机器数目是1台、2台、3台的情况发现,随着机器数量的增加,改进的随机森林模型运行时间确实逐渐下降,但曲线斜率也逐渐减小,说明机器的数目越多,算法效率越高,但与此同时设备间数据通信耗时也在增加,这也是曲线斜率逐渐变小的原因。(4)当机器数目是2台和3台时,Data2,Data3,Data4样本数据集的算法运行时间相对Data1耗时更少。该现象说明,并行化的随机森林模型更适用于大规模数据,优化效果更显著。本文基本实现了论文的初衷,即通过对评估模型并行化改进,评估效率与精度有所提高,以实现快速评估的目的,为今后地质灾害提出快速应急决策提供依据。
【学位授予单位】:太原理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:P642.22

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 马景义;谢邦昌;;拟适应再加权分类随机森林[J];统计与信息论坛;2010年03期
2 张启敏,聂赞坎;随机森林发展系统解的存在性和唯一性(英文)[J];应用数学;2003年04期
3 李建更;高志坤;;随机森林:一种重要的肿瘤特征基因选择法[J];生物物理学报;2009年01期
4 袁敏;胡秀珍;;随机森林方法预测膜蛋白类型[J];生物物理学报;2009年05期
5 方匡南;吴见彬;朱建平;谢邦昌;;随机森林方法研究综述[J];统计与信息论坛;2011年03期
6 方正;李益洲;肖嘉敏;李功兵;文志宁;李梦龙;;基于复杂网络的随机森林算法预测氨基酸突变对蛋白质稳定性的影响(英文)[J];化学研究与应用;2011年05期
7 王象刚;;基于K均值随机森林快速算法及入侵检测中的应用[J];科技通报;2013年08期
8 曹正凤;谢邦昌;纪宏;;一种随机森林的混合算法[J];统计与决策;2014年04期
9 张光亚;方柏山;;基于氨基酸组成分布的嗜热和嗜冷蛋白随机森林分类模型[J];生物工程学报;2008年02期
10 马景义;吴喜之;谢邦昌;;拟自适应分类随机森林算法[J];数理统计与管理;2010年05期
中国重要会议论文全文数据库 前7条
1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年
7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
中国博士学位论文全文数据库 前6条
1 张乾;基于随机森林的视觉数据分类关键技术研究[D];华南理工大学;2016年
2 薛小明;基于时频分析与特征约简的水电机组故障诊断方法研究[D];华中科技大学;2016年
3 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年
4 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
5 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年
6 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
中国硕士学位论文全文数据库 前10条
1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年
2 韩燕龙;基于随机森林的指数化投资组合构建研究[D];华南理工大学;2015年
3 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年
4 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年
5 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年
6 朱玟谦;一种收敛性随机森林在人脸检测中的应用研究[D];武汉理工大学;2015年
7 肖宇;基于序列图像的手势检测与识别算法研究[D];电子科技大学;2014年
8 李慧;一种改进的随机森林并行分类方法在运营商大数据的应用[D];电子科技大学;2015年
9 赵亚红;面向多类标分类的随机森林算法研究[D];哈尔滨工业大学;2014年
10 黎成;基于随机森林和ReliefF的致病SNP识别方法[D];西安电子科技大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026