基于数据挖掘的玉米产量预测模型的研究
【摘要】:我国是一个农业大国,农业是国民经济的支柱。众所周知,农业生产系统是一个复杂的系统,具有高度的不确定性,这些不确定性包括地力等级、气候及田间管理等诸多因素,给玉米产量的预测带来了困难。玉米是东北地区的主要种植在整个粮食生产中地位十分重要。近几年,受气候变化影响,吉林省极端天气事件明显增多,气象灾害发生较多,特别是干旱、冰雹、洪涝等自然灾害较常年增多,给农业生产造成了一定的影响。有研究表明,影响玉米产量的主要气象因素就包括降水、日照、温度等气候条件。而这些气象条件也很大程度上决定了玉米的产量。本文以这一现状为基础,利用吉林省前郭、四平、长春、延吉、临江5个气象站1988~2017年的平均温度、降水量、日照时长信息,以及化肥中氮磷钾元素含量、当年受灾面积、农业用电量、农用机械总动力、有效灌溉面积等数据信息,以及1988~2017的玉米产量与种植面积数据,针对气象情况对玉米产量的影响进行研究,通过神经网络建模分析研究各个影响因素与产量之间的关系,构建玉米产量预测模型,为玉米产量预测提供理论依据。论文主要研究内容如下:(1)数据采集。使用基于nodejs的网络爬虫,在历年的吉林省统计年鉴中的农业篇中获取相应的玉米种植面积、玉米年产量等信息,在中国气象数据网的中国地面国际交换站气候资料月值数据集获取到吉林省5个气象站(前郭、四平、长春、延吉、临江)历年的月值气象信息,并将其作为数据源,构建玉米产量预测数据集;(2)数据预处理与属性选择。根据实验要求,对不同量纲的样本数据进行归一化处理;针对数据集属性冗余问题,本文进行玉米产量预测数据集处理操作,包括数据清洗、数据补全等预处理操作,并应用ReliefF属性选择算法对玉米产量预测数据集进行属性优选,筛选出对玉米产量影响较大的因素,并将数据分为训练集和测试集后用于后续实验模型构建。(3)模型构建。在BP神经网络模型的基础上,优选合适的模型参数,使用属性选择后的数据集进行玉米产量预测建模。经比较,本文所用的改进方法,在平均绝对误差、相对平方根误差、模型准确率等方面,均优于C4.5决策树和未经属性选择的BP神经网络。