收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

支持向量回归解释性体系的建立及应用

谭显胜  
【摘要】: 回归分析在数据分析中占重要地位,其主要任务是预测和解释。传统基于经验风险最小原则的回归分析方法如多元线性回归(MLR)、逐步线性回归(SLR)、偏最小二乘回归(PLS)、二次多项式回归(QPR)等模型常采用复相关系数R、F测验来检验模型的有效性;在确定因子及因子间相互作用的显著性和重要性排序时,常通过对回归模型中一次项、二次项及交互项的回归系数进行t测验或F测验获得。因此,这些传统模型解释性较好,但对高维、非线性、小样本问题的解析能力有限,且对因子重要性排序时,一次项和二次项的排序常出现矛盾。人工神经网络(ANN)具有很好的非线性逼近能力,但存在模型结构难以确定、可解释性差、易出现过度训练、训练不足或易陷入局部最小等诸多缺陷。基于统计学习理论的支持向量回归(SVR)较好地解决了小样本、非线性、过拟合、维数灾、局部极小等问题,且泛化推广能力优异,其理论和应用研究目前均发展迅速,但解释性差的缺陷一直未获根本性解决。 本文基于F测验、借鉴QPR模型的解释性体系及两向分组资料的方差分析,为SVR模型建立了一套完整的模型检验和因子分析方法,包括模型回归显著性测验、因子重要性分析、单因子效应及灵敏度分析、两因子互作显著性测验等,拟解决SVR解释性差的缺陷。经二个数据集对解释性体系进行理论验证后,应用于作物抗旱性指标非线性筛选和棉铃虫蛹发育历期与温度关系模拟,最后应用于指导3个配方优化实验,结果显示: 1)采用前人已有研究数据(包括阴离子表面活性剂的定量构质关系研究和2个配方优化实例)对解释性理论体系进行了验证,其解释结果与参比模型(SLR和QPR)的解释结果基本一致仅存在细微区别,初步表明了该解释性体系的合理性,且支持向量回归模型性能明显优于参比模型,因此SVR解释结果的合理性更值得期待。 2)将解释性体系应用到二个农业相关实例。①以15个水稻品种苗期反复干旱存活率为因变量,从24个形态、生理指标中经支持向量回归非线性筛选得6个综合指标(附重要性排序):苗高**脯氨酸**丙二醛**叶龄**心叶下倒1叶面积**抗坏血酸**,且6个综合指标对反复干旱存活率的影响均达到了极显著,以此建立的SVR模型拟合精度与留一法预测精度均明显优于传统的MLR和SLR模型;如考虑指标测量的简易性,仅以地上部干重、心叶下倒2叶面积、根冠比、叶龄、叶鲜重、心叶下倒1叶面积等6个形态指标评估反复干旱存活率同样具有较好的效果。②为深入探讨昆虫发育与温度变化的关系,将解释性体系应用于研究棉铃虫蛹发育历期与温度的关系。结果表明,与传统非线性模型相比(Logan模型、Lactin模型和王氏模型),SVR模型的预测性能优异:SVR模型拟合和留一法的决定系数R2分别为0.998和0.996,估测的蛹期三基点温度较可信,且给出了各因子对发育历期影响的重要性排序(温度**雌/雄蛹**恒/变温**);最后从全部样本中均匀选取部分样本实施独立预测时发现,训练集为20个样本时,SVR模型独立预测性能的决定系数R2为0.981,进一步减少到12个样本时,R2仅降低到0.964,而传统模型中基于20个样本时最好的Lactin模型独立预测性能R2仅为0.958。可知,SVR在小样本情况下较传统非线性模型具明显优势,仅通过少量实验便可准确获得各个温度下棉铃虫的发育历期数据,从而大大减少实验次数,并为害虫发生预测和昆虫的人工饲养管理提供了理论指导。 3)将解释性体系应用于指导配方优化实验。①以解释性体系结合均匀设计应用于指导产谷氨酸脱羧酶大肠杆菌诱变株的培养基配方与发酵条件优化,在考虑9因素时仅通过2轮28个实验,酶活性(吸光度OD630)即由初始配方的1.528高效提升至2.303,其最优发酵条件为:牛肉膏5g/L,蛋白胨10 g/L,NaCl 3 g/L谷氨酸2.3 g/L,葡萄糖2 g/L,KH2PO43 g/L,MgSO40.6 g/L,pH 6.8,发酵时间20h,与初始配方相比有了明显的提高,且明显优于二次多项式偏最小二乘回归等经验风险最小参比模型预测的最优配方。②应用于木薯生料发酵生产乙醇的发酵条件进行了优化,对10因子经2轮共43个处理,获得乙醇得率的最佳工艺参数为:料水比为1:1.8,初始pH为3.5,温度为32℃,酵母添加量为3.5×107cell/mL,(NH4)2S04为0.5 g,转速为140 rpm,糖化酶添加量为200 u/g,淀粉酶添加量为12 u/g,纤维素酶添加量为25 u/g,发酵周期为120 h,此时的乙醇得率为15.7%;原料转化率的最佳工艺参数为:料水比为1:2.5,初始pH为4,温度为36℃,酵母添加量为5.5×107cell/mL,(NH4)2SO4为3 g,转速为160 rpm,糖化酶添加量为170 u/g,淀粉酶添加量为10 u/g,纤维素酶添加量为25 u/g,发酵周期为120 h,原料转化率达到38.63%;而初始配方的乙醇得率为9.2%、原料转化率为24.76%。③应用于指导棉铃虫幼虫人工饲料配方优化,在考虑6因素时仅通过2轮共14个实验,得到其最优人工饲料配方:黄豆粉为172g、麦麸为14.4 g、酵母浸膏为68 g、蔗糖为21.2 g、菜籽油为2滴、VC为40片,表征配方优劣的指标—平均蛹重即由初始配方的0.2436 g提升至0.3044 g,明显优于二次多项式偏最小二乘回归等经验风险最小参比模型预测的配方,同时也优于实验室前期建立的UD-SVR配方优化方法,且与UD-SVR相比,有效减少了实验的个数。 综上,本文为支持向量回归建立的解释性体系较好地解决了其解释性差的问题,为支持向量回归得到更广泛的应用提供了基础,同时也为多因素多水平配方优化实验设计与分析提供了一套预测精度高、指导性强、可解释性好、优化高效的整体解决方案。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张好治;崔文善;王忠锐;闫信洲;;支持向量回归算法的研究[J];莱阳农学院学报(自然科学版);2006年03期
2 唐阔;胡国圣;车喜龙;胡亮;;基于遗传算法优化支持向量回归机的网格负载预测模型[J];吉林大学学报(理学版);2010年02期
3 张伟峰;;基于支持向量回归的光谱反射率重建方法[J];计算机科学;2010年12期
4 张钢;何小敏;张小波;黄永慧;;统计学习算法在高校教学质量评估中的应用研究[J];电子科技大学学报(社科版);2008年04期
5 蒋辉;;基于MGM(1,n)模型的多元核支持向量回归预测[J];数学的实践与认识;2011年09期
6 肖健华;林健;刘晋;;基于SVR的区域经济短期预测模型[J];系统仿真学报;2005年12期
7 肖健华;林健;刘晋;;区域经济中长期预测的支持向量回归方法[J];系统工程理论与实践;2006年04期
8 林溯;;基于支持向量回归的旅游客流量预测[J];科技信息(学术版);2006年12期
9 俞青芬;;用支持向量回归方法预测多氯代二苯并-对-二恶英的正辛醇/水分配系数[J];河北师范大学学报(自然科学版);2010年04期
10 肖健华;;中国科技园区经济发展智能预测[J];计算机工程;2006年07期
11 杨玮龙;杨琦龙;;基于支持向量回归的供应链管理绩效评价研究[J];价值工程;2006年09期
12 郝继升;;基于支持向量回归机和B样条网络回归曲线建模算法[J];江西科学;2007年01期
13 郝继升;;一种建立回归曲线模型的新算法[J];河南科学;2007年02期
14 孙晋众;林健;;基于小波的能源消费弹性系数预测方法[J];沈阳航空工业学院学报;2007年03期
15 谢波;刘连旺;;支持向量机在GPS高程异常中的应用[J];测绘科学;2011年01期
16 王恩;束龙仓;刘丽红;黄币娟;;基于改进支持向量回归的岩溶天窗水位预测模型[J];河海大学学报(自然科学版);2011年01期
17 黄远兵;蔡启明;杨玮龙;黄燕美;;基于支持向量回归的服务备件需求量预测研究[J];物流科技;2006年10期
18 方瑞明;;基于聚类和支持向量回归的短期负荷预测方法[J];东华理工学院学报;2007年04期
19 刘解放;高普梅;姚树文;;连续小波变化-支持向量回归模型及其在谷物近红外光谱分析中的应用(英文)[J];西南民族大学学报(自然科学版);2008年05期
20 赵卫;刘济科;;基于支持向量回归的迭代序列响应面可靠度计算方法[J];机械强度;2008年06期
中国重要会议论文全文数据库 前10条
1 彭姝迪;林静玉;周渠;李孟励;;加权支持向量回归机在传感阵列模式识别中的应用[A];重庆市电机工程学会2010年学术会议论文集[C];2010年
2 陈懿冰;张玲玲;石勇;;基于改进的支持向量回归机的金融时序预测[A];第六届(2011)中国管理学年会论文摘要集[C];2011年
3 邓小英;杨顶辉;关昕;;基于支持向量回归的随机噪声消减和零漂去除[A];中国地球物理·2009[C];2009年
4 郭志明;赵春江;陈立平;黄文倩;;基于GA-LSSVR的烟草尼古丁含量的近红外光谱分析[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
5 吴德会;;非线性动态系统的SVR辨识法[A];第二十六届中国控制会议论文集[C];2007年
6 黄光群;韩鲁佳;;SVM-NIR法快速测定畜禽粪便堆肥水分含量[A];2007年中国农业工程学会学术年会论文摘要集[C];2007年
7 尹焕平;孙宗海;;基于自然梯度的支持向量回归在线算法[A];2009中国控制与决策会议论文集(3)[C];2009年
8 林关成;李亚安;李国辉;;支持向量回归的连续过松弛训练算法研究[A];2010’中国西部声学学术交流会论文集[C];2010年
9 王玲;穆志纯;郭辉;;基于支持向量回归的增量建模方法[A];第25届中国控制会议论文集(上册)[C];2006年
10 李俊;谭显胜;谭泗桥;袁哲明;熊兴耀;;改进支持向量机在棉铃虫人工饲料配方优化中的应用[A];华中昆虫研究(第6卷)[C];2010年
中国博士学位论文全文数据库 前10条
1 谭显胜;支持向量回归解释性体系的建立及应用[D];湖南农业大学;2010年
2 赵永平;支持向量回归机及其在智能航空发动机参数估计中的应用[D];南京航空航天大学;2009年
3 余艳芳;改进型支持向量回归机及其在过程建模与控制中的应用[D];华东理工大学;2010年
4 周金柱;电子装备结构因素对电性能影响的支持向量建模与补偿[D];西安电子科技大学;2011年
5 蒋辉;经济预测的灰色支持向量回归方法[D];中南大学;2010年
6 孙少超;数据校正和支持向量机的过失误差识别的研究[D];华东理工大学;2012年
7 向国齐;支持向量回归机代理模型设计优化及应用研究[D];电子科技大学;2010年
8 刘广利;基于支持向量机的经济预警方法研究[D];中国农业大学;2003年
9 于萍;自适应逆控制方法研究及其应用[D];华北电力大学(河北);2006年
10 田英杰;支持向量回归机及其应用研究[D];中国农业大学;2005年
中国硕士学位论文全文数据库 前10条
1 苗强;农民收入的粗糙支持向量回归与实证分析[D];安徽大学;2010年
2 阿磊;基于支持向量回归机的汇率预测[D];华东师范大学;2011年
3 王(山弄);支持向量回归在曲线拟合/重构中的应用[D];中国农业大学;2005年
4 陈金翠;最小二乘支持向量回归组合预测模型的应用[D];新疆大学;2010年
5 杨芳;基于支持向量回归(SVR)的材料热加工过程建模[D];上海交通大学;2010年
6 刘菊艳;基于数据挖掘技术的短期风速预测[D];西安科技大学;2010年
7 王刚;支持向量回归机在药品销售预测中的分析及应用[D];云南财经大学;2010年
8 陈超;基于支持向量回归的集成价格预测方法研究[D];吉林大学;2011年
9 李鹏超;基于模拟退火算法和支持向量回归的网格资源预测[D];吉林大学;2010年
10 胡国圣;基于遗传算法和支持向量回归的网格资源预测[D];吉林大学;2010年
中国重要报纸全文数据库 前4条
1 ;控制技术:打造瓜菜安全生产流水线[N];科技日报;2007年
2 水清;烟粉虱危害可致棉花大幅度减产[N];江苏农业科技报;2006年
3 邯郸市鸡泽县风正乡农技站 高杰鸡泽县报友俱乐部 张相波;棉花叶螨的发生与防治[N];河北农民报;2008年
4 河南 李士洪 毛淑琴 杨红伟;白三叶草斜纹夜蛾的防治[N];中国花卉报;2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978