多元线性回归中多重共线性问题的解决办法探讨
【摘要】:
无论是在经济、工商管理、社会科学,还是在工程技术、医学、生物科学中,回归分析都是一种普遍应用的统计分析与预测技术。
在回归分析中,当自变量之间出现多重共线性现象时,常会严重影响到参数估计,扩大模型误差,并破坏模型的稳健性,因此消除多重共线性成为回归分析中参数估计的一个重要环节。现在常用的解决多元线性回归中多重共线性的回归模型有岭回归(Ridge Regression)、主成分回归(Principal Component Regression简记为PCR)和偏最小二乘回归(Partial Least Square Regression简记为PLS)。
本文在已有文献的基础上,对偏最小二乘回归的基本理论、性质进行了整理、扩充;对偏最小二乘回归、普通最小二乘回归(Ordinary Least Square Regression)、岭回归及主成分回归方法进行了系统的比较;在岭回归中采用了一种基于均方误差无偏估计达到最小原则下选择岭参数的方法;在主成分回归中采用主成分的加权残差平方和来替代仅用残差平方和来筛选特征值的方法;对偏最小二乘回归理论做了进一步探讨:从理论与实例两方面分析了哪类数据不适合直接使用偏最小二乘回归处理的原因,提出一种改进方法,并给予实例验证;针对偏最小二乘回归模型中仍包含所有原始自变量的情况,结合通路分析方法,探讨了筛选偏最小二乘回归模型中原始自变量的问题,并应用该方法建立预测某地区火灾发生频数的模型。结果表明,该方法不仅能简化模型、提高模型的预测精度,而且还能选出对火灾频数影响较大的因素,具有实用价值。