基于混合效应模型的纵向数据分析及其应用研究
【摘要】:在临床、生物医学应用、经济学等众多领域中,经常需要对不同来源、不同类型的研究对象进行重复测量,而对于此类纵向数据的建模分析,混合效应模型提供了一个有用且灵活的框架,如两步估计、广义估计方程(GEE)估计量、标准局部多项估计量等。但上述传统的非参数回归建模方法都没有考虑到随机效应曲线的估计。同时,在纵向数据的实际应用中,往往存在多个变量对观测个体影响显著的情况,当变量个数较多时,变量之间的多重相关性可能导致严重的估计误差;而某些对响应变量不存在显著影响,甚至没有相关关系的变量又可能增加模型的计算复杂度,进而影响估计效率。若能将冗杂的多数变量简化为包含绝大部分有效信息的少数变量,进而结合非参数混合效应模型进行建模分析,在优化总体估计效果、提升计算效率等多个方面都将具有深刻的现实意义。目前这方面的研究相对较少,本文将重点研究因子分析下的混合效应模型建模方法,并将本文提出的方法应用到经济领域中自由贸易试验区发展现状的研究。本文介绍了混合效应模型、局部多项式估计、广义交叉验证准则和因子分析等方法的基本概念以及国内外研究现状。基于现有理论基础,重点从模型构建和参数估计两个方面着手,在传统模型上进行拓展,提出基于因子分析的非参数混合效应模型。通过因子分析压缩原始变量,降低数据维数,提取出包含绝大部分信息的公因子作为新变量。进而通过泰勒展开,在模型正态性假设下计算、求解估计量。同时,在确定模型参数时,引入广义交叉验证准则选择最优带宽,最终得到因子分析下的局部多项式估计量(FAC_LLME)。其次,在大量模拟研究中,将因子分析下的局部多项式估计量(FAC_LLME)与现有混合效应模型估计量(LLME)进行对比:一方面,从估计的精确性角度,通过多次模拟后估计值与真实值之间的平均均方误差来验证新方法估计性能的优越性;另一方面,通过模拟参数(观测个体数和数据缺失率)的不同取值,比较不同情况下FAC_LLME估计量与LLME估计量估计性能表现出的差异。结果证明,与LLME相比,本文研究的FAC_LLME方法无论从拟合效果还是均方误差角度,估计性能都比现有方法表现更好,特别是当观测个体内部相关性较小时。在实证分析部分,重点以重庆自贸区为研究对象展开探讨。重庆自由贸易试验区(简称重庆自贸区)的设立,是党中央、国务院在新形势下全面深化改革、扩大开放,深入推进‘一带一路’建设、长江经济带发展、西部大开发战略的重大举措。自贸区内的企业(含上市公司),是自贸区成长的重要“细胞”,其发展好坏,直接影响到自贸区的声誉、形象和对国内外其他企业的吸引力,甚至关乎中国经济发展在国际上的水平和地位。深入研究自贸区内各企业的发展,通过建模分析未来经济走势,帮助各企业排查薄弱环节、进一步趋利避害、深化内部管理,提升企业发展的质量,让社会经济建设领域内的各“细胞”更具活力,对于推动地方改革发展和经济建设具有极其重大的现实意义。本文收集了重庆自贸区中全部16所上市企业的主要经济指标数据,通过因子分析将7个原始变量依据累计方差贡献率原则进行降维,得到压缩后的2个公因子,并结合混合效应模型进行建模估计,最终得到上市企业总资产变化的估计曲线。根据实证分析呈现的结果,进而为自贸区内上市企业乃至整个重庆自贸区的建设发展提供一定的理论依据。