收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

几类常用非线性回归分析中最优模型的构建与SAS智能化实现

高辉  
【摘要】:【目的】针对几类常用的一重和多重非线性回归分析在具体使用中存在的难以克服的障碍,探索相应的解决方法,以获得拟合实际资料效果最好的回归模型,从而促进几类非线性回归分析在理论和方法上的进一步完善,并提升使用时的可操作性和智能化水平,以利于其推广和应用。 【内容】本研究涉及的非线性回归分析可分为固定模式和非固定模式的非线性回归分析两大类。固定模式是指原因变量和模型结构均已确定,非固定模式是指仅模型结构确定,而原因变量尚未确定。根据资料是否含有层级结构,非固定模式的非线性回归分析又可细分为两型:非固定模式的单水平与多水平非线性回归分析。 本研究中涉及的固定模式的非线性回归分析,包括多项型指数曲线类模型、S型生长曲线类模型和产量-密度曲线类模型。这些模型在实际应用中使用频率较高,但模型结构较为复杂,待估计参数较多,现有的诸多分析方法虽然也能拟合出曲线模型,但模型对资料的拟合精度远不及非线性最小二乘法拟合的效果。然而,运用非线性最小二乘法实际求解时,多基于迭代算法,它要求使用者在迭代开始前提供较为接近真实参数的初估值,否则可能无法获得收敛的结果,或者所得模型为局部最优模型而非全局最优模型。所以,如何快速得到精确的、全局最优的曲线模型,是非常值得研究的一项内容。另外,每一类曲线模型,往往不止一种,以产量-密度曲线类模型为例,它包括Bleasdale-Nelder曲线、Halliday曲线、Farazdaghi-Harris曲线等。在处理实际问题时,如何从多种曲线模型中选出最适合实际资料的那一模型,也需要作深入研究。 本研究中涉及的非固定模式的单水平非线性回归分析,包括二值结果变量、多值有序结果变量和多值名义结果变量定性资料的单水平非线性回归分析,以及计数资料的单水平非线性回归分析。这些分析方法都是在原因变量筛选的基础上,得到既精简度高又拟合度好的回归模型。然而,当前所能使用的主要变量筛选方法,包括前进法、后退法和逐步筛选法等,都在理论上存在一定程度的缺陷,无法保证所得回归模型即为最优模型。因此,提出或实现理论上最为完善的变量筛选方法是当前迫切需要解决的技术难题。另外,对于同一种资料,往往有多种回归分析方法可供使用,以二值结果变量的定性资料为例,可使用的非线性回归分析方法包括logistic回归分析、probit回归分析、互补双对数回归分析等。面对具体资料时,如何对这些回归分析方法进行比较研究,并为实际资料自动提供最好的、最适合的回归模型,也是需要重点研究的又一个技术难题。 本研究中涉及的非固定模式的多水平非线性回归分析,包括二值结果变量、多值有序结果变量和多值名义结果变量定性资料的多水平非线性回归分析,以及计数资料的多水平非线性回归分析。这些分析模型不仅包含固定效应,还包含一些随机效应,此处暂将两类效应变量统称为效应项。在实际使用时,如何对这些效应项进行组合,构造一个最优的回归模型,当前并无较好的方法,多是基于人为确定,操作起来极为不便。所以,如何灵活构建效应项的最优组合,是此类回归分析亟待解决的一个技术难点。另外,与非固定模式的单水平非线性回归分析相似,同一资料有多种可用的回归分析方法时,如何确定哪种分析方法最适合给定的实际资料,也是一项重要的研究内容。再者,多水平模型分析的研究虽已如火如荼,但其模型求解的算法仍不够完善。实际使用时,应如何选择参数估计方法,并对其进行正确的假设检验,也需要作深入研究。 本研究针对这些非线性回归分析在实际使用中存在的技术难点进行研究,并借助SAS软件的编程语言、高级编程技巧和相关过程,实现资料的智能化、自动化分析,为使用者直接提供最优的回归分析方法和分析结果。 【方法】如何实现固定模式的非线性回归分析?本研究采用曲线直线化法加非线性最小二乘法的组合策略,即先以曲线直线化法为基础,计算得到模型中参数的初始值,再采用非线性最小二乘法得到拟合效果更好的曲线模型。在曲线直线化的过程中,有些较为简单的模型经过变量变换和数学推导,即可直接进行直线回归分析;有些复杂的模型不能直接进行曲线直线化,可以先选择一个或两个变化范围较小的参数,通过设置循环变量的方式使其按一定步长在较小的可能值域内变动,这样在每次循环中这些参数都将有具体的值,此时再对曲线模型进行数学推导和变量变换,即可进行直线回归分析。直线回归分析得到的参数估计值,经某些必要的计算后,就可以作为曲线模型中相应参数的初始值。当然,在曲线直线化的过程中,如果对某些参数设置了多个可能的取值,必然会得到较多的初始值组合,进而会得到多个局部最优模型,此时可从中选出拟合效果最好的那个模型作为全局最优模型,这样可以有效地破解局部最优解的难题。 如何实现非固定模式的单水平非线性回归分析?本研究采用了完全意义上的“最优子集法”来解决常规变量筛选方法存在的理论缺陷。当前某些大型统计软件也提供了最优子集法,但仅仅能给出各种原因变量组合情形下模型对资料的拟合效果统计量的值,并未涉及模型中参数估计的结果和假设检验的结果,更未直接给出最优模型,只是提供了含各种数量原因变量的“最优子集”,而最优模型中原因变量的数目仍需由使用者确定。具体来说,本研究考虑在各种原因变量组合情形下,均进行相应模型的构建和统计分析,然后从模型精简程度和拟合优度两方面,选出一个最优模型。 如何实现非固定模式的多水平非线性回归分析?一般统计软件都未提供效应项的筛选方法,只能依靠使用者采用手工法人为调整模型,操作起来非常不便。本研究同样采用完全意义上的“最优子集法”来选择最优模型,即先以固定效应项和随机效应项进行全面组合,然后在每种组合情形下,均进行多水平非线性回归分析,最后从众多模型中,选择拟合效果最好的那个模型作为全局最优模型。当然,对于某些类型的资料,分析时还需考虑分析方法的应用前提条件不满足时如何处理。 对于同类中的多种非线性模型选择问题,可依据模型的类型和参数估计方法选择相应的拟合优度评价统计量,对各模型的拟合效果进行比较,选择拟合效果最好的那个回归模型作为最优模型。 以上方法,具体实现时,可借助SAS软件的编程语言及相应过程,如进行最优子集法分析时,可借助REG、LOGISTIC等过程产生固定效应的全面组合情形,多水平模型分析时,还需借助FACTEX等过程产生随机效应的全面组合。 【结果】本研究对各类非线性回归分析的现有分析策略、计算方法和实现途径在实际应用中存在的问题和不足进行改进,有针对性地提出了相应最优模型的选择策略,并通过编写大量的SAS程序,将这些策略付诸实施,最后以最直观、最简洁和最适用的形式呈现出来。详细来说,论文的研究结果和主要创新点包括以下四个方面。 ⑴对三类固定模式的非线性回归分析进行了研究,摸索出了一套分析策略:即以变量变换和数学推导为基础,通过曲线直线化或分段曲线直线化的方式,得到曲线模型的参数初始值,然后借助相应的迭代算法完成非线性最小二乘法的精确拟合。这一策略可实现此类资料的快速、高效、精准拟合,且可行性、可操作性非常好。此外,本研究还解决了同类多种曲线模型拟合实际资料时的智能化选择问题,所编写的宏程序可以方便地调用以解决同类实际问题。 ⑵对四类非固定模式(含计数资料)的单水平非线性回归分析进行研究,以当前变量筛选方法中存在的理论困境和应用难题为突破口,实现了完全意义上的“最优子集法”,确保了所得的最终模型即为全局最优模型;同时解决了多种相近功能分析方法处理同一资料时,分析方法的拟合效果比较与智能化选择问题,有效地避免了使用者处理实际资料时在分析方法选择上的盲目性和不确定性。 ⑶对四类非固定模式(含计数资料)的多水平非线性回归分析进行研究,以完全意义上的“最优子集法”对效应项进行了全面组合,在拟合效果比较的基础上,自动化地给出了最优模型,破解了当前多水平模型分析时无法进行效应项筛选的难题。当然,也解决了多种相近功能分析方法处理同一资料时,分析方法的拟合效果比较与智能化选择问题,所编写的宏程序可以方便地被调用以解决同类实际问题。 ⑷探索出了一条基于SAS9.2版(之前版本无效)软件进行多水平非线性回归分析时参数估计方法的选择与调整策略,即需要估计的效应项参数较少时,可直接调用操作较为方便的GLIMMIX过程,使用数值积分近似法进行参数估计,但须在假设检验时对自由度进行调整;若需要估计的效应项较多,尤其是随机效应项较多时,直接使用GLIMMIX过程中的数值积分近似法往往无法得到收敛的结果,可先使用GLIMMIX过程中的线性化法得到参数的近似精确估计值,然后以此为初始值,再使用NLMIXED过程中的数值积分近似法作精确估计。 关于GLIMMIX过程,它是SAS软件近年来力推的新过程,与使用极其繁杂的NLMIXED过程相比,具有操作简便的特点,不过该过程虽经多年丰富和发展,但至今仍未能尽善尽美,其不足之处在于:一是未提供随机效应的假设检验结果,二是固定效应的假设检验结果也不准确。使用数值积分近似法时,两过程仅因计算精度不同导致GLIMMIX过程输出的参数值及标准误的估计结果与NLMIXED过程存在非常微小的差异,但GLIMMIX过程的重大缺陷在于其对随机效应未输出自由度,对固定效应虽输出了自由度但却是错误的,故GLIMMIX过程输出的假设检验结果不能直接被采用,须在假设检验时对效应项的自由度进行调整,从而得到准确的概率值。 以上策略,以调用GLIMMIX过程并对假设检验结果稍作调整为主,特殊情形下辅用NLMIXED过程,外加相应的编程,可直接或近似直接地获得最优模型的精确估计,这极大地节省了人工调整模型时的工作量和因人而异的不确定性,相对于王济川等人提出的解决类似问题的策略不仅简化了很大的工作量,而且能够较为方便地实现以最优子集法筛选效应项并通过编程直接获得最终结果的目的。 【结论】本论文以非线性回归分析为主要研究内容,对实际使用中存在的诸多瓶颈问题、不足和不便之处,进行了探索性的实践,并获得了令人满意的结果。 在进行固定模式的非线性回归分析时,摸索出了一套高效的分析策略。这一分析策略在解决三类固定模式的非线性回归分析时,被证明是行之有效的。该策略既可快速便捷地获得参数的估计值,还可得到较传统分析方法拟合效果更优的曲线回归模型,且对其他固定模式的非线性回归分析具有一定参考和借鉴意义。 在进行非固定模式的非线性回归分析时,以完全意义上的“最优子集法”进行原因变量或效应项的筛选,得到对实际资料拟合效果最好的回归模型。这一分析策略,不但避免了常用变量筛选方法在理论上的先天缺陷,也弥补了统计软件中所谓“最优子集法”在应用上的后天不足,可以方便快捷且准确可靠地为使用者提供最优的回归模型。 此外,多种相近功能非线性回归分析方法联用,在理论和技术层面上给出获得最优分析结果的策略、借助SAS系统并加以深层次开发和巧妙利用,使灵活而又复杂的计算策略得以准确完整地实现,在当前众多分析方法孰优孰劣或适用场合不明以及统计软件智能化水平低下的情况下,不失为一个大胆而成功的尝试。当前的统计研究发展迅速,往往是多种分析方法均可实现同一分析目的,较之随意选用其中的某种分析方法,该策略所得结果能更好地诠释资料的内在规律性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王凤儒;杜群山;;番茄杂种优势预测的数学方法探讨[J];电机与控制学报;1988年01期
2 刘澄海;;回归分析基本公式的初等数学描述与证明[J];河北师范大学学报(自然科学版);1993年02期
3 石金峰,刘立忱,曾宪栋,王国君;相关分析中有关问题的探讨[J];辽宁工程技术大学学报(自然科学版);1994年02期
4 杨树国;用Excel的回归分析功能进行敏感性分析[J];化工技术经济;1998年04期
5 孙书亭;吉林市市区交通需求分析[J];北华大学学报(自然科学版);2004年05期
6 胡燕云;上市公司净利润的灰色预测[J];科技创业月刊;2005年08期
7 张冰;;谈遗传算法回归分析技术[J];科技资讯;2006年08期
8 吴琼;原忠虎;王晓宁;;基于偏最小二乘回归分析综述[J];沈阳大学学报;2007年02期
9 王俊芳;;线性回归分析的几何学方法[J];中国科教创新导刊;2007年22期
10 张剑;唐中正;岳红;;企业员工的情绪智力对其工作绩效的影响[J];数理统计与管理;2008年04期
11 牛惠芳;;回归分析与课堂评价模型中指标的选择[J];数学的实践与认识;2008年18期
12 李志刚;迟宪良;穆春舟;;中小企业融资效率实证分析[J];工业技术经济;2008年09期
13 陈凌宇;王桂明;;虚拟变量在方差分析中的应用[J];统计与决策;2009年11期
14 张浩;;中国股票市场财富效应分析[J];现代商业;2010年09期
15 刘情情;;徐州市区全社会用电的回归分析[J];科协论坛(下半月);2011年09期
16 李百炼;李运甓;;判别分析在害虫测报应用中的若干问题[J];湖北农学院学报;1986年01期
17 王春光;窦卫国;;一元回归方程的建立和选优[J];内蒙古农业大学学报(自然科学版);1989年01期
18 许建国;应用逻辑斯蒂方程和马尔柯夫链预测作物单产[J];南京师大学报(自然科学版);1991年03期
19 周世健;不等权平差诊断及应用[J];测绘学院学报;1992年01期
20 朱细刨;浅谈镉异常在火山热液型金矿普查中的应用效果[J];地质与勘探;1993年12期
中国重要会议论文全文数据库 前10条
1 韩咏;齐浩亮;杨沐昀;李生;;基于回归支持向量机的信息检索[A];第五届全国信息检索学术会议论文集[C];2009年
2 何国厚;符湘云;王惠芳;肖德才;谢多双;来瑞平;;气管切开并发肺部感染相关危险因素的Logistic回归分析[A];中国医院协会第十八届全国医院感染管理学术年会论文资料汇编[C];2011年
3 李凯;范立刚;;基于BP神经网络的钢材需求量预测模型[A];2005中国控制与决策学术年会论文集(上)[C];2005年
4 胡顺仁;陈伟民;章鹏;黄晓微;;基于回归分析的挠度测量数据置信区间预测算法[A];2007'中国仪器仪表与测控技术交流大会论文集(二)[C];2007年
5 曹利霞;葛淼;何进伟;薛秀梅;崔致远;;健康成年男性肺总量正常值的地理分布规律[A];中国地理学会2007年学术年会论文摘要集[C];2007年
6 陈日兴;;自动衡器系统物料特性分析试验与准确度开放性——自动衡器结构最新设计方法研讨之一[A];称重科技暨第八届全国称重技术研讨会论文集[C];2009年
7 向仰州;刘方;魏嵬;周琳莉;韦秀文;;应用均匀设计法配制改性粉煤灰净化养鸡废水[A];中国环境科学学会2009年学术年会论文集(第二卷)[C];2009年
8 林建勇;朱宏光;温远光;;尾巨桉蒸腾耗水特性初探[A];第二届中国林业学术大会——S4 人工林培育理论与技术论文集[C];2009年
9 李鹏波;;系统仿真的可信性研究[A];1999中国控制与决策学术年会论文集[C];1999年
10 王杰;陈兰云;;钻孔灌注桩承载力分析[A];第五届全国结构工程学术会议论文集(第三卷)[C];1996年
中国博士学位论文全文数据库 前10条
1 高辉;几类常用非线性回归分析中最优模型的构建与SAS智能化实现[D];中国人民解放军军事医学科学院;2012年
2 尹浩;地中海贫血筛查指标的FTIR/ATR光谱分析方法研究[D];暨南大学;2010年
3 刘爱华;土壤环境中As、Cd、Hg、Pb地球化学背景及通量研究[D];中国地质大学(北京);2005年
4 陈国华;手性药物分子结构表征及定量构效关系研究[D];重庆大学;2010年
5 武子玉;矿物近红外光谱信息提取及应用研究[D];吉林大学;2005年
6 徐英吉;基于技术创新与制度创新协同的企业持续成长研究[D];山东大学;2008年
7 李晓东;中国油气田企业采油过程节能降耗绩效评价研究[D];中国地质大学(北京);2009年
8 黎观红;食物蛋白源血管紧张素转化酶抑制肽的研究[D];江南大学;2005年
9 胡苏皓;自然垄断产业市场有效性评价研究[D];天津大学;2008年
10 田桂军;内膛烧蚀磨损及其对内弹道性能影响的研究[D];南京理工大学;2003年
中国硕士学位论文全文数据库 前10条
1 束加庆;深埋隧洞工程区初始地应力场研究及围岩稳定分析[D];河海大学;2006年
2 张晓琴;江苏省高校毕业生就业焦虑预测因素分析[D];苏州大学;2005年
3 李丹;学习型文化对知识转移过程的影响研究[D];大连理工大学;2007年
4 马艳英;主成分趋势面方法在地质异常中的应用[D];吉林大学;2008年
5 颜丙香;基于因子分析的商业银行绩效比较研究[D];中国海洋大学;2007年
6 赖俊昆;江西省政府招商引资研究与对策分析[D];暨南大学;2008年
7 王开源;城市生活垃圾热值计算模型研究[D];华中科技大学;2007年
8 高倩;我国省级开发区发展差异及影响因素分析[D];中国地质大学(北京);2009年
9 李健;农民工阶层人力资源开发研究[D];青岛大学;2009年
10 王万兴;自密实混凝土在新疆地区堆石混凝土中的研究及应用[D];新疆大学;2009年
中国重要报纸全文数据库 前10条
1 万海波;用Excel完成批量评估函数汇总(上)[N];财会信报;2006年
2 谢季轲 徐新民;警惕危机突然降临[N];期货日报;2011年
3 张永法;新型便携式纺纱质量计算机在线监测装置填补国内空白[N];中国纺织报;2007年
4 本报记者 段佳;机器“品肉师”替您“尝鲜”[N];大众科技报;2010年
5 吕杰 温德成 邹振宇;用EXCEL处理质量数据[N];中国质量报;2005年
6 兴业银行资金中心 冯海天;1年央票利率将稳定在1.92-1.96%之间[N];中国证券报;2006年
7 自治区交通厅养路费征稽处 程爱娟;应用“神经网络模型”预测妇女的平均工资水平[N];新疆科技报(汉);2000年
8 光大期货 曾超;影响铜价因素的实证分析[N];期货日报;2007年
9 李致平 胡金凤;资本结构与产品市场战略的研究[N];首都建设报;2006年
10 记者 熊昌彪;第二炮兵总医院发现慢性头痛证候分布规律[N];中国医药报;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978