收藏本站
《吉林大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

一种基于AICc的新信息准则-bAICc

宋国锋  
【摘要】:在数据分析时经常需要建立一个统计学模型,此时首先需要考虑的是究竟哪几个变量对响应变量产生影响,需要使用哪几个变量建立模型,因此变量的选择是建立统计模型时至关重要的一步.很多统计学的方法都可以用来进行变量的选择,从而用选择出来的变量构建一个“最好”的模型,然而究竟什么是“最好”的模型?“最好”可以是指在数据拟合方面,也可以是指在未来数据预测方面.有很多可以用于变量选择的方法,其中信息准则是经常使用的一类工具.在众多用于变量选择的信息准则中,AIC是应用十分广泛的一个信息准则,甚至可以说AIC是第一个得到广泛认可的信息准则.每一个备选的模型都对应一个AIC值,其值越小,则所对应的模型越好.随后大量的学者对于AIC在不同的框架下都进行了相应的修正,众所周知,传统的AIC在选择备选模型的时候存在过度拟合的问题,也就是被选中的最佳模型,往往会在包含了所有真实变量的前提下又额外包含了若干个假的变量,甚至会选中全模型做为最佳模型,而在小样本的情况下,这一点表现的尤为明显.在众多AIC类信息准则中,AICc是AIC的一个有效的修正,也是应用最为广泛的AIC类信息准则,AICc对于AIC的优势主要体现在使用小样本进行变量的选择上,此时AICc的表现要明显优于AIC.然而,随着样本容量的增大,AICc会失去相较于AIC的优势.为了克服AICc这一缺陷,充分的利用AICc的优势,本文在线性模型以及广义线性模型的框架下,提出了一个基于AICc的新的变量选择准则,在本文中称为分块AICc,简记为bAICc.该方法为了应用AICc在小样本上的优良性质,因此提出了一种分块的思想,并且与AICc相结合.本文在多种模型假设下探究了随着分块样本容量的变化bAICc的表现情况.在此基础上,考虑到相合性是信息准则的一个优良性质,如果一个信息准则是具有相合性的,那么当样本容量足够大的时候,这个信息准则可以选出正确的模型.本文在线性模型框架以及一定的假设下,给出了 AICc与 bAICc关于相合性的三个定理.证明了 AICc在拟合不足的备选模型集合中选取最佳模型是具有相合性的,并且证明了真实模型的AICc值小于任意一过度拟合模型的AICc值的概率大于二分之一,基于此证明了新提出的信息准则bAICc是具有相合性的.假设M_0表示真实模型,考虑备选模型Mk,其中k = 1,...,K,则所有备选模型的集合A={M k|k=1,...,K}过度拟合的模型集合A_1={Mk∈A |M_0(?)Mk } 拟合不足的模型集合A_2 = {Mk ∈ A|M_0(?)Mk或Mk = M_0},此时有A_1 UA_2 = A.对于定理1,在线性模型框架下,假设真实模型M_0的回归系数向量是βE,备选模型Mk的回归系数向量是β,βE与β的维数均是p× 1,分别含有p0与P个非零元素,其余元素为0,表示真实模型与备选模型的维数是P0与p(p0,p≤p),且l(βE;y)与l(β;y)分别是真实模型与备选模型所对应的对数似然函数,假设:(C1)l(βE;y)-l(β;y)收敛到一个正数或者是趋近于正无穷;(C2)βE是βE的相合估计;(C3)β不是βE的相合估计.其中 ∧表示极大似然估计.在如上的三个假设的基础上,有定理1.定理1当从备选模型集合A_2中选取最佳模型时,AICc是具有相合性的,即AICc(M_0)AICc(Mk)恒成立,其中 Mk ∈ A_2 且 Mk ≠ M_0,AICc(M_0)与 AICc(Mk)分别是真实模型与备选模型的AICc值.对于过度拟合模型模型集合A_1,有如下定理2.定理2当从备选模型集合A_1中选取最佳模型时,AICc是不具有相合性的,AICc会有一定的概率选中过度拟合的模型,但是真实模型M_0的AICc值小于任一过度拟合模型Mk的AICc值的概率大于1/2,也就是P{AICc(M_0)AICc(Mk)}1/2,其中 Mk ∈ A_1 且 Mk ≠M_0.从以上的定理可以看出,当样本容量足够大的时候AICc是可以排除拟合不足的模型的,因此AICc之所以不具有相合性,是由于AICc有一定的概率选中过度拟合的模型,这也验证了在实际数据分析中AICc容易选中过度拟合模型的现象.不失一般性,假设备选模型集合A中存在一个过度拟合的模型,根据定理1与定理2,证明有如下关于 bAICc 相合性的定理3.定理3当分块数B → +∞时,bAICc是具有相合性的信息准则,P(bAICc(M_0)bAICc(Mk))→ 1,其中Mk ∈ A 且 Mk≠ M_0,bAICc(M_0)与bAICc(Mk)分别表示真实模型与备选模型的bAICc值.提出新的信息准则bAICc后,在线性回归模型,二项回归模型,泊松回归模型以及伽玛回归模型的假设下,进一步进行了模拟实验,并且将该新提出的信息准则与其他常见的6个信息准则进行了对比,也表明了该信息准则在多种模型框架下的良好表现.bAICc在样本容量足够大的时候表现明显优于其余非相合性的信息准则,这也意味着实际上bAICc在广义线性模型框架下,也是应该具有相合性的.同时在实际数据分析中使用应用广泛的二项回归模型与泊松回归模型分析了三个真实的数据集,一个是某地区孩子出生率的数据集,一个是蜗牛在一定的生态环境下存活数量的数据集,一个是鱼类眼部寄生虫数量的数据集.大量的数值模拟实验以及实际数据集的分析,都验证了该新方法在变量选择上是一个较好的信息准则.
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:O212.1

【相似文献】
中国期刊全文数据库 前2条
1 黄荣坦;线性模型信息准则的稳健性[J];厦门大学学报(自然科学版);1993年05期
2 张明玉,邬文兵;一种基于改进的Akaike信息准则的相关关系检测的新方法[J];中国管理科学;1998年03期
中国博士学位论文全文数据库 前1条
1 宋国锋;一种基于AICc的新信息准则-bAICc[D];吉林大学;2017年
中国硕士学位论文全文数据库 前2条
1 徐刚;一种基于小波的高频数据降噪和跳跃信息准则[D];中国科学技术大学;2017年
2 庞博;非正态多元线性模型中的二阶偏差校正的Akaike信息准则[D];中国科学技术大学;2017年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026