收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

若干非参数和半参数模型的稳健估计和特征筛选

孙静  
【摘要】:近几十年来非参数和半参数建模受到越来越多统计学者的关注,大量的文献研究了非参数和半参数回归模型的估计问题.非参数模型的优势在于它的灵活性,不需要对模型的结构做任何具体的假设.可是,非参数模型存在明显的缺陷.首先,维数诅咒是非参数估计无法逃避的一个本质问题.其次,非参数模型中很难加入离散的预测变量.第三,当预测变量的维数较高时,很难画出估计函数的图像并给出估计的合理解释.半参数模型作为非参数模型和参数模型之间的一类模型,既继承了非参数模型的灵活性,又继承了参数模型的可解释性.关于模型结构的假定方面:半参数模型强于非参数模型又弱于线性模型,一定程度上降低了(并非完全消除)模型指定错误的可能性.现有的估计方法大多数基于最小二乘法;而最小二乘方法不稳健,同时需要误差的二阶矩存在并且有限.另一方面,随着收集数据能力的不断提高,(超)高维数据频繁地出现在社会生活和科学研究的诸多领域;高维数据的变量选择和超高维数据的特征筛选问题也因此成为当今统计界的又一研究热点.本文在非参数和半参数回归模型的框架下分别研究稳健的估计方法和稳健的特征筛选方法,以便进一步补充和完善相关的方法和理论. 第2章研究一般的非参数模型Y=m,(T)+σ(T)ε,其中Y是响应变量,T是协变量并且与随机误差ε相互独立,误差满足E(ε)=0, var(ε)=1.假设m,(·)是光滑的,σ(·)恒正.Kai.Li和Zou(2010)在上述非参数模型下提出局部复合分位数回归(local composite quantile regression,LCQR)方法.当误差分布对称且非正态时,LCQR.估计能够显著地改进局部最小二乘(local least squares,LLS)估计的效率;误差服从正态时,LCQR估计相对于LLS估计损失的效率也很少.可是,LCQR方法仅适用于对称的误差分布,非对称的误差分布下LCQR估计的相合性无法保证.实际中误差分布一般是未知的,Kai.Li和Zou(2010)给出的误差对称性的假设有些牵强.为此我们针对非参数模型提出加权局部复合分位数回归(weighted local composite quantile regression,WLCQR)方法,新方法对误差分布没有任何要求,适用范围比LCQR更广泛.任意给定t0,构造m(t0)的WLCQR估计.我们利用不等的权重{ωk,k=1,...,q)对Kai.Li和Zou(2010)的LCQR方法中求出的初始估计{ak,k=1,...,q)进行加权复合.等间隔地取q个点{τk=k/(q+1),k=1,...,q}.记F-1(·)为误差ε的分位数函数,定义m(t0)的WLCQR估计m(t0)为其中权向量U=(ω1,m2,...,ωq)T满足在误差分布对称性未知的情况下.条件使得WLCQR估计m(t0)的渐近偏表达式中的常数项恰好为零,从而保证了WLCQR估计的相合性.于是我们可以得到m(t0)的渐近偏,渐近方差和渐近正态性,即和权向量ω一般是不唯一的,我们通过最小化渐近方差求出最优权向量ω*的理论表达式,从而得到与之对应的m(t0)的最优估计而。m(t0)的渐近方差当误差分布对称时,我们在渐近相对效率的准则下比较新方法求出的最优估计m*(t0),经典的LLS估计mts(t0)以及Kai,Li和Zou(2010)提出的LCQR估计m.cqr(t0)的效率,得到此外,数值模拟和一个实例分析得出的结论也与之前的理论分析一致. 第3章研究变系数部分线性模型Y=XTα(U)+ZTβ+ε, 其中α(U)={α1,(U),...,αd1,(U)}T是一个d1×1维未知的光滑函数系数向量,β=(β1,...,βd2)T是一个d2×1维未知的真实参数向量.假设U是一元协变量,随机误差£与协变量向量{U,X,Z}独立,E(ε)=0.任意给定u0,针对上述变系数部分线性模型给出局部秩方法的具体估计步骤.由于模型既涉及参数部分也涉及非参数部分,相对应估计的收敛速度应分别与经典的参数和非参数估计的收敛速度保持一致.受到Kai,Li和Zou(2011)的启发,我们提出三阶段估计步骤来实现局部秩的思想.第一阶段,利用局部秩回归得到参数部分β和非参数部分αu0)的初始估计.第二阶段,利用全局秩回归修正第一阶段求出的参数部分β的初始估计,改进后的参数估计的收敛速度与经典的参数估计的收敛速度保持一致.第三阶段,再次利用局部秩回归改进第一阶段求出的非参数部分α(u0)的初始估计.于是我们可以分别建立参数部分β的局部秩估计βLR和非参数部分α(u0)的局部秩估计αLR(u0)的渐近正态性,即和进一步,通过比较参数部分和非参数部分的局部秩估计和局部最小二乘估计的效率可以发现,局部秩方法相对于局部最小二乘法是一种既稳健又有效的估计方法.具体地说,对大多数非正态分布的误差而言,局部秩估计能够显著地改进局部最小二乘估计的效率;误差分布服从正态时,局部秩估计的效率损失极少.理论结果表明,非参数部分的局部秩估计损失的效率不超过11.1%,参数部分的局部秩估计损失的效率不超过13.6%.此外,我们通过数值模拟和一个环境数据集的实例分析再次验证了之前得到的理论结果. 第4章研究超高维模型下的特征排序和筛选方法.大多数已有的特征筛选方法都需要假定模型的具体结构,并且要求工作模型与潜在的真实模型非常接近.Zhu,Li,Li和Zhu(2011)在很一般的模型框架下提出一种新的特征筛选方法,即SIRS (sure independent ranking and screening)方法.SIRS方法不需要假设回归模型的具体结构,适用于一大类常见的参数和半参数模型.可是我们发现SIRS方法在某些情况下无法选出活跃的预测变量,第4章将给出具体的例子加以说明.为了改进SIRS方法,我们首次利用预测变量的“局部”信息流来定义新的边际效用准则,进而提出新的非参数特征筛选(nonparametric ranking and screening,NRS)方法.NRS方法依然不需要假定模型的具体结构,其边际效用准则的定义为ψk=E[Ψ2(Xk,Y)], k=1,...,p,其中这里权重函数w(xk)满足w(xk)≥0,E[w,(Xk)]=1.实际中权重函数的简单选取方法是w(xk)=2E[I(Xkxk)].我们用ψk来度量预测变量Xk的边际效用,并从理论上证明了NRS方法具有排序相合性.即在一定的正则性条件下,存在充分小的常数sδ/2∈(0,4/δ),使得成立.此外,我们还研究了活跃预测变量之间的相关性并将其运用到特征排序和筛选的过程中,使得非参数特征筛选方法更全面,适用范围更广.在数值模拟实验中,通过考查备种不同类型的回归模型,我们再次验证新提出的方法一致且显著地优于已有的特征筛选方法.


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张德飞;段星德;;随机微分方程的非参数估计及其在股票指数中的应用[J];重庆工商大学学报(自然科学版);2009年05期
2 何平,刘海燕;基于有删失数据的失效率非参数估计方法[J];西南交通大学学报(自然科学版);1998年04期
3 黄可明;齐次随机场相关函数非参数估计的某些强收敛性[J];福州大学学报(自然科学版);2002年04期
4 谢民育;宁建辉;;对称连续分布函数的最优不变估计[J];数学物理学报;2009年04期
5 杨筱菡;污染分布的非参数估计[J];同济大学学报(自然科学版);2001年06期
6 王晓丽;席金平;吴润衡;;基于Copula函数和非参数估计的尾部相关性[J];数学的实践与认识;2009年07期
7 魏万之;李于善;姚守拙;;非参数估计用于离子选择电极多组分的测定[J];湖南师范大学自然科学学报;1993年04期
8 胥雪炎,李补喜;生存函数的一种非参数估计[J];太原理工大学学报;1998年05期
9 陈萍,杨孝平;资产方程的非参数估计[J];南京理工大学学报(自然科学版);2004年02期
10 李平;邢丽娜;;企业规模与技术创新关系的实证研究[J];山东理工大学学报(社会科学版);2007年02期
11 陈平;;竞争风险场合二元生存函数的非参数估计[J];东南大学学报(自然科学版);1992年02期
12 高永红;回归函数核估计的渐近正态性[J];武汉水利电力大学学报;1994年05期
13 吴群英;非线性模型最小二乘估计的渐近正态性[J];桂林工学院学报;1998年04期
14 刘海燕,赵联文;非参数估计中核估计的构造及相合性[J];西南交通大学学报(自然科学版);1999年03期
15 董晓芳;宋向东;张良勇;郭照庄;;排序抽样的非参数估计[J];邢台学院学报;2006年02期
16 巩永丽;张德生;武新乾;姜爱平;;人口增长率的非参数自回归预测模型[J];山西师范大学学报(自然科学版);2007年01期
17 巩永丽;张德生;武新乾;;人口增长率的非参数自回归预测模型[J];数理统计与管理;2007年05期
18 区诗德;杨善朝;;VaR与ES的非参数估计的统计分析[J];重庆大学学报(自然科学版);2007年10期
19 李向武,韦岗;基于小波网络的动态系统辨识方法及应用[J];控制理论与应用;1998年04期
20 谢衷洁,王弛;用时间序列方法预测股票价格初探[J];数理统计与管理;2004年05期
中国重要会议论文全文数据库 前10条
1 钱伟民;王娟;;线性混合效应模型中随机效应密度的非参数估计[A];2003中国现场统计研究会第十一届学术年会论文集(上)[C];2003年
2 达庆利;何建敏;;区域水环境经济系统多目标递阶规划的产出预测变量法[A];科学决策与系统工程——中国系统工程学会第六次年会论文集[C];1990年
3 王英华;柴根象;;小波密度估计的相合条件[A];中国现场统计研究会第九届学术年会论文集[C];1999年
4 彭宜钟;;如何选择我国A股股价干预政策的着力点?[A];2010年中国产业组织前沿论坛会议文集[C];2010年
5 雷雳;李洋;;欺负情境中几种角色行为的预测变量[A];第十届全国心理学学术大会论文摘要集[C];2005年
6 姚海祥;;基于非参数估计方法和CARA效用函数的投资组合选择[A];第十三届中国管理科学学术年会论文集[C];2011年
7 李正农;周军;袁文阳;宋一乐;孟吉复;;结构可靠度的非参数估计方法[A];第五届全国结构工程学术会议论文集(第一卷)[C];1996年
8 韩敏;李德才;;基于因果聚类的多变量时间序列相关性研究及预测[A];第二十六届中国控制会议论文集[C];2007年
9 刘红云;;多水平项目反应理论模型的应用[A];第十届全国心理学学术大会论文摘要集[C];2005年
10 王艳;李兵顺;王建彬;;超声检查及血清肝纤维化指标对肝脏纤维化诊断的研究[A];中华医学会全国第九次感染病学学术会议论文汇编[C];2006年
中国博士学位论文全文数据库 前10条
1 孙静;若干非参数和半参数模型的稳健估计和特征筛选[D];山东大学;2013年
2 吴小霞;多重检验中FDR方法及其参数估计问题的研究[D];武汉大学;2010年
3 郭颖;森林地上生物量的非参数化遥感估测方法优化[D];中国林业科学研究院;2011年
4 李朝奎;非线性模型空间测量数据处理理论及其应用[D];中南大学;2001年
5 张松林;非线性半参数模型最小二乘估计理论及应用研究[D];武汉大学;2003年
6 王建国;审查回归(Censored Regression)模型的参数、半参数和非参数估计及一致性模型设定检验[D];中国社会科学院研究生院;2011年
7 许业友;外汇期权定价的非参数几何Lévy模型与对冲策略研究[D];华南理工大学;2011年
8 陈萍;随机波动率模型的统计推断及其衍生证券的定价[D];南京理工大学;2004年
9 付光辉;高维的强相关数据的模型选择[D];中南大学;2011年
10 陈曦;关于正倒向随机微分方程和倒向广义自回归条件异方差模型的统计推断[D];山东大学;2010年
中国硕士学位论文全文数据库 前10条
1 郑玮;基于非参数估计方法的违约回收率密度函数估计研究[D];浙江财经学院;2013年
2 李彦伶;中国情境下一线服务业服务氛围的预测变量[D];西南财经大学;2011年
3 陈干霞;随机生存森林在高维生存资料中的降维分析[D];南京医科大学;2012年
4 张彦书;面板数据的非参数估计及应用[D];华中科技大学;2010年
5 陈文勇;函数型众数非参数估计问题研究[D];合肥工业大学;2011年
6 邵伟;状态价格密度的非参数估计[D];南京理工大学;2013年
7 夏小艳;基于扭曲函数的风险度量分析与研究[D];武汉理工大学;2008年
8 万青;基于非参数估计的核回归图像去噪[D];中南民族大学;2008年
9 黄杰;资源外包、组织结构变革与管理会计的发展[D];南京财经大学;2008年
10 毛娟;隐含波动率的函数型数据分析[D];武汉理工大学;2008年
中国重要报纸全文数据库 前10条
1 本报记者吴晓燕;在什么环境下看比看什么更重要[N];中国经营报;2003年
2 南京市地方税务局信息管理处、计算机中心 明靖 朱岚;数据挖潜让业务说话[N];中国计算机报;2006年
3 知名心理学者 张结海;“漂亮”不是唯一,“特色”亦可成功[N];广州日报;2010年
4 ;选择合适的数据挖掘算法[N];计算机世界;2007年
5 刘颖昊 刘涛 丁晓 黄志甲;钢铁联合企业CO_(2)排放影响因素与减排措施分析[N];世界金属导报;2010年
6 盛书连;建立完善的税收征管体制[N];安徽经济报;2000年
7 ;借鉴国际权威模式设定基金分类标准[N];证券时报;2003年
8 益普索(中国)市场研究部;产品独特性会否激发消费者的购买兴趣[N];中国经营报;2005年
9 普林斯顿大学经济学讲座教授 邹至庄;经济学家能作出准确的预测吗?[N];第一财经日报;2009年
10 葛新权 北京信息科技大学经济管理学院;实验经济学需要与其他经济理论相结合[N];中国社会科学报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978