收藏本站
《北京协和医学院》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

零频数过多资料的统计学模型应用研究

徐涛  
【摘要】:研究背景: 在医学研究中,经常遇到零频数过多的计数资料,如亚健康症状数。此种数据表现为离散型资料,其观察值为零或正整数,但是近半数甚至于大多数观察值为零,过多零频数的存在使得数据过度离散。传统的负二项回归和Poisson回归模型的拟合效果将受到影响,在模型拟合过程中,如果忽略这些零的存在,对参数的估计就会产生偏差。在这种情况下可把原始数据集看成是由一个全零数据集和一个服从Poisson分布或负二项分布的数据集混合而成,这就是零频数过多的回归模型,简称ZI模型。 已报道的关于ZI模型应用的研究都是通过一个实际样本探讨ZI模型的应用效果,并与传统的Poisson回归和负二项回归模型进行比较,没有一项研究能够在各种零频数比例下验证ZI模型的拟合优度,探讨零频数比例多大时则过多,及在何种零频数比例下数据分布将不满足传统的Poisson回归或负二项回归模型的要求。本研究利用bootstrap方法在实例样本中通过随机模拟获取各种比例零频数的模拟样本,得到各种零频数比例的随机样本,探讨各种比例零频数时的最优拟合模型,解决零频数比例何时过大而必须采用ZI模型的问题;同时研究ZI模型在亚健康症状数资料中的适用性。 研究方法 ZI模型产生的前提正是可以同时解决资料的过度离散和零频数过多的问题。ZI模型可在医学领域中用于估计一个两阶段的疾病进程,其基本思想是把零事件的发生看做两部分,模型也包括两部分,第一部分来源于那些从未可能发生事件的个体或处于低风险个体,模型参数的解释和一般的logistic回归相似,说明协变量是否影响事件发生;第二部分来源于在Poisson分布或负二项分布条件下没有发生事件的个体或处于高风险个体,模型参数的解释与传统的Poisson回归或负二项回归一样,说明协变量影响事件发生多少的问题。 本研究以亚健康症状数为响应变量,以性别、年龄、婚姻状况、民族、职业、吸烟、饮酒、血压高和肥胖为解释变量,用SAS9.2软件分别对各种零频数比例的bootstrap样本拟合Poisson回归、负二项回归、ZI模型和序数回归模型。用α系数、O检验和Vuong检验等进行数据的过度离散性和零频数是否过多的判断,并用回归模型对各种计数值的预测概率及似然比、AIC、BIC等指标对各种模型的拟合优度进行判定,以选择最优的模型。 研究结果 在样本量为11227的实际样本中,43.3%的受试者没有阳性的亚健康症状,离散系数α为1.013,95%CI为0.965-1.063,可以认为α显著大于0,对亚健康症状数进行过度离散性检验,x=2.90,s=3.85,离散统计量O=308.011,P0.0001,方差显著大于均数,表明存在过度离散,亚健康症状数不符合Poisson分布。Vuong检验的统计量Z=31.93,P0.0001,表明此数据的零频数过多,远远超出了传统负二项分布的估计范围,用负二项分布也不能很好的拟合数据特征。ZINB模型的Log likelihood最大(-22170.741),AIC(44363.482)和BIC(44444.069)最小,且ZINB模型对各种频数的预测概率与实测频率的吻合程度最高。从各拟合优度指标和预测概率而言,ZINB模型是进行亚健康症状数影响因素分析的最佳模型。 在ZINB模型中,从Logit部分可见,年龄越高(β=-0.436,P0.001)、民族为朝鲜族(p=-2.253,P0.001)是出现亚健康症状的危险因素,而单身(p=2.175,P=0.006)和从事脑力劳动(β=1.527,P0.001)的受试者不容易受到亚健康症状的危害。而由负二项部分发现,年龄、性别、脑力劳动、饮酒和婚姻状况是亚健康症状数多少的影响因素,即在处于亚健康状态的受试者中,女性(p=0.280,P0.001)、饮酒者(p=0.098,P=0.008)、离异或丧偶的受试者(p=0.200,P0.001),具有更多的亚健康症状;而年龄越大(p=-0.003,P=0.009)和从事脑力劳动(p=-0.076,P=0.012)的受试者可能具有较少的亚健康症状。 各种零频数比例的bootstrap抽样模拟样本中,当零频数比例小于15%时,ZINB模型的拟合效果与传统的负二项回归模型相当,ZINB模型未体现出拟合效果和结果解释上的优势;而当零频数比例在20%以上时,ZINB模型的拟合效果明显优于传统的负二项回归模型,此时综合考虑拟合优度、预测概率、结果解释的合理性方面,ZINB模型是最佳模型,特别是当零频数比例达到70%以上时,ZINB模型对响应变量的各观察值的预测概率与实际频率几乎完全一致。 当零频数比例达到或超过85%时,序数回归模型的似然比和AIC等指标也较为理想,但从模型对各种频数的预测效果而言,不管零频数的比例大小如何,序数回归模型的预测效果与实测频率均相差较大,序数模型不是进行此类计数资料分析的最佳选择。在任何零频数比例时,由于本样本数据过度离散,Poisson回归的拟合效果都是最差的,ZIP模型的拟合效果也不好。 结论 当零频数的比例达到20%以上时,各种模型预测概率、拟合优度检验、过度离散性检验和零频数过多检验结果均显示ZINB模型是研究亚健康症状数资料的最优模型,为ZINB模型在零频数过多的计数资料中的应用提供了理论上的依据。
【学位授予单位】:北京协和医学院
【学位级别】:博士
【学位授予年份】:2011
【分类号】:R195

【相似文献】
中国期刊全文数据库 前10条
1 王丰;张锐;肖芳;唐熙;;超声预测乳腺癌腋窝淋巴结转移的多因素分析[J];中华临床医师杂志(电子版);2011年08期
2 杨志雄;袁岱菁;;非线性混合效应模型和广义线性模型拟合随机效应logistic回归的应用比较[J];中国卫生统计;2011年03期
3 吴晓超;王利超;吕丹;韩艳敏;白宝钢;;基于温州市产前筛查数据的二联血清指标中位值的回归模型[J];黑龙江科技信息;2011年16期
4 蒋晓渠;陈世耀;王慧;;食管胃静脉曲张破裂出血患者死亡危险因素分析[J];胃肠病学;2011年02期
5 姚应水;叶明全;;RBF神经网络与logistic回归模型的对比研究[J];中国卫生统计;2011年04期
6 李凤增;王永红;陈辉;;血常规参数在脑出血急性期预后判断中的价值[J];中国老年学杂志;2011年12期
7 谢多双;来瑞平;符湘云;王慧芳;聂绍发;;ICU患者医院感染logistic回归模型预测[J];中华医院感染学杂志;2011年12期
8 杨阳;蒲放;钱雅君;任稆平;李淑宇;李德玉;樊瑜波;;日常运动时足底压力实时检测方法研究[J];医用生物力学;2011年04期
9 李伟;周建平;杨胜勇;;药物分子胎盘屏障渗透的支持向量回归模型[J];化学研究与应用;2011年07期
10 于会艳;孙正伟;秦斌;龚涛;曾湘豫;孙云闯;;眼肌型重症肌无力预后的预测指标及影响因素分析[J];中国神经免疫学和神经病学杂志;2010年02期
中国重要会议论文全文数据库 前10条
1 王宝书;;支持向量机方法在预报白山流域夏季定量降水中的应用[A];第26届中国气象学会年会灾害天气事件的预警、预报及防灾减灾分会场论文集[C];2009年
2 蔡成静;王海光;安虎;史延春;黄文江;马占鸿;;小麦条锈病高光谱遥感监测技术研究[A];中国植物病理学第七届青年学术讨论会论文集[C];2005年
3 王雪荣;董威;;中国上市公司机构投资者对公司绩效影响的实证分析新论[A];第三届(2008)中国管理学年会论文集[C];2008年
4 孟超;秦俊;胡永红;;单株截顶香樟树冠生物量及其分配格局[A];中国观赏园艺研究进展(2010)[C];2010年
5 王继民;彭波;孟涛;;基于搜索引擎日志发现相近Web查询[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
6 武锡环;朱珊珊;;影响学生数学成绩的人格因素[A];全国高师会数学教育研究会2006年学术年会论文集[C];2006年
7 杨杰;陈平志;陈尧隆;;库区滑坡体变形监测与安全性态分析评价[A];中国岩石力学与工程实例第一届学术会议论文集[C];2007年
8 钱仲威;;1990~2000年中国粮食产量预测[A];管理科学与系统科学进展——全国青年管理科学与系统科学论文集(第4卷)[C];1997年
9 刘跃;张道伟;;重庆市信息化与电子商务发展水平的实证研究[A];信息经济学与电子商务:第十三届中国信息经济学会学术年会论文集[C];2008年
10 陈飞;戈若愚;左仁广;罗庆;;长大下坡路段重型车辆刹车毂温度预测模型研究[A];自主创新与持续增长第十一届中国科协年会论文集(3)[C];2009年
中国重要报纸全文数据库 前10条
1 龙博;DCE大豆、豆粕期价的数理统计和回归模型[N];期货日报;2005年
2 吴一福;我国建成人动脉血pH值与地理因素回归模型[N];中国医药报;2007年
3 龙博;DCE玉米与相关商品比价关系的实证研究[N];期货日报;2005年
4 通讯员 支勇平记者 韩富斌;我省粉壳蛋鸡选育生产技术获突破[N];陕西日报;2008年
5 ;陕西 粉壳蛋鸡选育生产技术通过成果鉴定[N];中国畜牧兽医报;2008年
6 平安期货研究部 侯书锋;β值在股指期货投资中的应用[N];证券时报;2007年
7 国泰君安证券 蒋瑛琨 彭艳 博士 国泰君安期货研究负责人 马忠强;期指到期日效应实证成果综述及经典实证检验方法[N];期货日报;2007年
8 刘伟;大豆 振荡筑底行情将继续[N];期货日报;2006年
9 中国人民银行宝鸡市中心支行课题组课题组组长 何安瑞 课题组成员 刘立民 庞林科 王钊力 王金占;建立科学数量模型 掌握货币发行主动权[N];金融时报;2008年
10 广发证券 杨景辉 章早立;全流通背景下的长江电力价值中枢[N];中国证券报;2005年
中国博士学位论文全文数据库 前10条
1 徐涛;零频数过多资料的统计学模型应用研究[D];北京协和医学院;2011年
2 程靖;随机系数回归模型的最优设计[D];上海师范大学;2010年
3 李锋;非参和半参回归模型的稳健和截面推断[D];山东大学;2010年
4 马云艳;相依数据下协变量调整回归模型及其在金融时间序列中的应用[D];山东大学;2012年
5 徐晟;专利申请驱动因素研究[D];合肥工业大学;2008年
6 陈金宏;老年保健人群缺血性心脑血管病预警模型研究[D];第三军医大学;2010年
7 谢晓霞;会计信息与股价反应研究[D];四川大学;2007年
8 许红涛;Web图像语义分析与自动标注研究[D];复旦大学;2009年
9 毕凤琴;典型石油石化用低合金钢湿H_2S应力腐蚀行为研究[D];大庆石油学院;2008年
10 刘玉坤;经验似然高阶性质的一些研究[D];南开大学;2009年
中国硕士学位论文全文数据库 前10条
1 王稳;我国中小企业的生存与发展[D];天津大学;2003年
2 金永强;BP神经网络在大坝观测数据处理中的应用[D];合肥工业大学;2005年
3 王学江;垃圾堆肥及其复合肥对小麦、玉米生物与环境效应的影响[D];首都师范大学;2005年
4 李毅;转基因抗虫杂交棉高产高效栽培模型的研究[D];湖南农业大学;2005年
5 杨娥;秩集样本随机回归模型的线性性检验[D];东北师范大学;2006年
6 林燕;我国上市公司独立董事制度与独立审计相关性问题研究[D];浙江大学;2007年
7 邓嘉佳;住房二级市场需求预测及公共政策分析[D];四川师范大学;2008年
8 曾庆霞;基于支持向量机的水泥路面使用性能评价与预测的研究[D];长沙理工大学;2008年
9 刘锦萍;粒子群算法的改进及其在回归模型参数估计中的应用[D];华东师范大学;2009年
10 潘光明;半参数回归模型的估计问题——L~q-mixingale误差序列情形[D];安徽大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026