收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

生存分析中删失数据比例对Cox回归模型影响的研究

钱俊  
【摘要】: 目的和意义 在生存数据研究中,Cox回归能处理不同生存时间分布的删失数据,无疑是生存分析中最常用最经典的方法。在实际应用中,删失比例很大并应用Cox回归进行生存分析的情形并不鲜见。此时,Cox估计结果的可靠性和准确性如何?Cox模型是否对删失比例没有任何限制?这些问题国内外尚无系统研究的报道。本课题旨在研究删失比例大小对Cox模型分析结果的影响,继而确定应用Cox模型进行生存分析时删失比例的限度。这一问题的解决不仅对删失数据研究具有重要影响,还将为生存分析应用领域提供一个可参考的标准,从而增强危险因素分析的可靠性,提升科学研究结论的质量。 方法 根据Cox的偏似然算法,回归系数由事件和删失发生的秩序确定,而并非具体的生存时间取值,删失数据的信息只体现在偏似然函数的风险集中。但若删失比例很大,必然导致回归结果的偏倚。本研究将从随机模拟的角度探讨删失数据对Cox模型分析结果的影响,考察Cox回归模型在不同删失比例条件下结果的偏倚性、准确性和有效性。 一、参数设置 1.协变量个数:单因素和多因素情形,多因素情形考虑协变量个数为2、4和8。在多因素情形下,设置部分协变量为无关因素,以考察Cox模型筛选影响因素的能力。 2.生存分布:在已知的生存分布中,只有指数分布、Weibull分布、Gompertz分布满足Cox比例风险假定。分别设置生存时间的分布为以上这3种类型。 3.删失分布:考察Ⅰ型删失和Ⅲ型删失(随机删失)。Ⅰ型删失设置为截尾分布,Ⅲ型删失设置为指数分布和均匀分布。 4.协变量类型:离散型和连续型随机变量,取值分布有两点分布、正态分布、均匀分布、Gamma分布等。 5.样本量大小:以协变量个数的倍数来设置,单因素情形设置为协变量个数的20,40,80……200倍;多因素情形还考虑10倍以及500倍。以样本量和协变量个数倍数的大小来划分,可将样本大小分为3个等级: 样本量为协变量个数的20倍以下,定义为小样本; 样本量为协变量个数的20倍~100倍,定义为中等样本; 样本量为协变量个数的100倍以上,定义为大样本。 6.模拟重复次数:所有参数组合条件下重复抽样500次。 二、评价指标设置 1.偏倚性:回归系数的相对误差(MAD)和回归系数正负性改变的比率(BIAS)。不同删失比例条件下回归系数估计值的相对误差称为MAD,而回归系数估计值的正负号发生改变的比例,以评价指标BIAS标志。MAD和BIAS数值越小,偏倚就越小。 2.准确性:回归系数标准差比率(Stdratio)。不同删失比例条件下回归系数标准差的大小与完整数据下的相比,比值以评价指标Stdratio标志。Stdratio越小(越接近1),结果的准确性越高。 3.有效性:回归结果显著性比率(Propower)。以完整数据的Cox回归结果显著性为前提条件,计算不同删失比例条件下回归结果显著性所占的比例,以指标Propower标志。Propower数值越大,结果的有效性越高。 三、模拟研究过程 1.根据生存时间的分布规律构造出完整数据。 根据不同的生存分布类型,求出累积基准风险函数的反函数,设置不同的分布参数和协变量,产生相应条件下生存时间的完整数据。 2.从完整数据中根据删失数据的分布随机抽样,产生不同删失比例的若干数据集。 先根据删失分布类型和删失比例的设置,运用迭代计算,确定删失分布中参数的取值,然后生成删失时间数据。结合生存时间和删失时间,继而产生不同删失比例下含删失的生存数据集。 3.再以完整数据建立的Cox模型为金标准,从参数估计、显著性检验等方面评价不同删失比例下Cox结果的准确性和可靠性,计算不同删失情形下评价指标数值。 4.对不同删失比例条件下评价指标的变化趋势进行分析。 各项评价指标都是删失比例的单调函数,为了研究单调的特性,引入了差分的概念。一阶差分的正负性代表函数的增减性。二阶差分代表单调变化的加速度,其数值围绕0附近表示函数近似呈线性单调;偏离0越远则函数递增(递减)趋势越大。 结果 一、结果的偏倚性。 以回归系数的相对误差(MAD)和回归系数正负性改变的比率(BIAS)指标来刻画。 1.在不同生存分布类型和协变量类型下评价指标MAD和BIAS结果类似。 2.在删失分布为Ⅰ型删失(截尾分布)情形下偏倚略小,在Ⅲ型删失各种分布类型下结果近似。 3.受回归系数大小的影响,回归系数越小,MAD数值会越大。 4.随着删失比例的增大,MAD和BIAS数值逐渐增大,在删失较大时会出现加速增大(加速偏倚)的现象。加速偏倚的位置和样本量大小有关: 小样本情形,删失比例在70%后偏倚加速增大; 中等样本情形,删失比例在80%后偏倚加速增大; 大样本情形,删失比例在90%后偏倚加速增大。 二、结果的准确性。 以回归系数标准差的比率(Stdratio)来刻画。 Stdratio的变化主要和删失比例有关:其随着删失比例的增大而不断增大,在删失比例70%时中位数数值达到1.7以上且这种增大趋势会“加速”。Stdratio的增大和加速增大的趋势不受样本量大小的影响,在各种参数条件下数值接近。 三、结果的有效性。 以回归结果显著性比率(Propower)来刻画。 Propower与协变量的标准差、样本量的大小等因素都有关,但它总是随着删失比例的增大而不断下降。 四、极端值的分布 在小样本和大删失的情形下,比较容易出现极端值的现象。取Stdratio数值大于100做为极端值来描述其分布,此时MAD最小值达到4.5,最大值超过1000,Cox回归的估计毫无意义可言。与Ⅲ型删失相比,Ⅰ型删失较少出现极端值现象。在小样本情形下,极端值的出现应引起重视。在单因素情形下,若事件数(死亡例数)小于10,极端值出现的可能性达到5%,若事件数小于6,极端值出现可能性上升到20%。 结论 删失比例的增大会造成Cox模型分析结果的准确性、有效性下降,偏倚性增大。在删失比例超过70%后,Stdratio中位数数值超过1.7且加速增大,结果的准确性大大下降。指标Propower数值总是随着删失比例的增大而不断下降。 在小样本情形下,删失比例超过70%后,偏倚加速增大且极端值的可能出现应引起重视。中等样本情形下,删失比例超过80%后,偏倚加速增大。大样本情形下,删失比例超过90%后,偏倚加速增大。 为了提高结论的准确性和可靠性,在应用Cox模型进行生存分析时,应检查删失比例是否超过最大限度:样本量为协变量个数20倍以内,删失比例不宜超过70%;样本量为协变量个数20~100倍之间,删失比例不宜超过80%;样本量为协变量个数100倍以上,删失比例不宜超过90%。 总而言之,本研究揭示了删失比例对Cox模型结果的影响,根据课题的研究结果确定了应用Cox模型进行生存分析时删失比例的限度,为实际应用提供了参考依据。


知网文化
【相似文献】
中国期刊全文数据库 前17条
1 李新华;张惠琴;;区间删失Cox模型在临床随访中的应用[J];贵阳医学院学报;2007年02期
2 肖媛媛;陈莹;何利平;喻箴;许传志;;不同删失比例下AFT模型与Cox模型表现比较的模拟研究[J];中国卫生统计;2017年04期
3 蔡丽馨;仲子航;杨旻;于全骥;周佳薇;倪森淼;于浩;柏建岭;;指定删失比例的生存数据模拟及R实现[J];中国卫生统计;2022年01期
4 张婧;靳韶佳;陈丹丹;;超高维Ⅱ型区间删失数据的非参数变量筛选法[J];应用数学学报;2021年05期
5 杨琳;房厦;郭航;;左截断双删失数据下可加可乘风险率模型的估计[J];数理统计与管理;2017年02期
6 邓文丽;程恒星;张日权;;Ⅰ型区间删失数据下加速失效治愈率模型的估计问题[J];应用概率统计;2017年04期
7 李斐;;指数总体删失数据的极大似然估计[J];高等数学研究;2021年01期
8 邱明悦;胡涛;崔恒建;;双区间删失下新冠病毒肺炎潜伏期分布的参数估计[J];应用数学学报;2020年02期
9 徐立;李华;张宁;阮旻智;邵松世;;基于删失数据的雷弹装备电子件贮存寿命估计方法[J];水下无人系统学报;2020年03期
10 杨明杰;杨春燕;;费用约束条件下带有竞争风险的逐级删失模型的优化[J];云南大学学报(自然科学版);2020年05期
11 田玉柱;邱晓鹏;田茂再;;广义逐步混合删失方案下广义指数分布的参数推断[J];应用概率统计;2017年04期
12 田媛;王淑影;王纯杰;董小刚;;自适应逐步Ⅱ型混合删失下威布尔分布的参数估计[J];数理统计与管理;2016年04期
13 李文静;邓文丽;章婷婷;;信息区间删失数据的参数估计及敏感性分析[J];江西师范大学学报(自然科学版);2014年06期
14 本刊编辑部;;全科医生小词典——删失数据[J];中国全科医学;2015年06期
15 陈琴;;中间删失数据丢弃情形指数分布的参数估计[J];科技信息;2012年18期
16 陈琴;;中间删失下指数分布的参数估计[J];湖北师范学院学报(自然科学版);2010年01期
17 朱成莲;;带右删失数据的非线性模型的参数估计[J];统计与决策;2009年14期
中国重要会议论文全文数据库 前20条
1 王峰;;光催化生物质制氢气和COx[A];第四届能源转化化学与技术研讨会摘要集[C];2021年
2 吴显祥;吴胜其;;应用cox比例危险度模型对腋淋巴结阴性乳腺癌患者预后的多因素分析[A];2000全国肿瘤学术大会论文集[C];2000年
3 江澄;林胜友;赵晶磊;;胃癌术后预后影响因素的Cox分析[A];2012年浙江省中医药学会博士学术研究分会学术年会暨“中医药临床科研方法学培训班”论文集[C];2012年
4 杨小锋;郑学胜;龚江标;李谷;傅伟明;刘伟国;;影响脑胶质瘤预后多因素的COX模型生存分析[A];2007浙江省神经外科学学术年会论文汇编[C];2007年
5 林胜友;江澄;赵晶磊;;胃癌术后预后影响因素的Cox分析[A];2012·中国医师协会中西医结合医师大会第三次会议论文集[C];2012年
6 孙建伟;许汴利;;狂犬病潜伏期及病例暴露后生存与风险变化的Cox回归分析[A];2010全国狂犬病防控高层论坛论文集[C];2010年
7 吉国明;喻天翔;宋笔锋;冯蕴雯;;基于Cox’s模型的加速可靠性增长模型[A];陕西省航空装备制造技术发展——第九届陕西省青年科学家论坛论文集[C];2006年
8 徐梓翔;王莉娜;孙金芳;余小金;;基于数据扩增的区间删失贝叶斯比例风险模型的应用与R实现[A];2017年中国卫生统计学学术年会论文集[C];2017年
9 吴苗琴;罗浩;黄小珍;;近视激光术后远期干眼症影响COX模型分析[A];2008年浙江省眼科学术会议论文集[C];2008年
10 刘强;刘黎明;;带有删失数据的线性EV模型的统计推断[A];北京市第十六次统计科学研讨会获奖论文集[C];2011年
11 周胜华;晏玉奎;冯耀耀;张强春;;预测新诊断癫痫患者单药治疗效果的多因素Cox回归分析[A];2014年浙江省神经病学学术年会论文汇编[C];2014年
12 于跃明;王贵英;周超熙;丁瑞;刘鸿章;李会欣;;结直肠癌术后患者Cox模型预后分析—1998~2006年河北医科大学第四医院随机抽样研究[A];第五届全国中医药免疫学术研讨会——暨环境·免疫与肿瘤防治综合交叉会议论文汇编[C];2009年
13 都爱莲;Robert Naviaux;Richard Haas;;检测成纤维细胞中氧化磷酸化复合物辅助诊断COX缺陷型线粒体脑肌病[A];2012年浙江省神经病学学术年会论文集[C];2012年
14 洪国斌;周经兴;许林锋;梁碧玲;;影响中晚期胰腺癌预后因素的Cox回归分析[A];中华医学会第十三届全国放射学大会论文汇编(下册)[C];2006年
15 王晖;罗春芳;张北华;;COX—2在宫颈鳞状细胞癌的表达及意义[A];中华医学会病理学分会2007年学术年会暨第九届全国病理大会论文汇编[C];2007年
16 马志红;王敏;;影响子宫内膜癌手术预后因素的COX模型多因素分析[A];东北三省第四届妇产科学术会议论文汇编[C];2008年
17 黄耀林;叶炯贤;刘颜;李贤新;陶令之;史本涛;来永庆;关志忱;;前列腺癌预后影响因素的Cox模型分析[A];第十七届全国泌尿外科学术会议论文汇编[C];2010年
18 张志勇;乔玉华;王华玖;豆振京;;影响肾癌患者预后因素的Cox模型分析[A];第十六届全国泌尿外科学术会议论文集[C];2009年
19 孙志猛;张忠占;;随机右删失数据下线性变换模型的经验似然推断[A];北京市第十五次统计科学讨论会获奖论文集[C];2009年
20 周红华;白先忠;;影响后腹腔软组织肉瘤手术预后的COX回归分析[A];第八届中国肿瘤学术大会暨第十三届海峡两岸肿瘤学术会议论文汇编[C];2014年
中国博士学位论文全文数据库 前20条
1 钱俊;生存分析中删失数据比例对Cox回归模型影响的研究[D];南方医科大学;2009年
2 王淑影;带有信息的区间删失失效时间数据的半参数分析[D];吉林大学;2018年
3 范晓东;区间删失数据和竞争风险数据的统计推断[D];吉林大学;2019年
4 李树威;删失失效时间数据的回归分析[D];吉林大学;2017年
5 赵国庆;删失数据下的经验熵和经验似然[D];北京大学;2013年
6 李夏炎;删失指示量随机缺失情况下回归模型统计推断[D];中国科学技术大学;2011年
7 王培洁;关于区间删失数据和双重删失数据的回归分析[D];吉林大学;2015年
8 梁薇;右删失数据与经验似然方法[D];北京大学;2011年
9 张颂;一类删失数据的统计推断[D];吉林大学;2012年
10 侯文;删失数据下若干半参数模型的经验似然与惩罚经验似然推断[D];大连理工大学;2013年
11 程从华;生存分析中删失数据统计推断及其应用[D];兰州大学;2011年
12 杜明月;区间删失失效时间数据的半参数分析[D];吉林大学;2020年
13 罗林;半参数转移模型下区间删失数据的统计推断[D];华中师范大学;2021年
14 王纯杰;基于Copula函数的相依删失数据的非参数统计推断[D];吉林大学;2012年
15 张百红;多因素Cox回归分析构建肝癌分期系统[D];第二军医大学;2005年
16 李艳凤;生存分析中一般偏差数据的统计推断研究[D];吉林大学;2017年
17 李云鹏;模拟高原缺氧和氰化钠中毒对大鼠COX的影响机制研究[D];第三军医大学;2008年
18 杨琳;生存数据下可加可乘危险率模型的估计[D];首都经济贸易大学;2017年
19 曲道炜;桂枝芍药知母汤对AA大鼠COX信号通路介导的免疫调控研究[D];辽宁中医药大学;2016年
20 杨兴海;脊柱转移癌预后相关因子筛选及Cox模型构建[D];第二军医大学;2007年
中国硕士学位论文全文数据库 前20条
1 赵瑞;区间删失数据Cox回归模型的参数估计[D];兰州大学;2014年
2 曹丹丹;第一类区间删失数据Cox比例风险模型的参数估计[D];兰州大学;2015年
3 郑茜;删失医疗费用的分位数回归分析[D];长春工业大学;2016年
4 毕启轩;复杂删失方案下对于某些寿命分布的可靠性特征的估计[D];北京交通大学;2019年
5 郭蕾;逐步二型删失数据下广义指数模型参数的统计推断[D];北京交通大学;2019年
6 张晓东;删失数据场合Lindley分布的参数估计[D];南宁师范大学;2019年
7 岑泰林;基于完全数据和随机删失数据下Lomax分布的统计推断[D];南宁师范大学;2019年
8 CHOI YUNKYUNG(崔允琼);一般逐步Ⅱ型删失数据下广义指数分布和广义逆指数分布的经典和贝叶斯估计[D];北京交通大学;2019年
9 徐梓翔;区间删失资料的Bayesian比例风险模型应用研究[D];东南大学;2018年
10 滕秋润;含有治愈部分的双重删失数据的半参数估计[D];大连理工大学;2019年
11 邹霖逸;基于分组区间删失数据的贝叶斯半参数治愈模型[D];大连理工大学;2019年
12 张耀元;基于数据删失的无线传感器网络低复杂度信道估计[D];哈尔滨工业大学;2019年
13 丛红日;基于缺失协变量在右删失数据下转换模型的半参数分析[D];大连理工大学;2019年
14 魏靖依;一类广义乘法删失模型密度导函数的小波估计[D];北京工业大学;2019年
15 陈诗媛;有信息删失下协变量发生随机非单调缺失的复发事件生存模型[D];武汉大学;2019年
16 宁黎明;删失指示量缺失情形下变系数部分线性模型的统计推断[D];武汉科技大学;2019年
17 黄兴辉;删失数据中组间疗效比较的统计推断方法研究[D];南方医科大学;2019年
18 董立健;相依区间删失下加速失效模型的研究[D];吉林大学;2019年
19 邓韬;带区间删失的相依协变量比例危险率模型的经验似然推断[D];湖南师范大学;2019年
20 王庆杰;区间删失数据的三参数威布尔矩估计和经验似然统计推断[D];长春工业大学;2019年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978