收藏本站
《第二军医大学》 2016年
收藏 | 手机打开
二维码
手机客户端打开本文

分类资料的多水平倾向性评分模型构建及应用

于菲菲  
【摘要】:研究背景:倾向性评分法(Propensity Score,PS)是近年来兴起的一种控制已观测的混杂因素的有效方法,该方法可以用来控制观察性研究中的选择偏倚问题。倾向性评分值,则是指在存在协变量的情况下,个体被分配至暴露组的条件概率。该方法主要分两步,第一步是通过协变量与暴露因素构建模型来估计倾向性评分值,第二步是利用估计的倾向性评分值构建暴露因素与结局变量的模型,从而估计暴露效应。该方法近年来越来越受到研究者的重视和广泛应用。但实际研究中存在大量的大规模的多水平层次结构的数据,如国家卫生服务调查数据等,而倾向性评分方法在这种数据中的研究和应用还较为少见,只在教育和经济领域有一定的应用,尤其是针对多水平(多层)数据中暴露因素为无序多分类和有序分类变量的情况,仍然未见相关研究及报道。同时,对目前现有的暴露因素为二分类变量构建的多水平倾向性评分模型,也多局限在使用传统的Logistic回归等方法来估计倾向性评分值,但在单水平数据的研究中有报道Boosting算法估计倾向性评分更为准确,而这两种方法在多水平层次结构数据中孰优孰劣还有待研究。研究目的:本研究针对医疗卫生大数据中,多水平层次结构的数据中暴露因素为分类变量(包括二分类、无序多分类和有序分类变量)的情况,深入探索优化目前二分类暴露因素的多水平倾向性评分模型,将Boosting估计倾向性评分的方法引入到多水平倾向性评分模型中,并构建暴露因素为无序多分类和有序分类数据(主要以三分类为例)的多水平倾向性评分模型,比较在不同数据情况下,运用不同的倾向性评分计算方法以及不同估计暴露效应的模型所得暴露效应估计值的精确度与准确度,从而探索不同情况下的最优模型。并构建的模型应用于第五次国家卫生服务调查(上海区)的实例分析中。研究方法:1.模拟数据首先进行数据模拟,数据的模拟过程主要根据数据类型的不同分为三个部分,即暴露因素为二分类变量、无序多分类变量和有序分类变量三部分。在每一部分的模拟中,又根据数据结构的复杂程度,将数据分为三种情况,分别是:(1)仅包含随机截距(2)包含随机截距和随机系数(3)同时含有随机截距、随机系数以及第一、二水平协变量交互作用项(跨层交互作用项)。为了尽可能多地覆盖各种样本量情况,共设置3×30,3×50,3×100,3×200,3×600,20×30,20×50,20×100,20×200和200×30等共10种样本情况,其中30,50,100,200,600分别代表第二水平包含的单位数,后文用site表示,3,20,和200分别代表第二水平的每个单位内包含的第一水平的个体数,后文用size表示,而size×site所得的结果即为总的样本含量。在模拟每种情况时,均模拟500个数据集,分别设置六个第一水平协变量,其中三个为连续型协变量,三个为二分类变量;同时设置一个连续型变量作为第二水平协变量。在暴露因素为二分类变量和有序分类变量时,将暴露效应的效应值的金标准γ设为2.5,当暴露因素为无序三分类变量时,设效应值的金标准分别为γ1=-2.5,γ2=4。2.构建模型针对三种暴露因素的变量类型分别构建模型,其主要步骤如下:第一步,估计倾向性评分值。在估计时,对于二分类暴露因素,除采用传统的Logistic回归模型,还需采用单水平随机效应模型、两水平随机效应模型、考虑水平因素的Logistic回归模型以及Boosting算法(考虑或不考虑水平因素);对于暴露因素为无序多分类变量,采用多项Logistic回归模型(考虑或不考虑水平因素)、多项单水平随机效应模型、多项两水平随机效应模型、和Boosting算法(考虑或不考虑水平因素);对于暴露因素为有序分类变量,采用有序Logistic回归模型(考虑或不考虑水平因素)、累积单水平随机效应模型、累积两水平随机效应模型、和Boosting算法(考虑或不考虑水平因素)。以上估计倾向性评分的方法中,若采用的为单水平随机效应或两水平随机效应模型,还需根据数据结构的不同类型,分别采用随机截距、随机系数以及含跨层交互项的模型分别估计倾向性评分值。第二步,利用估计的倾向性评分值构建结局变量模型从而估计暴露效应的效应值。对每种方法所估计的倾向性评分值进行协变量调整(回归调整法)或加权(逆概率加权法)后纳入多层模型进行分析。同时,本研究还采用了不使用倾向性评分法的单纯多水平模型对暴露效应进行估计。3.评价模型采用标准误作为模型估计暴露效应的精确度的衡量指标,采用绝对偏倚和95%置信区间覆盖率作为衡量模型估计暴露效应准确度的指标。最终综合以上三个指标,对模型做出综合评价,选择在不同情况下的最适合模型。4.分析实例本研究以第五次国家卫生服务调查上海区的数据作为实例分析部分的数据来源。暴露因素为二分类变量情况的实例为60岁以上老人吸烟状况对其患慢性病的影响;暴露因素为无序多分类变量的实例将针对28-44岁人群婚姻状况与自评健康之间的关系进行分析;而针对暴露因素为序分类变量,则采用居民体重指数与是否患高血压的关系作为分析实例。研究结果:1.模拟研究结果(1)暴露因素为二分类变量在大多数情况下,尤其是数据结构不包含跨层交互作用项的情况下,考虑水平因素的多层Boosting倾向性评分调整模型的估计结果较为可靠。而当数据中存在第一、二水平内协变量交互作用的情况时,若样本量小于2000,则采用多层倾向性评分加权模型较容易得到较为准确的估计结果,具体来说:对样本量为3×30,多层两水平随机效应倾向性评分调整法的准确度和精确度最高;对样本量为3×50,考虑水平因素的多层Logistic倾向性评分调整法精确度和准确度最高;而对样本量为3×100,3×200和3×600的情况,采用多层Logistic回归倾向性评分加权模型所得的结果则较为接近真实值。当第二水平单位内个体数为20时,各种方法在数据结构较为复杂的情况下表现都不稳定,尤其在样本量为20×200时每种方法估计的结果都不是很准确,其中表现较为稳定的方法是多层Logistic回归倾向性评分加权模型,但在样本量足够大,如200×30的情况下,各种多层倾向性评分调整模型均可以得到较为稳定可靠的结果。在样本量为20×100时,无论数据结构是否复杂,是否存在跨层交互作用项,均可以使用考虑水平因素的多层Boosting倾向性评分调整法。(2)暴露因素为无序多分类变量针对暴露因素为无序多分类变量的情况,多水平倾向性评分加权模型得到准确的估计结果的情况逐渐增多,而当样本量大于或等于2000时多水平倾向性评分调整模型更容易得到较为准确的估计结果。在第二水平内每个单位内的个体数较小(size=3)且数据结构仅为随机截距的情况下,多层倾向性评分加权法的表现要优于单纯的多水平模型和多层多项倾向性评分调整模型,其中,尤以多层多项Logistic回归倾向性评分加权和考虑水平因素的多层多项Boosting倾向性评分加权模型表现更为稳定。当样本量为3×30时,各种方法的表现均不太准确,只有在存在随机系数的情况下,多层多项单水平随机效应倾向性评分调整法所得的结果偏差不大,对两个系数的估计绝对偏倚为0.2155和0.2387,其余情况均存在对一个系数估计较准确,而另一系数的估计值与真实值差别较大,其原因可能是样本量过小。而当第二水平单位内个体数较大(size=20)切存在跨层交互作用项时,多层多项倾向性评分调整模型更容易得到较为准确的结果,且各种估计倾向性评分的方法在最终经协变量调整后估计暴露效应值的准确度均较好,结果较为接近。但有时仍会出现估计的系数一个较为准确,而另一个与真实值相差较大的现象,这种现象在加权法中出现可能性较大。(3)暴露因素为有序分类变量在样本量较小,且第二水平单位内的个体数较少时,采用多层倾向性评分加权模型较好,若数据结构仅包含随机截距,多层累积Boosting倾向性评分加权和多层累积单水平随机效应倾向性评分加权所得的结果更加稳定;若数据结果包含跨层交互作用,则多层累积两水平随机效应倾向性评分调整模型更容易得到较准确的估计结果。而当样本量增大到2000及以上,推荐采用多层倾向性评分调整模型,且各种估计倾向性评分方法的模型效果差别不大。但对于样本量大且数据结构含跨层交互作用项,那么无论是多水平倾向性评分加权模型或是调整模型,乃至单纯的多层Logistic回归模型所估计的暴露效应值,其可信度均有待提高。2.实例分析结果针对暴露因素为二分类变量的分析实例为60岁以上男性吸烟与患慢性病的风险,采用普通多水平模型所得的结果为吸烟是患慢性病的保护因素,估计的系数为-0.1511(p=0.0218),风险比(OR值)为0.86;而采用多层Boosting倾向性评分调整模型估计的效应值为-0.1096(p=0.1731),风险比为0.90(95%CI,0.77-1.05),差别没有统计学意义,提示尚不能认为吸烟与患慢性病的之间存在明确的风险关系。对暴露因素为无序多分类变量的分析实例为婚姻状况对自评健康的影响,结果显示,可以认为未婚与已婚相比,未婚人群更容易得到较好的自评健康状况(OR=1.60,p=0.0006),其自评健康状况得到较高分值的可能是已婚人群的1.60倍,而对于离异或丧偶人群,调整法和单纯多水平模型都没有得出具有显著性差异的结果(p=0.6310),因而尚不能认为离异丧偶人群与已婚人群之间的自评健康状况有差别。对暴露因素为有序变量的分析实例,结果为居民的BMI与患高血压之间有一定的风险关系(OR=3.00,p0.0001),即居民BMI每升高一个等级,其患高血压的风险将增加2倍。研究结论:本研究通过对不同样本量情况下暴露因素为二分类、无序多分类和有序分类三种情况分别进行了模拟研究,发现在不同数据情况下,不同多水平倾向性评分模型估计暴露效应的准确度和精确度差异较大,每种方法都有其适用条件,不能一概而论。具体来说:(1)在样本量为3×30,3×50,3×100,20×30,20×50这几种情况下且变量间不存在跨层交互作用的情况下,可以采用多水平倾向性评分加权模型;(2)当样本量为3×200,3×600,20×100或20×200且变量跨层交互作用不明显时,建议采用多水平倾向性评分调整模型;(3)当样本量为20×200或200×30甚至更大时,若数据结构仅存在随机截距,则可以采用多水平倾向性评分调整模型或只采用单纯的多水平模型,二者均可以得到较为准确的结果;如果变量间存在跨层交互作用或有随机系数存在,尤其是暴露因素为无序多分类的情况,各种方法得出的暴露效应的估计值的可靠性均有待商榷;(4)对于暴露因素为无序三分类的情况,应与二分类暴露因素的情况区别对待,采用多层多项两水平随机效应模型估计倾向性评分可能产生数据集不收敛的情况;同时,若采用多水平倾向性评分加权法,可能会得到对一个暴露效应估计准确,而另一个估计值与真实值相差较大的情况;(5)Boosting算法在多水平倾向性评分模型的估计中存在一定优越性,但并不是任何情况均适用,在实际运用中,应根据数据的不同情况酌情选择方法。
【学位授予单位】:第二军医大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:R195.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 谢传波;牛中正;丁鹏;刘涛;陈维清;;多水平统计模型的Stata程序实现[J];中国卫生统计;2014年01期
2 贾红;张俊辉;李爱玲;叶运莉;周显刚;汤燕;熊伟;蒋学君;;健康城市建设满意度多水平模型评价[J];中国公共卫生;2012年04期
3 施红英;沈毅;何凡;;多水平模型在住院费用影响因素分析中的应用[J];中国卫生统计;2006年05期
4 郝永红;张志琴;王彤;;关于多水平删失正态回归模型的模拟研究[J];中国卫生统计;2009年02期
5 高绪芳;陈俊;李志春;刘斌;黄敏;宋华;;应用多水平模型分析成都市农村改厕的影响因素[J];西部医学;2013年10期
6 王静;叶冬青;;多个二项反应变量多水平因子分析模型的原理及应用[J];中国卫生统计;2008年01期
7 王晓东;田俊;;生长曲线分析中的多水平模型及算法[J];数学的实践与认识;2011年16期
8 陈江飞;黄菊;吴明;;运用多水平模型对新型农村合作医疗参合影响因素的研究[J];中国社会医学杂志;2011年06期
9 赵金辉;魏建荣;陈华洁;刘玉敏;李湉湉;孙庆华;刘巧兰;;北京地区居民日均饮水量相关因素的多水平模型分析[J];卫生研究;2012年05期
10 宋艳龙;宋平平;王晓成;高彩虹;张慧敏;邢敏;余红梅;;老年人认知功能与抑郁关系纵向研究多水平模型[J];中国卫生统计;2014年01期
中国重要会议论文全文数据库 前2条
1 施红英;沈毅;何凡;;多水平模型在住院费用影响因素分析中的应用[A];应对突发公共卫生事件论坛论文集[C];2005年
2 廖国宇;周燕荣;钟晓妮;;二分类多水平统计模型的应用研究[A];重庆市预防医学会2009年论文集[C];2009年
中国博士学位论文全文数据库 前2条
1 秦婴逸;基于多水平模型的工具变量方法研究及应用[D];第二军医大学;2015年
2 于菲菲;分类资料的多水平倾向性评分模型构建及应用[D];第二军医大学;2016年
中国硕士学位论文全文数据库 前10条
1 崔俊营;基于多水平模型的兵团居民自评健康趋势和影响因素研究[D];石河子大学;2015年
2 孙霖;复杂抽样与多水平模型-陕西省人均卫生支出与两周患病率估计[D];第四军医大学;2015年
3 张敏;多水平贝叶斯模型及应用研究[D];云南财经大学;2016年
4 廖国宇;二分类多水平统计模型的应用[D];重庆医科大学;2009年
5 田娇妮;多水平计数模型在复杂抽样调查中的应用研究[D];山西医科大学;2011年
6 杨丽;无序分类反应变量多水平多项式Logistic模型的应用研究[D];重庆医科大学;2012年
7 宋振;应用多水平模型分析胆石病患者住院费用[D];天津医科大学;2013年
8 王娟;基于多水平模型边疆民族地区农户非农劳动行为研究[D];云南财经大学;2010年
9 冉磊;IRT模型在纵向、多水平数据中的应用[D];东北师范大学;2014年
10 徐志坚;济南城市社区中老年人多水平健康教育效果评价[D];山东大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026