进展期宫颈癌深度学习生存预测模型的建立与一项前瞻性相关性研究
【摘要】:第一部分基于深度学习的进展期宫颈癌个体化生存预测模型的建立研究背景目前,临床分期仍然是进展期宫颈癌(Advanced cervical cancer,ACC)最常用的诊断体系,以指导临床诊疗决策。同步放化疗(Concurrent radiochemotherapy,cCRT)是美国国立综合癌症网络(National Comprehensive Cancer Network,NCCN)推荐的ACC标准治疗方案,包括体外照射(External beam radiotherapy,EBRT)/调强放射治疗(Intensity modulated radiation therapy,IMRT)、近距离后装照射和铂类药物化疗。长期临床观察和研究发现,即使分期相同的ACC患者预后结局亦存在显著个体化差异。这说明临床分期对预后的提示能力尚有不足之处。因此,建立一个理想的个体化生存预测模型,可以为预后不良的ACC患者提供更为积极、有力的抗肿瘤治疗方案,有利于改善生存结局。目前,临床肿瘤研究首选的生存分析方法,仍然是基于线性关系假设的Cox比例风险回归模型(Coxproportionalhazard,CPH)。但是现实中还存在大量非线性相关现象有待发掘和研究。深度学习法可以捕获复杂、非线性数据关系,近年来开始被尝试应用于生物医学领域,如影像学阅片、病例诊断、疗效评估等,但在肿瘤患者生存分析领域应用很少。相信深度学习技术对肿瘤复杂、多类别临床数据的分析预测能力强大,具有广阔的应用前景。研究目的(1)建立真实世界ACC大样本临床数据集;(2)以深度学习为技术方法,为接受cCRT的ACC患者建立个体化的深度学习生存预测模型(Deep survival learningmodel,DSLM);(3)以线性假设为基础的传统生存预测模型和常用机器学习模型为基线,评估DLSM的预测性能。研究方法1.建立进展期宫颈癌患者大样本临床数据集(1)对2010年1月至2014年12月共8970余份宫颈癌住院病例资料进行系统性回顾,根据入组条件筛选出1143名ACC初治患者纳入此次研究;(2)收集并汇总流行病学、临床及实验室检查等多类别数据,使用相关性矩阵排除重复变量,最终确定49项风险因素,组成ACC患者cCRT大样本临床数据集;(3)通过随机生存森林(Random survival forest,RSF)评估风险因素权重,根据临床认知验证数据集可信度;(4)所有数据资料按4:1比例随机分配、组成训练集(n=914,80%)和测试集(n=229,20%),训练集用来建立深度学习生存预测模型,验证集用来独立检验模型性能。2.开发建立基于深度学习的个体化生存预测模型并进行内、外部验证以神经多任务logistic回归模型(N-MTLR)为基础,建立深度学习神经元网络。同时建立CPH模型和RSF模型作为基线,对比、评价新模型性能。内、外部验证(模型性能评估)方法:(1)使用一致性指数(C-index)衡量不同模型的预测精度,使用综合Brier得数(IBS)评估新模型表现;(2)绘制生存/死亡校准曲线,用于测量每个时间窗口预测事件与真实事件的误差;(3)应用DSLM对测试集患者进行风险分型,并绘制Kaplan-Meier曲线和受试者工作特征(ROC)曲线,与常规临床分期比较Kaplan-Meier曲线及ROC曲线下面积(AUC);(4)应用DSLM绘制ACC个体患者生存预测曲线。研究结果1.临床病例及随访数据统计1143 例 ACC 患者(FIGO 分期 ⅡB-IVA 期),其中 201 例(17.7%)接受 IMRT联合后装照射,903例(79.7%)接受EBRT联合后装照射,单纯后装治疗29例(2.6%)。随访时间5年,期间死亡268例(23.4%),5年生存率为76.6%,其中ⅡB期患者五年生存率为86%,Ⅲ期患者为75%,IVA期患者为52%。2.数据集危险因素评估结果符合临床认知,数据集可信度高将49项特征变量作为危险因素进行评估,发现与生存结局相关性最大的15个因素,按权重大小排序,依次为淋巴结转移(影像学/体格检查证据支持),腹主动脉旁淋巴结转移(影像/体格检查证据支持),病理类型、D-二聚体、血清白蛋白、临床分期、血小板计数、肿瘤直径、盆腔淋巴结转移(影像学证据支持)、血红蛋白、持续住院天数、纤维蛋白原、治疗相关不良反应、放射治疗、舒张压。数据集符合临床认知。3.DSLM的性能显著优于传统及常用生存预测模型CPH模型和RSF模型的C-index分别是0.70和0.74,IBS分别为0.15和0.14;而DSLM(训练集)C-index到达0.82,测试集达到0.65,IBS分别为0.13和0.14;在校准曲线中,DSLM预测死亡曲线与实际死亡曲线的中位(平均)绝对误差仅为0.21(0.38),预测生存曲线几乎完全绘制在实际生存曲线的可信区间内,中位(平均)绝对误差仅为2.3(3.1)。4.DSLM的风险分层较传统临床分期更为科学、精准DSLM根据风险因素权重给测试集患者赋予风险值,按照风险值大小,将患者分为4个亚组,并绘制Kaplan-Meier曲线和受试者工作特征(ROC)曲线。4个亚组的生存曲线可以清晰地区分开(P0.05),而且ROC曲线下面积(AUC)达到0.669,临床分期仅为0.596。5.DSLM能够为患者个体提供生存预测在4个亚组中分别随机选取一名ACC患者,将其49个特征变量输入DSLM即可绘制出该患者个体的生存预测曲线。该生存曲线可以给出患者个体任意时间点的生存概率,而且随着随访时间的延长,生存概率逐渐下降,高危和低危亚组患者的预测生存率下降亦有明显差异。研究结论1.深度学习研究是建立ACC患者cCRT生存预测模型的重要方法。2.与CPH模型及RSF模型相比,DSLM具有更可靠的预测性能。3.DSLM能够提供精确的风险分层和个体化生存预测。第二部分Th17细胞与进展期宫颈癌同步放化疗疗效及预后的相关性研究研究背景持续感染高危人乳头瘤病毒(High-risk human papilloma virus,HR-HPV)是发生宫颈癌的必要条件。其致癌机制主要是宿主基因组与HPV DNA整合,E6、E7癌基因表达和抑癌基因P53、Rb功能抑制,最终导致细胞永生化和癌变。事实上,感染HR-HPV的患者中只有极少部分会发展为宫颈病变及宫颈癌。这表明宿主免疫功能、肿瘤微环境变化等因素也发挥了重要作用。近年来,Th17(T-helper 17)细胞作为较晚发现的一类免疫辅助T细胞,一直是抗肿瘤免疫与宫颈癌相关性研究的热点。Th17细胞触发的适应性免疫应答与多种疾病相关。在生殖道HR-HPV持续感染引发的慢性炎症阶段,Th17细胞应答产生IL-17及其他促炎细胞因子,为细胞癌变创造了适宜环境。前期研究发现,宫颈癌(Ⅰ-ⅡA期)及宫颈上皮内瘤变(Cervical intraepithelialneoplasia,CIN)患者外周血Th17细胞比例显著高于正常女性,并存在Th17/Treg细胞比例失衡,Th17细胞在局部病变组织中也有异常聚集,而且以上现象均与临床分期相关。进展期宫颈癌(Advanced cervical cancer,ACC)通常指FIGO分期ⅡB-ⅣA期,这类患者以同步放化疗(Concurrent radiochemotherapy,cCRT)为规范治疗方案,但是临床疗效和预后个体化差异显著。因此,如何优化ACC临床疗效及预后预测方法是妇科肿瘤医生迫切需要解决的问题。Th17细胞作为与宫颈癌发生、进展密切相关的一类免疫辅助T细胞亚群,是否与进展期宫颈癌cCRT临床疗效及预后相关,以及可能具备的预测潜力有待挖掘。研究目的1.检测ACC患者cCRT前、后外周血Th17细胞及相关细胞因子IL-17、转化生长因子-β(Transforming ggrowth factor-β,TGF-β),IL-10,IIL-23,IL-6和IL-22的表达水平。结合临床疗效评价和随访数据,分析cCRT后Th17细胞及相关细胞因子变化与临床疗效及预后(随访时间3年)的相关性。2.参照论文第一部分数据集特征变量设置,将研究组ACC患者49项特征变量和Th17细胞变量(即cCRT后Th17细胞比例下降,1=显著下降,0=非显著下降)纳入数据集,分别建立包含与不包含Th17细胞变量的Cox比例风险回归模型(Coxproportionalhazard,CPH),通过性能参数比较,探讨Th17细胞变量对生存预测及模型性能的影响,并再次验证论文第一部分建立的深度学习生存预测模型(Deep survival learning model,DSLM)性能,探讨Th17 细胞变量与 DSLM联合应用的预测前景。研究方法1.49名ACC初治患者(FIGO分期ⅡB-ⅢB)纳入研究组,23名健康志愿者纳入对照组。ACC患者均接受NCCN指南推荐的cCRT规范治疗方案,并于治疗方案完成后1月内,接受实体瘤治疗疗效评价,评价标准采用《实体肿瘤疗效评价标准1.1》,所有患者均进行了3年的预后随访,总生存率(Overall Survival,OS)和无进展生存率(Progression-free survival,PFS)用于预后评价。2.通过流式细胞分析技术(Flow cytometry,FCM)和酶联免疫吸附试验(Enzyme-linked immunosorbent assay,ELISA)检测 ACC 患者 cCRT 前及治疗完成后1周内外周血Th17细胞(CD3+CD8-IL17+T细胞)比例及相关细胞因子IL-17,TGF-β,IL-10,IL-23,IL-6 及 IL-22 表达水平;3.统计学分析(1)应用独立/配对t检验、Mann-Whitney U检验、WilCoxon配对检验、Pearson相关性分析等统计学方法,分析外周血Th17细胞比例及相关细胞因子表达水平变化、与ACC患者cCRT临床疗效及预后的相关性。(2)首先建立单因素CPH模型,逐一分析包含Th17细胞变量(cCRT后Th17细胞比例下降,1=显著下降,0=非显著下降)在内的50项临床特征变量,从中筛选风险因素(P≤0.05);(3)以筛选出的风险因素联合或不联合Th17细胞变量组成数据集,分别建立多因素CPH模型,比较两者挖掘高风险因素的能力及模型精度(C-index),同时与论文第一部分己建立的DSLM进行性能比较。研究结果1.临床疗效与随访基本情况初始入组ACC患者49例,其中5例因严重不良反应退出实验,4例失访,最终有40名患者完成同步放化疗和随访计划。治疗有效率为92.5%。6、12、24、36 个月 PFS 分别为 87.5%、82.5%、77.5%和 70.0%。6、12、24、36 个月 OS 分别为 95.0%、85.0%、82.0%和 70.0%。2.cCRT后ACC患者外周血Th17细胞比例变化ACC患者外周血Th17细胞比例显著高于对照组,并且在cCRT后显著降低(P0.05)。根据Th17细胞百分比降低比率(Descendingrate,DR)的大小,将ACC患者分为显著下降(Obviously decreasing,OD)组和非显著下降(Non-obviouslydecreasing,NOD)组。通过统计分析,OD组治疗有效率和无进展生存率及总生存率明显高于NOD组。3.cCRT后ACC患者外周血Th17相关细胞因子表达水平变化cCRT前ACC患者外周血IL-6,IL-10,IL-22和TGF-β表达水平显著高于对照组,同时IL-23显著低于对照组(P0.05)。cCRT后,外周血IL-6,IL-10,IL-17,IL-23水平较cCRT前显著升高,同时TGF-β表达水平显著降低(P0.05)。4.Th17细胞比例与相关细胞因子表达水平的相关性分析cCRT 前 Th17 细胞百分比与 IL-17(r=0.493,P=0.001)、IL-22(r=0.622,P0.001)、IL-23(r=0.347,P=0.028)和 TGF-β(r=0.358,P=0.023)表达水平分别呈正相关。cCRT后Th17细胞比例降低,IL-6、IL-10、IL-17、IL-23表达水平显著升高,TGF-β表达水平显著降低,外周血Th17细胞比例变化与IL-17、IL-22、IL-6、IL-10、TGF-β变化趋势呈正相关。5.单因素与多因素Cox比例风险回归模型分析首先采用单因素Cox比例风险模型筛选出P值0.05的7个预后风险因素:FIGO分期、腹主动脉旁淋巴结转移、合并症、婚姻状态、身高、治疗后宫颈外观、单核细胞计数。Th17细胞变量的P值为0.1558。将筛选出的7个预后风险因素建立多因素Cox比例风险模型,该模型C-index值为0.7159。随后,将cCRT后Th17细胞比例是否下降作为风险因素纳入多因素Cox比例风险模型,模型C-index值提升至0.7449,可见模型挖掘高(独立)风险因素的能力显著增强。虽然模型性能较为理想,但是仍明显低于论文第一部分已建立的、不含Th17细胞变量的DSLM(C-index训练集0.82、测试集0.65)。研究结论ACC患者外周血Th17细胞比例下降与cCRT临床疗效及预后相关,并且能够作为免疫学指标显著提升ACC患者cCRT生存预测模型的性能。