收藏本站
《山西医科大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于代价敏感性随机森林与支持向量机的肝硬化并发肝性脑病风险预测模型研究

李欣欣  
【摘要】:目的:肝性脑病是肝硬化最常见的并发症之一,临床表现复杂多变、治愈率低、预后差,已成为导致肝硬化患者生存率低的重要原因,因此针对肝硬化患者构建肝性脑病风险预测模型显得极为重要。同时,肝硬化并发肝性脑病数据具有类别非均衡的特征,传统统计学方法与机器学习算法存在着无法有效识别少数类,预测性能欠佳的问题。因此,本课题针对上述问题,采用基于代价敏感的随机森林与支持向量机算法构建肝硬化并发肝性脑病风险预测模型,以提高对肝硬化并发肝性脑病的预测效能,为临床医生识别肝性脑病高危人群,选择合理的治疗措施提供依据,为其他疾病风险预测研究提供方法学借鉴。方法:采用2010年1月至2017年4月山西医科大学第二附属医院消化内科确诊为肝硬化住院患者的病历资料,按照纳入排除标准整理数据资料后获得1256例有效数据。利用单因素分析及基于随机森林的受试者工作特征曲线下面积算法(The area under the receiver operating characteristic curve of the random forest,AUC-RF)的自变量筛选方法选出与肝硬化并发肝性脑病相关的因素。然后以筛选出的变量作为输入变量,是否并发肝性脑病作为结局变量,构建Logistic回归、加权随机森林(Weighted Random Forest,WRF)和基于代价敏感的支持向量机(Cost Sensitive Support Vector Machine,CS-SVM)分类预测模型,探讨其分类预测性能,同时与传统随机森林、支持向量机分类预测模型的识别能力进行比较。最后,采用Logistic回归与WRF算法实现对肝硬化患者并发肝性脑病的概率预测。结果:1、通过单因素检验与基于AUC-RF自变量筛选方法,筛选出与肝硬化并发肝性脑病相关的20个变量,分别为:便秘、浮肿、电解质紊乱、上消化道出血、感染、利尿剂、白细胞、红细胞、血红蛋白、中性粒细胞百分比、谷草转氨酶、钠、氯、白蛋白、总蛋白、直接胆红素、间接胆红素、凝血酶原时间、纤维蛋白原和活化部分凝血活酶时间。将其作为输入变量引入到Logistic回归、WRF和CS-SVM算法,构建出肝硬化并发肝性脑病风险预测模型。2、分类模型预测性能评价:Logistic回归分类预测模型评价指标的中位数分别为:灵敏度70.00%,特异度83.38%,准确度82.54%,G-means 0.7679,F-measure 0.3688,AUC值0.7721;WRF的分类预测模型评价指标中位数分别为:灵敏度70.00%,特异度85.82%,准确度84.69%,G-means 0.7739,F-measure 0.3930,AUC值0.7778;CS-SVM分类预测模型评价指标中位数分别为:灵敏度71.66%,特异度82.99%,准确度82.06%,G-means 0.7657,F-measure 0.3560,AUC值0.7688。3、分类模型预测性能比较:在同一数据集上构建上述三种模型及传统随机森林、支持向量机分类预测模型,比较各指标显示:WRF、CS-SVM与Logistic回归模型对并发肝性脑病患者的识别能力高于传统机器学习模型(灵敏度高于70.00%),对未并发肝性脑病患者的识别能力略低于传统模型(特异度约为85.00%),模型综合评价指标高于其他模型(G-means高于0.8000,F-measure高于0.4000)。WRF的三个指标Gmeans(0.8221)、F-measure(0.4646)以及AUC(0.8241)均优于Logistic回归与CS-SVM模型。4、概率预测模型:WRF不仅可用于构建肝硬化并发肝性脑病分类预测模型,同时也可较好地预测患者发病概率。结论:基于代价敏感的随机森林与支持向量机算法可以弥补传统机器学习在非均衡数据分类问题中的不足,提高模型对于此类数据的分类预测性能。在进行肝硬化并发肝性脑病分类预测时,基于代价敏感的随机森林与支持向量机算法的预测性能高于其他模型,而且加权随机森林可提供患者的发病概率,使得肝性脑病发生概率的估计更为直观与高效。本文采用WRF与CS-SVM建立的分类与概率预测模型可帮助临床医生识别肝性脑病高危患者,对延长肝性脑病患者的生存期,提高其生存质量具有重要的现实意义。
【学位授予单位】:山西医科大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R575.2;R575.3

【参考文献】
中国期刊全文数据库 前10条
1 金宇;周可新;高吉喜;穆少杰;张小华;;基于随机森林模型的国家重点保护陆生脊椎动物物种优先保护区的识别[J];生态学报;2016年23期
2 曹文哲;应俊;陈广飞;周丹;;基于Logistic回归和随机森林算法的2型糖尿病并发视网膜病变风险预测及对比研究[J];中国医疗设备;2016年03期
3 弓孟春;陆亮;;医学大数据研究进展及应用前景[J];医学信息学杂志;2016年02期
4 Ji-Yao Wang;Ning-Ping Zhang;Bao-Rong Chi;Yu-Qing Mi;Li-Na Meng;Ying-Di Liu;Jiang-Bin Wang;Hai-Xing Jiang;Jin-Hui Yang;Yun Xu;Xiao Li;Jian-Ming Xu;Guo Zhang;Xin-Min Zhou;Yu-Zheng Zhuge;De-An Tian;Jin Ye;Yu-Lan Liu;;Prevalence of minimal hepatic encephalopathy and quality of life evaluations in hospitalized cirrhotic patients in China[J];World Journal of Gastroenterology;2013年30期
5 高宪超;陈一铭;俞志维;季彤;;基于数据挖掘技术的老年口腔癌患者围术期并发症发生概率评估系统的建立[J];中国口腔颌面外科杂志;2013年02期
6 陶新民;郝思媛;张冬雪;徐鹏;;不均衡数据分类算法的综述[J];重庆邮电大学学报(自然科学版);2013年01期
7 谷琼;袁磊;宁彬;吴钊;华丽;李文新;;一种基于混合重取样策略的非均衡数据集分类算法[J];计算机工程与科学;2012年10期
8 吴耿;李杰;杨文保;;基于代价敏感决策树的网络流量分类研究[J];电脑与信息技术;2011年05期
9 李建更;高志坤;;随机森林针对小样本数据类权重设置[J];计算机工程与应用;2009年26期
10 涂传涛;张顺财;;肝性脑病的诊断方法及其研究进展[J];实用肝脏病杂志;2009年02期
中国博士学位论文全文数据库 前1条
1 钱云;非均衡数据分类算法若干应用研究[D];吉林大学;2014年
中国硕士学位论文全文数据库 前4条
1 逄凯;三种机器学习方法在冠心病筛查中的比较研究[D];吉林大学;2016年
2 黄衍;基于随机森林的制造业上市公司财务预警模型研究[D];华东交通大学;2013年
3 姚睿;基于代价敏感Boosting算法的医学影像分析方法研究[D];上海交通大学;2011年
4 尹建杰;Logistic回归模型分析综述及应用研究[D];黑龙江大学;2011年
【共引文献】
中国期刊全文数据库 前10条
1 李浩渤;陈勇;陈宇;;莪术水提物通过上调notch1诱导口腔癌细胞凋亡[J];中国老年学杂志;2018年16期
2 曾劲松;饶云波;;基于冲突博弈算法的海量信息智能分类[J];计算机科学;2018年08期
3 陈庆荣;陈明哲;;基于唯一标识符的小范围均衡随机抽取方法[J];电子设计工程;2018年15期
4 王荣欣;;基于集成学习的上市公司财务信息异常识别[J];中国物价;2018年07期
5 王思晨;丁家满;;一种不平衡数据集成分类方法[J];软件导刊;2018年08期
6 杨伟锋;江瑜;杨鸿昌;;2型糖尿病视网膜病变及糖尿病肾病的相关性分析[J];中国医药科学;2018年12期
7 吴琼;魏晓梦;;乙肝肝硬化及肝衰竭患者并发肝性脑病危险因素及中医治疗现状综述[J];中医临床研究;2018年16期
8 张文;崔杨波;姜祎盼;;基于SVM~(K-Means)的非均衡P2P网贷平台风险预测研究[J];系统科学与数学;2018年03期
9 刘东启;陈志坚;徐银;李飞腾;;适用于不平衡数据集分类的改进SVM算法[J];传感器与微系统;2018年03期
10 桂州;陈建国;王成彬;;基于PCA-SMOTE-随机森林的地质不平衡数据分类方法——以东天山地球化学数据为例[J];桂林理工大学学报;2017年04期
中国博士学位论文全文数据库 前2条
1 郭毅;基于半监督学习和信息融合的港口客户信用风险评价系统[D];北京交通大学;2017年
2 艾旭升;基于免疫系统的不平衡数据分类方法研究[D];苏州大学;2016年
中国硕士学位论文全文数据库 前10条
1 李欣欣;基于代价敏感性随机森林与支持向量机的肝硬化并发肝性脑病风险预测模型研究[D];山西医科大学;2018年
2 张洁;基于MMHC混合算法的贝叶斯网络在2型糖尿病影响因素研究的应用[D];山西医科大学;2018年
3 刘毅;基于集成学习算法的冠心病早期筛查方法研究[D];山东大学;2018年
4 徐召朋;基于主题模型的异构网络的航线潜在价值计算[D];中国民航大学;2018年
5 闫雨;基于数据挖掘技术的我国上市企业风险研究[D];北方工业大学;2018年
6 赵敬兰;基于随机森林的财务共享模式下应收应付账款审计预警[D];重庆理工大学;2018年
7 王若晨;随机森林在制造业上市公司信用风险评价中的应用[D];暨南大学;2017年
8 张呈琳;农户宅基地退出意愿及其影响因素分析[D];河南大学;2017年
9 赵晨旭;航班撤轮挡里程碑时刻预测[D];中国民航大学;2017年
10 张媛媛;基于案例推理的水泵故障诊断技术研究[D];西安建筑科技大学;2017年
【二级参考文献】
中国期刊全文数据库 前10条
1 赵广华;田瑜;唐志尧;李俊生;曾辉;;中国国家级陆地自然保护区分布及其与人类活动和自然环境的关系[J];生物多样性;2013年06期
2 毕迎凤;许建初;李巧宏;Antoine Guisan;Wilfried Thuiller;Niklaus E.Zimmermann;杨永平;杨雪飞;;应用BioMod集成多种模型研究物种的空间分布——以铁杉在中国的潜在分布为例[J];植物分类与资源学报;2013年05期
3 李欣海;;随机森林模型在分类与回归分析中的应用[J];应用昆虫学报;2013年04期
4 齐丽丽;柏延臣;;社会经济统计数据热点探测的MAUP效应[J];地理学报;2012年10期
5 翟天庆;李欣海;;用组合模型综合比较的方法分析气候变化对朱鹮潜在生境的影响[J];生态学报;2012年08期
6 朱明;陶新民;;基于随机下采样和SMOTE的不均衡SVM分类算法[J];信息技术;2012年01期
7 张雷;刘世荣;孙鹏森;王同立;;气候变化对马尾松潜在分布影响预估的多模型比较[J];植物生态学报;2011年11期
8 刘吉平;吕宪国;;三江平原湿地鸟类丰富度的空间格局及热点地区保护[J];生态学报;2011年20期
9 陶新民;童智靖;刘玉;付丹丹;;基于ODR和BSMOTE结合的不均衡数据SVM分类算法[J];控制与决策;2011年10期
10 李想;李涛;;基于核函数的Adaboost分类算法研究[J];电脑知识与技术;2011年28期
中国博士学位论文全文数据库 前1条
1 谷琼;面向非均衡数据集的机器学习及在地学数据处理中的应用[D];中国地质大学;2009年
中国硕士学位论文全文数据库 前10条
1 梁世磊;基于Hadoop平台的随机森林算法研究及图像分类系统实现[D];厦门大学;2014年
2 郑熠煜;贝叶斯分类方法及其在冠心病诊疗中的应用研究[D];大连海事大学;2013年
3 陈雄;基于序列特征的随机森林表情识别[D];电子科技大学;2013年
4 王玮;支持向量机与RBF神经网络在数据预测模型的应用[D];西安石油大学;2012年
5 陈志君;我国通信行业上市公司财务危机预警研究[D];北京邮电大学;2012年
6 张昕珩;制造业上市公司财务危机预警实证研究[D];江南大学;2012年
7 李丽;基于随机森林算法的企业信用风险评价研究[D];西南财经大学;2012年
8 耿晓盟;基于粒子群优化算法和支持向量机的上市公司财务危机预警研究[D];南昌大学;2011年
9 温重伟;基于分类SVM的企业财务危机预警模型研究[D];华南理工大学;2011年
10 何黎;基于Adaboost算法的制造业上市公司财务危机预警研究[D];武汉科技大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 陈一诺;董绍华;;基于随机森林算法的管道缺陷预测方法[J];油气储运;年期
2 刘阳;杜华军;岳子涵;马杰;吕武;;基于随机森林的无人机检测方法[J];计算机工程与应用;年期
3 胡蝶;;基于随机森林的债券违约分析[J];当代经济;2018年03期
4 温博文;董文瀚;解武杰;马骏;;基于改进网格搜索算法的随机森林参数优化[J];计算机工程与应用;2018年10期
5 赵艺淞;杨昆;王保云;黎晓路;;随机森林在城市不透水面提取中的应用研究[J];云南师范大学学报(自然科学版);2017年03期
6 吴辰文;梁靖涵;王伟;李长生;;一种顺序响应的随机森林:变量预测和选择[J];小型微型计算机系统;2017年08期
7 顾娟;林敏;鞠桂玲;;基于随机森林回归的军械器材需求预测[J];自动化应用;2017年09期
8 刘迎春;陈梅玲;;流式大数据下随机森林方法及应用[J];西北工业大学学报;2015年06期
9 罗超;;面向高维数据的随机森林算法优化探讨[J];商;2016年04期
10 杨晓峰;严建峰;刘晓升;杨璐;;深度随机森林在离网预测中的应用[J];计算机科学;2016年06期
中国重要会议论文全文数据库 前10条
1 尤东方;赵杨;;存在混杂时高维数据的随机森林分析[A];2017年中国卫生统计学学术年会论文集[C];2017年
2 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
3 吕洁;;基于随机森林算法对内蒙古地区地面逐日平均温度的估算[A];第34届中国气象学会年会 S20 气象数据:深度应用和标准化论文集[C];2017年
4 张炜;;天津市人才吸引力影响要素评价——基于随机森林法的检验分析[A];发挥社会科学作用 促进天津改革发展——天津市社会科学界第十二届学术年会优秀论文集(中)[C];2017年
5 高洪利;;基于随机森林算法的卷烟销量预测及分析[A];中国烟草学会学术年会优秀论文集[C];2017年
6 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
7 高磊;秦慧杰;许康;;基于随机森林的资源三号影像地表覆盖信息提取[A];地理信息与人工智能论坛暨江苏省测绘地理信息学会2017年学术年会论文集[C];2017年
8 郑志伟;邱佳玲;阳庆玲;龚晓春;郭山清;贾忠伟;郝春;;随机森林算法对文本情感分析的应用与R软件实现[A];2017年中国卫生统计学学术年会论文集[C];2017年
9 杨璐;宋建国;;基于随机森林的地震储层分类方法研究[A];2017中国地球科学联合学术年会论文集(三十八)——专题71:内磁层动力学、专题72:计算地球物理方法和技术、专题73:地热:“学”以致“用”、专题74:电磁卫星观测与应用[C];2017年
10 刘继辉;许磊;马晓龙;李达;林鸿佳;杨洋;杨晶津;李兴绪;王慧;;基于随机森林回归的制丝过程参数影响权重分析[A];中国烟草学会学术年会优秀论文集[C];2017年
中国重要报纸全文数据库 前1条
1 本报记者 田新元;人工智能助力保险业智慧化转型[N];中国改革报;2017年
中国博士学位论文全文数据库 前10条
1 王鑫;基于随机森林的认知网络频谱感知算法研究[D];东北大学;2016年
2 王晓军;基于大数据的风洞马赫数集成建模方法的研究[D];东北大学;2016年
3 姚登举;面向医学数据的随机森林特征选择及分类方法研究[D];哈尔滨工程大学;2016年
4 黄玥;VANET信息安全问题及异常检测技术研究[D];吉林大学;2017年
5 倪强;基于随机前沿和随机森林法的沿海开发区发展效率研究[D];天津大学;2011年
6 季斌;内蒙古浩布高地区多金属矿综合信息找矿预测研究[D];合肥工业大学;2017年
7 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
8 金超;基于随机森林的医学影像分割算法研究及应用[D];苏州大学;2017年
9 李宝富;巨厚砾岩层下回采巷道底板冲击地压诱发机理研究[D];河南理工大学;2014年
10 赵东;基于群智能优化的机器学习方法研究及应用[D];吉林大学;2017年
中国硕士学位论文全文数据库 前10条
1 肖怀硕;基于振动信号的断路器故障诊断与状态评估[D];山东大学;2018年
2 周杰;Spark平台下的基于随机森林算法的用户贷款风险预测研究[D];东北师范大学;2018年
3 赵书慧;基于MODIS卫星数据的水面积提取方法研究[D];山东师范大学;2018年
4 崔用祥;基于随机森林的城市犯罪空间分布密度建模与影响因素探析[D];华东师范大学;2018年
5 李侠男;基于随机森林算法的房地产项目风险评价研究[D];天津大学;2017年
6 赖添;基于随机森林的商品期货量化投资策略研究[D];华东师范大学;2018年
7 王君婷;基于随机森林回归模型的债券发行信用利差影响因素分析[D];上海社会科学院;2018年
8 李欣欣;基于代价敏感性随机森林与支持向量机的肝硬化并发肝性脑病风险预测模型研究[D];山西医科大学;2018年
9 梁君雅;控制混杂的随机森林方法评价及其在高维组学数据分析中的应用[D];南京医科大学;2018年
10 任才溶;基于并行随机森林的城市PM_(2.5)浓度预测[D];太原理工大学;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026