收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Logistic回归、决策树和神经网络在预测2型糖尿病并发末梢神经病变中的性能比较

李长平  
【摘要】: 近年来,数学方法和计算机技术的发展使复杂的模型预测成为可能。目前能够建立预测模型的方法主要有统计学方法和数据挖掘方法,基于这两类方法的预测技术已逐渐被应用在生物医学研究领域中,但对其预测性能(即泛化能力的大小)进行比较的研究却很少,因此将数据挖掘方法与统计学方法的泛化能力进行比较是一个非常值得研究的方向。本研究以2型糖尿病并发末梢神经病变(Diabetic Peripheral Neuropathy, DPN)的病例对照研究数据(数据来源情况详见本文第2章)为例,采用Logistic回归(Logistic Regression, LR)、决策树(Decision Trees, DT)和神经网络(Neural Networks, NN)对DPN发生的概率进行预测,并就建模和预测性能比较研究中的几个难点,提出了较为理想的解决方案。本研究的难点及相应的解决方案如下: (1)科学地实现连续变量离散化。在一些科学研究中,人们通常对一些连续变量的一个单位值的变化不感兴趣,或根据专业知识需将连续变量进行离散化,因此如何科学的实现连续变量离散化是一个值得研究的问题。 本文采用χ2分割法对连续变量进行离散化,不仅使离散化后的变量各个等级之间划分得有意义,而且使等级之间的区分度尽可能地大,很好地实现了连续变量离散化的目的。 (2)在建模过程中充分利用数据信息、防止过拟合。在数据量有限的情况下,能尽量多地利用数据信息是很重要的。在决策树和神经网络构建过程中,如何在小样本时既能达到充分利用数据信息,又能防止过拟合现象的发生是一个重要的问题。 本研究采用100次5~7折分层交叉验证方法,将分类和回归树(CART)与卡方自动交互式检测树(CHAID)相结合,建立起决策树模型,既充分利用了数据信息,又避免了过拟合现象的发生。此外,在选取神经网络模型隐含层数和隐含层节点数目时,以SBC准则作为选择的标准,在建模过程中利用L-M优化技术,采用权重衰减和预训练的方法,也可充分利用数据信息,有效避免过拟合现象和局部最优现象的发生,从而建立起较为准确可靠的模型。 (3)快速有效地构建Logistic回归模型。常规的Logistic回归建模筛选变量的方法有向前选择法、向后剔除法、逐步法、最优子集法,前三种筛选变量方法均涉及到变量进入和(或)剔除的P值大小的选择问题,显然P值的选取存在一定的主观性。例如,有些研究认为变量进入方程的显著性水平(SLE)0.05过于严厉,经常将重要的变量排除在外。针对所有原因变量的组合情况,最优子集法均可以给出其对应的χ2值,但却无法指出哪种组合最佳。因此,如何快速有效地进行变量筛选,构建准确可靠的模型是很重要的。 本研究中采用最优子集法与AIC信息准则相结合对变量进行快速方便的筛选。此法既考虑了模型的泛化能力又避免了人为选取P界值点带来的“烦恼”,建立的模型也优于用常规筛选变量方法建立的模型。 (4)小样本情况下的模型泛化能力比较。大量文献资料显示,迄今为止,在生物医学领域中,关于多种不同模型预测、分类技术的比较研究,或针对于较大的数据量(如从几百例观测至几十万例观测),或对模型泛化能力比较时采用保持法(将数据集随机分成两部分,一部分建模一部分测试),并没有涉及到小样本时如何有效利用数据信息以及基于小样本时如何对模型泛化能力进行比较。而在实际工作中,很多数据集较小(如100例左右),且变量较多,此时采用保持法进行模型泛化能力的比较就会损失数据信息,导致比较结果的可靠性降低甚至不可靠(本研究中也证实了这一点,详见本文第5章)。因此,如何针对小样本的特性,有效地构建模型并对模型的泛化能力进行客观评价,是一个很值得研究的问题,也是本次研究的重点。 在本研究中针对小样本的特性,采用Monte Carlo模拟抽样(10~100次的2~10折分层交叉验证法、刀切法、100~1000次自引导法(具体为0.632自引导法))的校正技术,对模型的泛化误差作出可靠的评价,进而对三种预测方法(LR、DT、NN)的泛化能力进行比较,并客观地评价三种模型的泛化能力,有效弥补了应用保持法对模型泛化能力进行比较时存在的上述不足。就本资料而言,结果表明,总体来说NN泛化能力最好,LR次之,DT最差。 (5)调整过抽样。当样本的获取方式是来源于过抽样(即分离抽样)时,模型估计的概率值是基于样本而不是基于总体的,此时对总体人群疾病发生的概率进行预测可能会存在较大的偏差。 本文针对过抽样的特点,利用先验概率对后验概率进行调整,从而使调整后的结果能够更客观准确地预测疾病发生的可能性。 综上所述,本研究采用三种方法(LR、DT、NN)对DPN发生的概率进行预测,在基于小样本条件下,从五个方面(即①科学地实现连续变量离散化、②充分利用数据且又防止过拟合、③快速有效地构建模型、④有效利用数据信息提高模型泛化能力、⑤有效调整过抽样获得更客观准确的预测结果)进行比较研究和改进,均取得了比较理想的结果,其建模思想和技术方法可方便成功地移植到生物医学甚至其它研究领域中去。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李磊;黄水平;;支持向量机原理及其在医学分类中的应用[J];中国卫生统计;2009年01期
2 刘露;马俊雷;李云;董永庆;刘宛予;;基于模式识别方法的肺癌分型比较[J];现代电子技术;2010年10期
3 冷皓凡;;数据挖掘技术在医学研究中的应用[J];实用临床医学;2009年04期
4 杨斌;万胜春;;数据挖掘在大型医疗设备故障诊断中的应用研究[J];医疗设备信息;2007年10期
5 李霞;何丽云;刘超;;Boosting算法及其在中医亚健康数据分类中的应用[J];中国卫生统计;2008年02期
6 李长平;职心乐;刘晓红;崔壮;魏风江;柯慧;李妍;马骏;;AIC结合最优子集法构建logistic回归模型在预测2型糖尿病并发末梢神经病变中的应用[J];中国卫生统计;2010年06期
7 马军;杨杰;耿道颖;;基于贝叶斯网络的脑胶质瘤恶性高低度的自动诊断[J];生物医学工程学杂志;2006年01期
8 刘雅琴;王成;章鲁;;基于神经网络的乳腺癌生存预测模型[J];中国生物医学工程学报;2009年02期
9 杨江琳;隗伏冰;韦哲;;新生儿窒息原因的定量分析及判别模型——Cox线性Logistic模型的应用[J];数理医药学杂志;1992年02期
10 王天成;冠心病患者血清总胆红素和脂质水平的 Logistic 回归分析[J];高血压杂志;1997年02期
11 阮玉华!200032,柳炜!200032,徐校平,翁寿清,周卫群,邓新清!200032,顾惠心!200032,朱智勇,徐志一!200032;流行性出血热发病危险因素病例对照研究[J];中华流行病学杂志;2000年05期
12 周小平,茆玉顺,陈启光,陈建国;用Logistic回归分析评价肝癌筛检模式[J];东南大学学报(医学版);2002年04期
13 李育臣,王宇,马银霞,崔建岭,王建茹,刘俊艳,马晓辉;经颅多普勒超声收缩峰值流速与磁共振表观弥散系数的相关性及对溶栓预后的意义[J];临床内科杂志;2003年07期
14 余静,何晓芸,刘亚琼,杨小兵,王文英,谢丽,管利荣,徐冰,张毅,王敏;0~6岁儿童佝偻病影响因素的logistic回归分析[J];现代预防医学;2003年01期
15 王桂榕,唐剑;158例急性阑尾炎患者住院费用的Logistic分析[J];中国病案;2004年03期
16 杨晓妍,潘晓平,吴先萍,张宁梅,袁建国,何君;40岁以上人群冠心病和脑卒中死亡的危险因素分析[J];预防医学情报杂志;2004年06期
17 卓朗;韩令才;陈娟;;高血压诊断后患者的行为变化分析[J];中国初级卫生保健;2006年03期
18 缪宏建;蓝绍颖;朴松林;;海安县15岁以上农村居民慢性病患病率的logistic回归分析[J];中国初级卫生保健;2006年12期
19 李洪玲;李燕芬;肖晓玲;湛柳华;;广州社区糖尿病患者对疾病知晓率的相关因素分析[J];广州医药;2007年04期
20 周贤刚;杨闯;杨丽霞;;中西医结合治疗腰椎间盘突出症疗效的影响因素[J];中医药临床杂志;2008年02期
中国重要会议论文全文数据库 前10条
1 黄章树;黄丽钦;;数据挖掘技术在电信增值服务行业中的应用[A];2004年中国管理科学学术会议论文集[C];2004年
2 王维;肖新光;张栗炜;;基于决策树模型的恶意程序判定方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
3 侯艳芳;冯红梅;;基于神经网络的调制识别算法的研究[A];武汉(南方九省)电工理论学会第22届学术年会、河南省电工技术学会年会论文集[C];2010年
4 张繁昌;曲寿利;康仁华;;用神经网络求取孔隙度[A];1999年中国地球物理学会年刊——中国地球物理学会第十五届年会论文集[C];1999年
5 沈建荣;杨林泉;陈琳;;神经网络的稳定性判据与区域经济结构调整[A];系统工程与可持续发展战略——中国系统工程学会第十届年会论文集[C];1998年
6 石山铭;李富兰;丁俊丽;;神经网络的知识获取[A];全国青年管理科学与系统科学论文集(第1卷)[C];1991年
7 吴清烈;徐南荣;;基于神经网络的一种多目标决策方法[A];复杂巨系统理论·方法·应用——中国系统工程学会第八届学术年会论文集[C];1994年
8 李晓钟;汪培庄;罗承忠;;神经网络与模糊逻辑[A];中国系统工程学会模糊数学与模糊系统委员会第五届年会论文选集[C];1990年
9 徐孝涵;;“神经网络”研究综述[A];中国系统工程学会模糊数学与模糊系统委员会第五届年会论文选集[C];1990年
10 王科俊;王克成;李国斌;;使用神经网络进行船舶横摇运动的时间序列预报[A];1996年中国智能自动化学术会议论文集(上册)[C];1996年
中国博士学位论文全文数据库 前10条
1 李长平;Logistic回归、决策树和神经网络在预测2型糖尿病并发末梢神经病变中的性能比较[D];中国人民解放军军事医学科学院;2009年
2 刘志祥;深部开采高阶段尾砂充填体力学与非线性优化设计[D];中南大学;2005年
3 戴雪龙;PET探测器神经网络定位方法研究[D];中国科学技术大学;2006年
4 马戎;智能控制技术在炼钢电弧炉中的应用研究[D];西北工业大学;2006年
5 文敦伟;面向多智能体和神经网络的智能控制研究[D];中南大学;2001年
6 吴大宏;基于遗传算法与神经网络的桥梁结构健康监测系统研究[D];西南交通大学;2003年
7 杜文斌;基于神经网络的冠心病证候诊断标准与药效评价模型研究[D];辽宁中医学院;2004年
8 熊雪梅;参数化模糊遗传神经网络及在植物病害预测的应用[D];南京农业大学;2004年
9 李智;电站锅炉燃烧系统优化运行与应用研究[D];东北大学;2005年
10 王承;基于神经网络的模拟电路故障诊断方法研究[D];电子科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 王振环;基于数据挖掘技术的电信领域客户流失预测系统的研究与实现[D];吉林大学;2006年
2 唐树刚;基于文件静态特征的木马检测研究[D];天津大学;2005年
3 李林;数据挖掘在商业银行信用风险管理中的应用研究[D];电子科技大学;2005年
4 崔媛媛;个人信用评估模型比较研究[D];北方工业大学;2006年
5 陈彬;上市公司财务报表欺诈鉴别[D];北方工业大学;2006年
6 陈黎力;基于数据挖掘的电信客户流失模型分析与设计[D];大连海事大学;2007年
7 王少芬;数据挖掘在电信客户流失模型中的应用[D];厦门大学;2008年
8 黄奇;决策树与神经网络在电信行业中的应用及其对比分析[D];中南大学;2009年
9 杨立儒;基于神经网络的电路故障诊断的研究与实现[D];解放军信息工程大学;2010年
10 刘兰兰;基于神经网络和遗传算法的H型钢粗轧工艺参数优化研究[D];山东大学;2011年
中国重要报纸全文数据库 前10条
1 陈芝蓉;举棋不定时 试试决策树[N];健康报;2004年
2 于翔;数字神经网络中的协同应用[N];网络世界;2009年
3 何志高;一“枝”一“节”总关情[N];医药经济报;2001年
4 健康时报特约记者  张献怀;干细胞移植:修复受损的神经网络[N];健康时报;2006年
5 于津生;信用评分方法的技术基础[N];金融时报;2006年
6 邹丽梅 陈耀群;江苏科大神经网络应用研究通过鉴定[N];中国船舶报;2006年
7 记者 孙刚;“神经网络”:打开复杂工艺“黑箱”[N];解放日报;2007年
8 本报首席记者 任荃 实习生 史博臻;轨交“神经网络”触动创新神经[N];文汇报;2011年
9 计算机世界实验室 韩勖;当布线系统遭遇神经网络[N];计算机世界;2009年
10 曹建兵 李祖兵 特约记者 何天进 本报记者 于莘明;给导弹植入“神经网络”[N];科技日报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978