收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于数据挖掘技术的肺癌早期预警模型研究

王娜  
【摘要】:肺癌是当今世界各国最常见的恶性肿瘤,其发病率和死亡率呈不断上升趋势,对人类的健康和生命构成了极大威胁。在中国,肺癌每年大约导致40万例患者死亡,已成为发病率和死亡率最高的恶性肿瘤。研究显示I期肺癌术后10年生存率可达到92%。然而肺癌早期不易诊断,恶性程度高,一经病理确诊多数已属晚期,失去手术治疗的最佳时机,总的5年生存率仅为15%左右。因此,要降低肺癌患者的死亡率关键在于肺癌的早期发现、早期诊断和早期治疗。肺癌的发生是多因素、多基因和多阶段发展的复杂过程,由于传统的影像学检查和支气管镜等检查手段存在敏感性、特异性和适用度等方面的局限,近年来国内外学者对肺癌早期预警或诊断相关的分子标志和多种肿瘤生物标志的联合检测做了大量有益的探索,以期找到更合理、敏感性和特异性更高的分子联合标志。 肺癌的发生是环境因素和遗传因素共同作用的结果,因此在寻找肺癌早期预警或诊断的生物标志时,也可以从两方面着手,即反映机体先天具有或后天获得的对外源性物质产生反应能力的易感性标志;反映早期生物效应、结构和/或功能改变以及疾病的效应标志。遗传因素属于前者,其作用体现在同一环境暴露中个体肿瘤易感性的差异,归根到底由基因多态所代表的遗传背景决定。另一方面,在很多情况下,许多分子事件的发生早于明显恶性表型的出现,因此,运用分子生物学的方法检测肺癌发生过程中的早期分子事件,从而发现癌前病变或早期癌变也被认为是肺癌早期预警最具应用前景的手段。肿瘤发生的早期生物效应包括了DNA甲基化和端粒损伤在内的遗传学和表观遗传学改变。 数据挖掘(Data Mining),又称数据库知识发现(Knowledge Discovery from Database, KDD),它是从大量数据中提取并挖掘未知的、有价值的模式或规律等知识的复杂过程。它通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘与传统数据分析有着本质的区别。数据挖掘是在没有明确的假设的前提下挖掘信息和发现知识。同时,通过数据挖掘得到的信息具有先前未知、有效及可实用3个特征。数据挖掘中的决策树和人工神经网络技术(Artificial Neural Networks, ANN)能够对数据信息进行大规模并行处理和分布式存储,且具有良好的自适应性、自组织性及较强的学习功能、联想功能和容错功能。在肿瘤的诊断方面,不仅能够起到检测可疑病变和分类的作用,还能挖掘用于检测和分类的潜在特征标志,为肿瘤的诊断做出建设性贡献。 本研究检测对象外周血中CYP1A1, GSTM1, GSTT1, mEH, XRCC1基因多态性、p16和RASSF1A基因甲基化水平及端粒相对长度,探讨5种基因多态性与p16、RASSF1A基因甲基化和端粒相对长度的相关关系,在此基础上应用数据挖掘技术,检测这些分子指标对肺癌早期预警的相关性,抽取可用于肺癌预警的有效特征,构建较为适合的预测模型,探讨是否有助于提高肺癌早期预警或诊断的正确率及联合检测对肺癌辅助诊断的意义,以实现肺癌早期预警、诊断和分类的自动化,为高危人群的筛查和临床肺癌诊断提供有价值的参考资料。 目的 1.探讨肺癌患者外周血I相代谢酶基因CYP1A1,Ⅱ相代谢酶基因GSTM1、GSTT1、mEH,及DNA修复酶基因XRCC1的多态基因型与肺癌易感之间的关系,探讨抑癌基因p16、RASSF1A甲基化及端粒相对长度与肺癌发生的关系,筛选出与肺癌发生相关的有效分子生物标志,找出对肺癌早期预警意义最大的几项,为肺癌的早期预警提供基础资料。 2.将数据挖掘技术和上述分子标志相结合,构建可“自动”处理信息的智能预警模型,为肺癌智能预警系统的研制开辟一条新途径,提高肺癌早期预警的准确率。 材料与方法 1.以251例肺癌患者和256例健康体检者为研究对象。 2.采用等位基因特异性扩增法(allele-specific amplification, ASA)检测CYP1A1-exon7位点多态性,采用多重PCR法检测GSTM1、GSTT1基因多态性,采用聚合酶链反应-限制性片段长度多态性(polymerase chain reaction-restriction fragment length polymorphism, PCR-RFLP)方法分别检测CYP1A1-Mspl位点、mEH-exon3、mEH-exon4、XRCC1-194、XRCC1-280及XRCC1-399位点基因多态性。采用实时荧光定量甲基化特异PCR (real-time methylation specific PCR, qMSP)技术检测p16和RASSF1A基因甲基化水平,采用荧光定量PCR法检测端粒相对长度。 3.应用SPSS12.0统计分析软件,采用x2检验、t检验、秩和检验、Logistic回归分析等方法对基因多态、甲基化水平和端粒相对长度的结果进行一般统计学分析处理,探讨基因多态性、DNA甲基化及端粒相对长度变化与肺癌发生的关系,筛选可能用于肺癌早期判别模型的有效指标。 4.将每组样本按3:1的比例随机分为训练集和测试集,将CYP1A1-exon7、GSTM1、mEH-exon3、XRCC1-194和XRCC1-280位点基因多态性、p16基因和RASSF1A基因甲基化水平、端粒长度及吸烟情况作为输入参数,用Fisher判别分析、决策树C5.0和反向传播神经网络算法(Back-Propagation, BP算法)分别对训练集进行训练建立模型,用训练好的模型对相应的测试集进行盲法预测,验证判别模型的优劣,最终建立肺癌早期智能化预警模型。 结果 1. GSTM1基因缺失型,CYP1A1-exon7、mEH-exon3、XRCC1-194及XRCC 1-280基因位点纯和突变型在病例组与对照组中的分布频率差异均有统计学意义(P0.05),GSTM1基因缺失者与GSTM1基因阳性者相比发生肺癌的危险性升高(ORadj=1.727,95%CI:1.211-2.463);携带CYP1A1-exon7 Ile/val+val/val基因型的个体较携带CYP1A1-exon7 Ile/Ile基因型的个体发生肺癌的危险性升高(ORadj1.727,95%CI:1.203-2.477);mEH-exon3突变基因型携带者与野生纯合型的个体相比发生肺癌的危险性升高(ORadj1.758,95%CI:1.194-2.589);携带XRCC1-194 Arg/Trp+Trp/Trp基因型的个体较携带XRCC1-194 Arg/Arg基因型的个体发生肺癌的危险性升高(ORadj=1.542,95%CI:1.083-2.196);XRCC1-280His/His基因型携带者较XRCC1-280 Arg/Arg+Arg/His基因型携带者发生肺癌的危险性升高(ORadj=2.941,95%CI:1.427-6.060)。CYPIA1-Msp1、GSTT1、mEH-exon4及XRCC 1-399多态基因型在病例组与对照组中的分布频率差异均无统计学意义(P0.05)。基于5种基因多态性建立肺癌判别模型,结果为Fisher判别分析、决策树及ANN对训练集和预测集的准确率分别为63.59%、63.25%;95.64%、82.61%:84.1%、80.77%,Fisher判别分析、决策树及ANN模型的ROC曲线下面积(AUC)分别为0.627、0.836、0.821。 2.肺癌组外周血p16基因和RASSF1A基因甲基化水平及端粒相对长度分别为0.59(0.16~4.50)、27.62(9.09~52.86)、0.93±0.32,与对照组相比差异具有统计学意义(P0.05);p16基因和RASSF1A基因启动子区甲基化水平增高及端粒相对长度缩短与肺癌发生危险性增加有关;性别、年龄、吸烟情况、肺癌分期和病理类型与p16基因、RASSFIA基因甲基化及端粒长度无关(P0.05)。基于上述指标建立肺癌判别模型,结果为Fisher判别分析、决策树及ANN对训练集和预测集的准确率分别为66.34%、65.82%;77.26%、75.45%;72.15%、71.72%,3种模型的AUC分别为0.660、0.782、0.759。 3. XRCC1-280位点不同基因型之间p16甲基化水平有差异,CYP1A1-exon7、GSTM1、mEH-exon3和XRCC1-280位点不同基因型之间RASSFIA基因甲基化水平不同,CYP1A1-exon7和GSTM1基因突变型与野生型相比端粒相对长度差异。基于上述综合指标建立肺癌判别模型结果显示,Fisher判别分析、决策树及ANN对训练集和预测集的准确率分别为72.15%、70.59%;93.88%、93%;92.96%、89.62%,3种模型的AUC分别为0.722、0.929、0.894。决策树模型对临床早期(I+II期)肺癌的判别准确率为96.36%,ANN模型为89.09%。 结论 1.CYP1A1-exon7、GSTM1、mEH-exon3、XRCC1-194和XRCC1-280基因位点的变异、p16和RASSFIA基因甲基化水平异常增高、端粒相对长度缩短与肺癌患癌危险度增加有关,上述指标组成肺癌早期预警模型的分子标志群。 2.数据挖掘技术联合肺癌发生相关的多角度分子事件建立模型对肺癌的判别准确性优于单方面分子标志的检测。 3.本文建立的多个肿瘤分子标志联合决策树和ANN技术的肺癌早期预警模型对肺癌的判别优于传统的Fisher判别方式,比常规的统计学方法更适合于临床数据的分析,准确度较高,可以用于肺癌早期预警。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 高泽强;汕头市举办非典监测早期预警知识培训班[J];国际医药卫生导报;2004年Z1期
2 ;早期识别“急诊潜在危重患者”新方法——英国早期预警评分(EWS)介绍[J];中国社区医师;2006年24期
3 刘劫,廖文,姜润娟,林修寿;Ⅱ型糖尿病早期预警指标分析[J];现代康复;2000年01期
4 李贤相;;症状监测在突发公共卫生事件早期预警中的应用[J];安徽预防医学杂志;2009年05期
5 余凤苹,徐勇;疾病监测及早期预警信息的收集应用及管理[J];中国公共卫生管理;2005年03期
6 蔡国华;;早期预警评分在急诊应用的回顾性分析[J];山西医药杂志(下半月刊);2007年03期
7 朱宇清;王辰;谭元菊;滕乐;;应激性溃疡早期预警因素临床分析研究[J];临床急诊杂志;2011年03期
8 闫昌福,马麟,赵亮怀,帖萍,梁之斌;山西省传染性非典型肺炎早期预警监测试点监测工作分析[J];疾病监测;2004年10期
9 霍翔;李亮;祖荣强;孟繁岳;许可;嵇红;朱凤才;汤奋扬;;流感样病例监测在甲型H1N1流感大流行中的早期预警效果分析[J];江苏预防医学;2010年01期
10 郑昌炼;禇衍友;龙璇;孙宝霞;;循证护理在早期预警手足口病重症患儿中的应用[J];齐鲁护理杂志;2011年06期
11 张倩;金城;肖小河;武彦舒;鄢丹;尹蓉莉;;中药注射剂不良反应与质量波动早期预警方法的商建[J];中草药;2009年03期
12 周剑南;冯子健;谭柯;李晓松;;Flexible空间扫描统计量在传染病聚集性探测的应用研究[J];中华疾病控制杂志;2010年06期
13 张秀敏;肖东;田梅;王喜华;;运用早期预警系统对主动脉夹层动脉瘤患者的监护管理[J];新疆医学;2007年03期
14 王小莉;王全意;栾荣生;曾大军;贺雄;;传染病疫情早期预警的主要模型[J];现代预防医学;2008年22期
15 林敏霞;;动脉粥样硬化早期无创检测技术在健康体检中的应用研究[J];临床心血管病杂志;2011年09期
16 韩萍;谢燕;胡坤;赵润栓;赵琳;欧应伟;;14929份baPWV/ABI检测结果的分析及影响因素与动脉血管弹性降低的相关性研究[J];中国疗养医学;2010年12期
17 郭雁宾;SARS临床分期分型与早期预警指标[J];中华医学信息导报;2003年12期
18 邓爱萍;何剑峰;康敏;杨芬;张欣;倪汉忠;林锦炎;;广东省流感监测数据早期预警效果分析[J];中国公共卫生;2009年05期
19 符丽媛;宋凌浩;陆永贵;丁永健;;应用蒙特卡罗模拟开展传染病爆发早期预警的研究[J];口岸卫生控制;2009年02期
20 陈强;郭岩;万明;苏雪梅;;全球公共卫生情报网及对我国的启示[J];医学信息学杂志;2011年08期
中国重要会议论文全文数据库 前10条
1 刘谦民;陈毓;杨立宇;孟繁荣;戚蕾;王韦韦;;临床早期预警评分软件的开发及临床应用[A];《中华急诊医学杂志》第九届组稿会暨第二届急诊医学青年论坛全国急危重症与救援医学学习班论文汇编[C];2010年
2 R.C.Landis;;早期预警的传播[A];联合国国际减轻自然灾害十年论文精选本论文集[C];2004年
3 温新宇;王娜;田亚平;张学敏;;应用蛋白质组技术筛选恶性肿瘤早期预警生物标志[A];第十次中国生物物理学术大会论文摘要集[C];2006年
4 刘杰;;肝硬化癌变早期预警新基因克隆,临床预警价值鉴定及致癌通路研究[A];全国肿瘤流行病学和肿瘤病因学学术会议论文集[C];2007年
5 施斌;丁勇;徐洪钟;张丹;;分布式光纤应变测量技术在滑坡早期预警中的应用[A];第七届全国工程地质大会论文集[C];2004年
6 ;一次错误的地震预报[A];联合国国际减轻自然灾害十年论文精选本论文集[C];2004年
7 孟庆瑜;刘广明;;试论外来物种入侵法律制度的完善[A];林业、森林与野生动植物资源保护法制建设研究——2004年中国环境资源法学研讨会(年会)论文集(第二册)[C];2004年
8 刘杰;;肝硬化癌变早期预警分子克隆、临床预警价值鉴定及致癌信号通路研究[A];中华医学会第七次全国消化病学术会议论文汇编(下册)[C];2007年
9 王晓蓉;;分子生物标志物在水环境有机污染的早期预警研究进展[A];有机污染环境化学前沿与环境可持续发展战略论文集[C];2006年
10 吴绮楠;邓武权;艾智华;陈兵;梁自文;;老年糖尿病患者心脏病变特点及相关危险因素分析[A];中华医学会第11次心血管病学术会议论文摘要集[C];2009年
中国博士学位论文全文数据库 前10条
1 吴静鸣;我国商业银行风险的早期预警模型研究[D];厦门大学;2003年
2 殷菲;时—空扫描统计量在传染病早期预警中的应用研究[D];四川大学;2007年
3 陈博;大规模网络资源消耗型攻击的检测和防范方法研究[D];哈尔滨工业大学;2007年
4 易小燕;外来入侵植物的扩散路径与入侵风险管理研究[D];南京农业大学;2008年
5 陈宇峰;蠕虫模拟方法和检测技术研究[D];浙江大学;2006年
6 吴海洋;上尿路腔内碎石术致急性感染性休克的早期预警研究[D];浙江大学;2012年
7 程丽薇;湖北省农村地区药物销售量监测系统应用研究[D];华中科技大学;2013年
8 王娜;基于数据挖掘技术的肺癌早期预警模型研究[D];郑州大学;2012年
9 曲丹;冠心病易损患者早期预警及“瘀毒”临床表征的研究[D];北京中医药大学;2010年
10 金悦;脓毒症患者远期生活质量和核小体早期预警研究[D];浙江大学;2012年
中国硕士学位论文全文数据库 前10条
1 张新霞;英国思想库及其功能分析[D];河北师范大学;2004年
2 曹杨华;中国银行风险早期预警模型及应用研究[D];南京航空航天大学;2011年
3 刘新平;改良早期预警评分在ICU的临床应用[D];蚌埠医学院;2011年
4 亢春彦;FHIT、p16基因甲基化与肺癌关系的研究[D];郑州大学;2004年
5 李志良;鱼类行为学在水质在线监测与预警中的应用研究[D];山东师范大学;2008年
6 刘宁;应用GIS进行外来树种生物入侵监测与早期预警[D];河南农业大学;2006年
7 付克华;早期预警体系的应用——以泰国为例[D];中国社会科学院研究生院;2003年
8 苏玮;中国上市公司早期财务困境预警的分类实证研究[D];南开大学;2006年
9 任宗明;在线生物监测技术在饮水安全预警中的应用研究[D];山东师范大学;2005年
10 任迪;流感大爆发的早期预警信号[D];江南大学;2012年
中国重要报纸全文数据库 前10条
1 李体锋;吉林银监局 注重风险早期预警控制[N];金融时报;2003年
2 白剑峰;非典监测将采取早期预警方式[N];人民日报;2003年
3 ;Symantec ManTrap:实现早期预警[N];计算机世界;2002年
4 周彧;A319:不仅会早期预警[N];中国国防报;2010年
5 李健 编译;“恐怖袭击早期预警”上航班[N];大众科技报;2007年
6 白国志;精神分裂症特征蛋白被发现[N];健康报;2006年
7 ;血压偏高的早期预警信号[N];中国中医药报;2003年
8 本报记者 王瑾;当好哨兵发挥“烽火台”作用[N];中国气象报;2008年
9 周彧;乌克兰推出安-71 AWACS 早期预警机[N];中国国防报;2002年
10 记者 曹丽君;英国:灾害预警系统及时为百姓提供信息[N];新华每日电讯;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978