多态性位点和致病基因的检测模型构建与算法研究
【摘要】:全基因组关联分析主要对DNA全基因组序列进行扫描和测序,以试图在整个基因组范围内寻找与某种表现型或某种疾病相关的单核苷酸多态性和基因变异。近年来,为了达到该关联研究的目的,在基因组关联分析领域涌现了许多具有前景的算法,尽管这些算法在这个领域内取得了一些成功,但有研究指出这些算法在通用的数据上还具有一定的不明确性。为此本文针对上述的研究目的,展开了如下的研究工作:潜在致病的单核苷酸多态性位点检测。本文提出了两种单核苷酸多态性检测方法。第一种是基于Bonferroni校正的卡方检验模型,相对于传统的卡方检验,该模型极大地降低了检测结果的假阳性。另一种是基于最大信息系数的算法MICSNP(Maximal Information Coefficien Single Nucleotide Polymorphisms),MICSNP 算法具有良好的普适性可在不知道函数模型的前提下,检测出与疾病相关联的单核苷酸多态性位点。本文还对这两种方法进行了比较,发现对这两种方法的结果进行交叉验证可以进一步提高结果的准确性。潜在致病的基因检测。基因可视为若干个位点组成的集合,基因的致病性通常是内部位点相互作用的结果。本文基于深度学习提出了致病基因检测模型 LPGDM(LSTM Pathogenic Gene Detection Model),LPGDM模型以长短期记忆网络作为核心,克服了传统递归神经网络的长期依赖问题,可以把基因中位点与位点之间的相互关系进行高层的抽象,并发掘出其中的联系。为了验证LPGDM模型的检测效果,本文把LPGDM模型与传统的机器学习模型(支持向量机、决策树、朴素贝叶斯、逻辑回归)进行了比较,发现基于深度学习的LPGDM模型在致病基因的检测效果上要优于传统机器学习模型。