代谢组学时间序列数据趋势分析方法研究
【摘要】:代谢组学是系统生物学的一个重要组成部分,它主要研究生物体在受到外界影响或者刺激时,体内各种代谢物的变化规律。生物体内代谢成分的变化能反映出生物体的生理状态、健康情况。目前代谢组学的主要分析技术是核磁共振和质谱-色谱联用技术,所产生的的代谢组数据通常维数很高,如何从这些复杂的高维数据中提取出与所研究问题相关的信息变量,对理解复杂的生命过程具有重要的意义。
本文对代谢组学时间序列问题进行研究,探讨生物体总体代谢趋势的分析方法。本文首先介绍了相关的数据挖掘领域的分类、聚类以及特征选择等数据处理技术,简要介绍了目前现有的针对时间序列数据的处理技术,针对代谢组学时间序列问题的特点,给出了一种基于融合聚类的代谢组学时间序列数据趋势分析方法。
代谢组学时间序列数据维数高,一般都有数百、数千乃至上万个变量。在大量的代谢组学时间序列数据中存在许多功能相近、变化趋势一致的代谢成分,本文首先对时间序列数据进行转换,然后采用融合聚类技术把代谢趋势变化相似的代谢物分析出来,对每一组变量中的所有属性进行正常组与有病组的对比分析,将具有显著性差异的类簇留下,对剩余的每一类簇的特征随时间变化趋势进行分析,并与对应正常组的特征变化趋势进行对比,从而找出与疾病发展相关的代谢物组。本文采用了两组实际的时间序列数据——老鼠肝病数据以及水稻纹枯病数据,进行了实验。在对老鼠肝病数据处理时,采用了支持向量机的分类模型,使用每一组变量建支持向量机分类模型,筛选出的特征子集,准确率能够达到97.83%。实验结果证明了该策略的有效性与可行性。
最后本文给出了一种加权的聚类融合方法,并对老鼠肝病数据进行了处理,与原来的简单投票方法相比较,体现了其优越性。