微阵列数据分析中的基因选择及样本分类方法研究
【摘要】:微阵列技术给生物学研究领域提供了极为丰富、详尽的基因表达信息。对微阵列数据的分析研究可以帮助人们理解生命现象的机理,并促进医学向更精确的诊疗方向发展。鉴于基因微阵列数据的高维小样本、高噪声等特点,迫切需要借助于先进的计算方法来分析和利用这些原始信息。
微阵列数据分析是生物信息学的重要研究课题,检测差异表达基因、最大化样本分类准确率是其中两大关键技术。本文从基因选择、基因约简、样本分类三方面展开研究,并取得如下研究成果:
首先研究了差异表达基因选择问题,提出了基因差异表达显著性阈值的计算方法。该方法通过构造一个优化的统计量,根据给定的错误率指标估算出统计量的阈值,使得统计量大于该阈值的基因可被认为是差异表达基因。仿真及真实微阵列数据上的实验结果验证了该方法的有效性。
在本论文中,差异表达基因被用作样本分类的特征基因。在确定基因是否差异表达的基础上,为了减少特征基因冗余对样本分类的影响,研究了多种基因约简方法。约简是基于粗糙集理论的知识发现过程。经典的粗糙集理论建立在等价关系基础上之上,其结果对数据噪声较为敏感。本论文提出了Spearman秩相关分析、近似分布约简、区间值分析等基因约简方法。实验结果表明,通过这些方法优化的特征基因集有效地提高了样本分类的准确率。
微阵列数据的小样本特性给现有的分类算法带来了新的挑战。本文提出了一个基于主曲线的微阵列数据分类方法。该方法首先在训练数据集上计算出每类样本的主曲线,然后根据测试样本与各类样本的主曲线间距离的期望方差来确定测试样本所属的类别。实验结果表明,该方法在处理样本数量偏少的数据集时,较之其他几种主流分类方法有一定的优势。