血浆蛋白表达谱推断深静脉血栓形成时间的研究
【摘要】:目的:利用Agilent蛋白芯片技术结合四种机器学习算法检测分析大鼠深静脉血栓(deep venous thrombosis,DVT)形成过程中血浆蛋白谱的变化,探讨血浆蛋白表达谱与血栓形成的时序性变化规律,以此进行血栓形成时间的推断。方法:建立大鼠DVT模型,分为对照组和手术组,对照组不做任何处理(n=10),手术组包括血栓形成后1 h、6 h、12 h、1 d、2 d、3 d、4 d、5 d、6 d、7 d、10 d、14 d、21 d组(n=10),收集140例大鼠血浆样本,采用Agilent蛋白芯片技术检测大鼠血浆蛋白表达谱,结合支持向量机、logistic回归、随机森林和Fisher线性判别模型对样本数据进行分析,运用最优数学模型对样本变量进行重要性排序。结果:(1)对照组可见静脉血管瘀血样改变,无血栓形成,12 h后可见少量血小板聚集,1 d后可见大量的血小板聚集,3 d后出现少量成纤维细胞,血栓密度增高,5 d后成纤维细胞增多,纤维素样物质渗出也增加,14 d纤维素样物质堆积;(2)不同血栓形成时间点血浆样本蛋白表达谱存在差异,峰位置和各峰含量不同;(3)主成分分析和正交偏最小二乘判别分析显示各样本组均存在显著差异;(4)建立多个血栓形成时间点分类预测模型,支持向量机模型准确率为86.8%,ROC值为0.97,logistic回归模型准确率为63.1%,ROC值为0.95,随机森林模型准确率为86.8%,ROC值为0.98,Fisher线性判别模型准确率为81.5%,ROC值为0.94,综合分析显示随机森林模型更适用于本实验数据,其外部验证准确率为85.7%;(5)运用随机森林模型对样本变量进行重要性排序,显示蛋白峰P11和蛋白峰P10排序重要性最高,查阅文献和分子预测,认为分子量为56.9 KDa的蛋白峰P11和分子量为45.8 KDa的蛋白峰P10可能与血栓形成密切相关。结论:利用蛋白芯片技术可以快速检测并准确获得大鼠不同血栓形成时间点血浆样本蛋白表达谱,联合多种机器学习算法,分析DVT血浆蛋白表达谱的时序性变化规律,建立四种数学算法模型,其中随机森林模型准确率最高,准确率为85.7%,为血栓形成时间的推断提供新的方法和思路。