高通量测序技术在MSM人群HIV传播网络研究中的应用
【摘要】:对人类免疫缺陷病毒1型(HIV-1)传播网络的特征和传播网络的动态进行深入理解和研究,将有助于HIV-1的监测、干预和治疗。目前,HIV-1传播网络分析主要通过分析HIV-1聚合酶(plol)基因区序列来实现。主要是通过PCR产物直接测序获得序列,然后进行传播网络的分析。而对于HIV-1新近感染者传播网络特征的描述或者网络动态分析,HIV-1包膜蛋白(env)和衣壳蛋白(gag)基因片段由于其进化速率比pol基因片段快可能更适合用来分析传播网络。PCR直接测序所获得的信息量小,一般只能检测优势准种序列,不能在HIV-1准种水平上进一步推断HIV-1传播方向。而高通量测序技术能够检测个体内病毒的低水平变异,可提示传播方向。本研究将同时对一代测序和Hiseq高通量测序(以下简称Hiseq测序)的HIV-1 pol、gag和env三基因区序列进行传播子网络分析,并探讨应用价值。目的探讨HIV-1 gag、env基因区序列构建传播网络的参数;探讨HIV-1pol、gag、env基因区序列在传播子网络动态分析方面的应用价值;建立基于HIV-1pol、gag、env基因区序列准种群分析的Hiseq高通量测序方法;利用Hiseq高通量测序技术进行HIV-1 pol、gag、env基因区序列传播子网络动态分析。材料和方法1.研究对象采用单纯随机抽样的方法,从北京佑安医院相对封闭的MSM人群HIV-1新发感染队列中抽取了 2010年至2012年的MSM急性期感染者100人,所有受检者采样前均未接受抗病毒治疗。分离其外周血单核细胞(PBMC)和血浆(1.5mml/支),于-8℃分别保存备用。2、实验方法(1)从PBMC样本中提取DNA;(2)对DNA进行巢式PCR扩增目的片段;(3)对PCR产物直接测序,并进行基因亚型分析;(4)对pol、gag、env基因区序列进行传播子网络动态分析;(5)针对Hiseq测序设计pol、gag、env基因区引物、优化反应条件,对DNA进行巢式PCR扩增目的片段;(6)PCR产物纯化后,构建DNA文库,然后进行Hiseq测序。(7)对Hiseq测序数据进行进行初步处理,对HIV准种群序列进行基因离散率、系统进化分析,探究其在HIV传播子网络动态分析中的应用价值。结果1、HIV-1毒株亚型和流行状况本研究获得的 HIV-1 基因亚型有 CRF01_AE、CRF07_BC、B、B'、CRF55_01B、CRF65_cpx 和未知亚型,所占比例依次为:42.7%(41/96)、25.0% (24/96)、15.6%(15/96)、1.0%(1/96)、1.0%(1/96)、3.1%(3/96)和 11.6%(11/96)。其中 CRF55_O1B 和 CRF65_cpx亚型在北京首次出现。2、一代测序所获pol、gag、env三区序列用于HIV-1传播网络的探究对70份样本的pol序列进行传播网络分析,网络包含5个传播簇,由11个节点和7条边组成,成簇率为15.71%(11/70)。Fisher检验显示,HIV-1亚型、年龄、教育、婚姻状况和CD4+T细胞计数等影响因素中的样本关联性差异无统计学意义(Psub=0.2058,Page=0.8652, Pedu=1.000, Pmar=1.0000, PCD4=0.7568)。固定自展值(Bootstrap) ≥90%探讨gag、env基因区序列用于传播网络分析的簇内基因距离(genetic distance,GD),Fisher检验显示,gag基因区序列当GD分别小于或等于0.5%、1.5%、2.5%、3.5%时,样本关联性与pol基因区序列差异无统计学意义(Pgag0.5=0.0257、Pgag1 5=0.7083、Pgag2.5=0.0876、Pgag3.5=0.0156,αg=0.01),env基因区序列当 GD 分别小于或等于 0.5%、1.5%、2.5%、3.5%、4.5%时样本关联性与GD≤1.5%和自展值≥90%时的pol基因区序列差异无统计学意义(Penv0.5=0.0257、Penv1.5=0.0811、Penv2.5=0.3824、Penv3.5=0.3749、Penv3.5=0.0160,αe=0.0083)。对pol、gag、env三区序列不同GD值下样本关联性进行比较分析,Fisher检验显示,GD≤1.5%配以自展值≥90%中,gag、env两个基因区序列在序列样本关联性方面差异有统计学意义(Pge1.5=0.0125) ; GD≤3.0%配以自展值≥90%中,pol与gag、pol与env两个基因区序列在序列样本关联性方面差异有统计学意义(Ppg3.0=0.0008,Ppe3.00.0001) ; GD4.5%配以自展值≥90%中,pol与 env、gag与env两个基因区序列在序列样本关联性方面差异有统计学意义(Ppe4.50.0001,Pge4.5=0.0005)。对33份样本的pol、gag、env序列进行动态传播子网络分析,分别提示了在HIV-1传播中起重要作用的两个样本(16014、16035)、三个样本(16014、16017、16035)和四个样本(16014、16017、16064、16035),同时提示了可能的传播路径。3、Hiseq测序用于HIV-1传播网络的方法学建立以env基因区序列为代表探索Hiseq测序适用于传播网络研究的准种分析数量。选取每份样品中最优势的前5、10、20准种序列(分别标示为A、B、C组),三组的样品间平均基因离散率差异无统计学意义(P=0.5889),经系统进化树分析,结果表明A组的结果与B、C两组是一致的。因此,本研究综合考虑后,决定选取前5个准种群序列进行传播网络分析。4、Hiseq测序所获pol、gag、env三区序列用于HIV-1传播网络的探究对CRF01_AE亚型pol、gaag、env三区测序成功的40、42、42份样本进行HIV-1传播网络分析,pol基因区序列的传播子网络动态分析分别提示共获得10个子网络,发现7个在 HIV-1 传播中起重要作用的样本(16001、16003、16014、16029、16082、16088、16097)和3个主要路径。gag基因区序列共获得16个子网络,发现10个在HIV-1传播中起重要作用的样本(16004、16011、16014、16032、16052、16056、16061、16082、16089、16097)和3个主要路径。env基因区序列共获得34个子网络,发现13个在HIV-1传播中起重要作用的样本(16007、16011、16018、16032、16056、16060、16061、16064、16070、16082、16085、16088、16092)和 3 个主要路径。分析 CRF07_BC 亚型pol、gag、env三区测序成功的25、29、29份样本,pol、gag、env三区序列分别发现在HIV-1传播中起重要作用的 2 个样本(16016、16023)、6 个样本(16024、16038、16054、16065、16075、16090)、10 个样本(16019、16028、16031、16038、16050、16065、16067、16069、16090、16098)和一个路径,同时提示了可能的传播路径。结论1、固定自展值≥90%,获得HIV-1gag、env基因区序列用于传播网络分析的GD值,分别为 GD≤3.5%、GD≤4.5%。2、传播子网络动态分析结果显示,一代测序三区序列获得的样本关联信息由高到低依次为env、gag、pol基因区序列。3、成功建立了基于Hiseq高通量测序技术的HIV-1 pol、gag、env基因区序列准种群分析方法。4、Hiseq高通量测序的结果使传播子网络分析结果更精准更明确,有助于了解HIV-1传播子网络的动态过程。5、Hiseq测序技术操作较简便,在HIV-1传播网络分析中具有一定的应用价值。
【学位授予单位】:中国疾病预防控制中心
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:R512.91