收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于表型以及微阵列数据的基因(型)分类技术研究

肖静  
【摘要】: 分离分析(Segregation Analysis, SA)是直接根据分离群体数量性状的表现型检测主基因是否存在并估计其效应的一种统计遗传分析方法,是进一步进行QTL作图和基因组分析的基础。在数量性状主基因和微基因独立的遗传假定下,同一主基因基因型将呈现连续性的正态分布,不同主基因基因型则将是具有不同平均数和相同方差的多个正态分布的混合。因此,分离分析通过高斯混合模型的构建、参数的极大似然估计以及似然比检验统计量的计算,从而实现主基因的效应估计和各种遗传假设测验。 然而,现有的分离分析方法均是基于单一性状进行的,主基因的统计功效较低。为此,本研究提出一种多性状主基因联合分析方法—多元分离分析方法(Multivariate Segregation Analysis, MSA),MSA可以充分利用多个数量性状间的遗传相关和剩余相关信息,因此有望提高主基因的检测功效,以及剖析复杂性状的遗传结构。MSA通过建立多个多元高斯分布的混合模型,采用EM算法实现的极大似然估计方法进行主基因的分离比例、主基因效应和剩余变异估计,以似然比测验统计量进行主基因的各种遗传假设检验,以一因多效、独立遗传和紧密连锁3种可能模型下的贝叶斯信息准则(Bayesian Information Criterion, BIC)来区分主基因是一因多效还是紧密连锁。为了验证方法的可行性,模拟研究以F2群体为例设置了两套模拟实验,模拟实验1研究不同主基因遗传力和样本容量下MSA的统计功效、主基因效应和剩余变异估计的准确度和精确度。模拟实验2研究不同遗传力下MSA区分一因多效主基因或紧密连锁主基因的能力。计算机模拟研究结果表明:(1)无论主基因是同时控制多个性状的表达,还是仅控制其中一个性状的表达,由于联合分析充分利用了性状之间的相关信息,MSA均可以显著提高主基因的被发现能力。(2)MSA可以显著增加主基因效应估计值的准确度和精确度,通常来说,只要主基因的检测功效高达50%以上,其相应估计值的准确度和精确度均可达到较理想水平。(3)MSA还能够有效的区分多性状是受一个主基因控制还是受紧密连锁的多个主基因控制。(4)对遗传力和样本容量两个影响主基因检测功效的关键因素来说,其作用效果则是遗传力明显大于样本容量。以水稻杂交组合多蘖矮×中花11的F2群体597个植株株高和分蘖数为例演示了分析程序。结果表明该组合的株高和分蘖数受同一主基因控制。该主基因对株高的加性和显性效应分别为-21.3 cm和40.6 cm,表现为超显性;对分蘖数的加性和显性效应则分别为22.7和-25.3,表现为接近完全显性。 上述MSA不仅可以估计模型中的遗传参数,而且可计算出每个个体属于不同主基因基因型的后验概率,因此,本研究提出根据个体的贝叶斯后验概率进行个体分类的新方法,即一种基于模型的非监督动态聚类方法。该方法同样是以EM算法实现的极大似然估计方法实现各个类参数估计,以个体所属类别的贝叶斯后验概率判别个体的归类。模拟研究结果表明:(1)该方法通常既可无偏估计类参数又可根据各种模型的BIC值确定最佳分类个数,从而解决传统动态聚类法类数难确定的问题。(2)与重心法动态聚类(k-means)和最小组内平方和法(Minimum Square Sum Within Groups, MinSSw)动态聚类相比,稳健性较高。(3)通过提高判别标准,可以有效降低误判率(Misclassified Rate, MR)。以Fisher的Iris试验数据验证了方法的可行性,分析结果表明基于似然函数极大为目标的非监督动态聚类方法特别适于原始数据为高斯分布的数据聚类,其误判率显著低于k-means和MinSSw法。 DNA微阵列技术是后基因组时代功能基因组研究的主要工具之一,它可以一次同时测出不同实验环境或不同组织的成千上万个基因的表达水平。将相似表达模式的基因聚在一个类中的基因聚类分析,是提取基因表达谱数据潜在生物学信息的有用工具,同时也是微阵列数据分析中使用最为广泛的一类方法。聚类技术依据先验信息的有无,又可分为非监督聚类和监督聚类。为了探讨上述基于模型的聚类方法应用于高维微阵列表达谱数据分析的可行性,分别用计算机模拟数据、酵母细胞周期微阵列数据以及人类癌细胞NCI-60微阵列数据进行聚类分析,并与k-最近邻居法(k-Nearest Neighbour, KNN),二分类支持向量机器(Supprot Vector Machines, SVMs)以及多分类SVMs(Multicategory SVMs, MC-SVMs)法分析结果进行比较,采用假阳性(False Positive, FP)、假阴性(False Negative, FN)、聚类的准确性以及马修斯相关系数(Matthews’Correlation Coefficient, MCC)等指标比较不同监督聚类方法的优劣及其适用场合。结果表明:(1)对成千上万基因表达谱数据,基于模型的聚类法聚类准确性最高,且在训练样本容量较小的情况下,同时利用已知基因和未知基因的先验信息指导未知基因归类的基于模型的监督聚类法,比仅利用已知基因的信息指导未知基因归类的基于模型的判别分类准确性要高,但运算速度较慢。(2)相比较而言,MC-SVMs法稳健性较高,适用性最广,其对高维数据不敏感。不仅适用于成千上万基因表达谱数据的聚类,聚类准确性仅次于基于模型的监督聚类法;而且适用于以成千上万基因作为指标对少数几十个样本的聚类,聚类准确性最高。(3)几种MC-SVMs法的表现,在样本容量较大时,宜采用OVO(One-versus-one)和DAGSVM(Directed Acyclic Graph SVM)法;样本容量较小时,OVR(One-versus-rest)、WW(Method by Weston and Watkins)和CS(Method by Crammer and Singer)法聚类准确性和MCC值较高;样本容量适中时,5种MC-SVMs表现一致。(4)建议根据数据的特征以及实验需要,同时选用至少两种方法进行试算,以便获得最佳聚类结果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李玉玲;;基于边界齐次方列联表棱向量的EM算法[J];中国科技信息;2010年10期
2 李彩霞,黎培兴,关永源,方积乾;离子通道的混合密度参数估计与状态判别[J];数理统计与管理;2005年06期
3 王钰;杨柳;李济洪;;截尾线性回归模型参数极大似然估计的EM算法[J];中北大学学报(自然科学版);2006年02期
4 彭家龙;;基于数据分组与右删失情形下一般瑞利分布的参数估计[J];西南民族大学学报(自然科学版);2009年01期
5 刘欣;陈惠;费鹤良;;基于数据分组与右删失情形下对数正态分布的参数估计[J];应用概率统计;2008年04期
6 木拉提·吐尔德;胡锡健;;EM算法在删失数据分布和混合分布参数估计中的应用[J];统计与决策;2011年15期
7 刘捷;;混合双参数指数分布的参数估计[J];华中师范大学研究生学报;2007年04期
8 杨柳;李济洪;;极值分布右截尾线性回归模型参数的极大似然估计[J];山西师范大学学报(自然科学版);2009年02期
9 沈启霞;刘心声;;含缺失数据线性模型回归系数的约束EM算法[J];南京大学学报数学半年刊;2007年01期
10 王继霞;李俊芬;刘次华;;多元正态模型的线性不等式约束估计[J];河南师范大学学报(自然科学版);2007年04期
11 李海霞;张晓冉;徐玉民;;广义线性模型中不完全数据的参数估计[J];甘肃联合大学学报(自然科学版);2008年06期
12 王继霞;李俊芬;申培萍;;正态模型参数线性不等式约束估计的优化算法[J];河南师范大学学报(自然科学版);2010年01期
13 王继霞;申培萍;;定时截尾下Weibull分布参数估计的EM算法[J];河南师范大学学报(自然科学版);2009年02期
14 官飞;王峰;贾宝瑞;;两种删失数据情形下基于EM算法的指数分布的参数估计[J];巢湖学院学报;2010年03期
15 胡治球,徐辰武;谷物胚乳性状数量基因定位新方法[J];科学通报;2005年14期
16 高会江;杨润清;;动态性状基因座的复合区间定位[J];科学通报;2006年13期
17 郭丽莎;金凌辉;;分组与删失数据下几何分布的参数估计[J];中南民族大学学报(自然科学版);2007年02期
18 王黎明;章明媛;;混合Copula模型在股市板块分析中的应用[J];兰州商学院学报;2011年01期
19 陆安;;两种截断和删失情形下截尾指数分布的参数估计[J];九江学院学报(自然科学版);2011年01期
20 王建康,盖钧镒;主基因-多基因混合遗传分析中的EM算法[J];生物数学学报;1997年S1期
中国重要会议论文全文数据库 前10条
1 忻雅;王伟科;阮松林;王世恒;马华升;;基于RAPD和EST-SSR标记的秀珍菇菌株聚类分析[A];中国菌物学会第四届会员代表大会暨全国第七届菌物学学术讨论会论文集[C];2008年
2 鲁振华;宋银花;牛良;刘淑娥;王志强;;PermutMatrix软件及其在观赏桃形态性状聚类分析中的应用[A];中国园艺学会桃分会第二届学术年会论文集[C];2009年
3 马汉武;郭沛尧;;基于供应链的供应商分类模型及其管理策略研究[A];现代工业工程与管理研讨会会议论文集[C];2006年
4 张凤兰;郝丽珍;王萍;杨忠仁;王六英;张进文;;蒙古高原特有属——沙芥属蔬菜植物果实和种子形态指标聚类分析[A];中国园艺学会第七届青年学术讨论会论文集[C];2006年
5 张平刚;陈超君;黄荣韶;杜金子;林伟国;;广西石韦药材主要种质资源调查及其聚类分析[A];药用植物化学与中药资源可持续发展学术研讨会论文集(上)[C];2009年
6 马尽文;吴晓岩;;RPCL算法、价值函数和类别数[A];第十一届全国信号处理学术年会(CCSP-2003)论文集[C];2003年
7 杨朝武;蒋小松;朱庆;杜华锐;李晴云;姜小雨;李小成;张增荣;刘岚;李雯;夏波;;优质鸡肉质指标的聚类分析[A];中国家禽科学研究进展——第十四次全国家禽科学学术讨论会论文集[C];2009年
8 李国良;李忠富;;基于聚类的企业绩效熵值评价方法研究[A];第十一届中国管理科学学术年会论文集[C];2009年
9 高林;刘喜梅;;多模型中权值确定的新方法及其应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
10 吕敬堂;吕大明;张浩;;基于SPSS的农业功能聚类分区方法研究[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 肖静;基于表型以及微阵列数据的基因(型)分类技术研究[D];扬州大学;2007年
2 郑术蓉;线性不等式约束下的EM算法[D];吉林大学;2004年
3 赵宁;理中丸和四君子汤与脾虚证方证相关性的实验研究[D];中国中医科学院;2006年
4 曹锋;数据流聚类分析算法[D];复旦大学;2006年
5 吕崇山;代谢综合征中医辨证分型及其与临床检测指标的相关性研究[D];福建中医学院;2008年
6 袁军宝;我国农业现代化进程中的农户兼业经营问题研究[D];兰州大学;2009年
7 邵伟钰;地方政府债务风险预警体系研究[D];苏州大学;2008年
8 吴飞珍;基因芯片数据的聚类功能评价算法和判别分析算法研究[D];上海大学;2009年
9 张文专;非线性再生散度随机效应模型的统计分析[D];云南大学;2004年
10 胡治球;种子性状QTL作图新方法[D];扬州大学;2007年
中国硕士学位论文全文数据库 前10条
1 王伟;谷物胚乳性状数量基因图的构建方法[D];扬州大学;2005年
2 冉延平;基于混合模型的聚类算法及其稳健性研究[D];中国人民解放军信息工程大学;2005年
3 李玉玲;边界约束下多项分布的极大似然估计与EM算法[D];东北师范大学;2005年
4 连军艳;EM算法及其改进在混合模型参数估计中的应用研究[D];长安大学;2006年
5 陈婷;基于EM算法的含缺失数据的参数估计[D];大连理工大学;2008年
6 童玲;电梯交通流多模式预测方法的研究[D];天津大学;2005年
7 王晓芳;区间删失情况下参数估计的新方法[D];华东师范大学;2007年
8 沈启霞;含缺失数据的线性模型回归系数的约束EM算法[D];南京航空航天大学;2007年
9 涂庆;中小样本的拟合优度检验[D];华中师范大学;2007年
10 刘妍;混合连接函数模型及其在风险度量中的应用[D];中国人民大学;2008年
中国重要报纸全文数据库 前10条
1 ;聚类分析在自身免疫病基因表达谱研究中的初步应用[N];中国医药报;2003年
2 中谷期货 杨静;期货公司客户信用风险评级体系研究[N];期货日报;2007年
3 YMG记者 孙长波;烟台经济增速全球第三[N];烟台日报;2008年
4 符信;30个指标评价社会发展水平[N];南方日报;2005年
5 雨文;全国专家聚云财大研讨区域经济学[N];云南日报;2006年
6 中国社会科学院研究生院人文学院 王昌燧 朱剑 朱铁权;原始瓷产地研究之启示[N];中国文物报;2006年
7 王式跃;对宁波区域经济发展差异的分析[N];中国信息报;2007年
8 蒋志华 杨诚 陈晓卫 从日玉 李瑞娟;中国公众统计素养调查研究[N];中国信息报;2009年
9 记者 王宝琳;我首次采用基因组学技术研究中药[N];科技日报;2009年
10 江洪波;我国封闭式基金绩效评价实证研究[N];中国证券报;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978