收藏本站
《浙江大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

多变量数据遗传分析方法的研究

沈炎峰  
【摘要】:在经典的多元统计分析中,一般要求样本量n要远大于变量个数p,且绝大多数统计方法的大样本性质是在维数p固定、n趋于无穷的条件下获得的.近十年来,随着高通量生物技术的迅速发展,大尺度数据的收集变得越来越容易和自动化,使得变量个数以及观测数都得到了很大幅度的增加.在很多实际问题中,变量个数p与样本量n相差不多甚至会远大于n.这些新型的数据给多变量统计推断方法带来巨大挑战和机遇,促使研究工作者寻求新的统计方法和理论.本论文以统计遗传中的若干热点问题为出发点,着重探讨多变量分析中的假设检验和变量选择问题,提出了一些新的统计推断方法,且通过随机模拟和实例分析来验证这些新方法的可行性和有效性.本论文共分五章,主要内容概括如下: 第一章首先简单介绍两种高通量的生物数据以及与其相关的统计遗传学问题,本文讨论的内容都是以这些数据和问题作为基本出发点.其次,本论文多处涉及到一些新近发展的正则化统计方法,作为预备知识,我们简要介绍这些与本文密切相关的正则化方法. 第二章以关联分析中的多位点分析问题为背景,系统地讨论了主成分方法在检验回归方程显著性中的统计性质.首先,我们提出一个基于主成分回归的检验统计量,进一步得到这个检验统计量的精确功效函数.这个结果揭示了检验功效与主成分个数之间的关系,同时指出用累计贡献率方法来决定主成分个数时存在的风险.其次,我们提出一个加权形式的主成分检验统计量.这个统计量不仅包括很多现有的检验统计量,而且有助于比较这些方法之间的优缺点.最后,为了避免选择一个特定的主成分个数,我们给出了3个自适应的检验方法. 第三章研究多个数量性状的基因定位问题.在生物医学研究中,很多情况需要关心多个具有一定相关性的复杂性状,而传统的单个性状基因定位方法无法利用性状之间的相关信息,也不能很好地控制第一类错误.本章我们提出一个两阶段策略来处理多个性状基因定位问题:首先,在多变量回归的框架下构造Wilks型统计量来检测可能存在的基因点位以及基因与基因互作位点,并用置换检验来有效地控制整个筛选过程的假阳性率;其次,在选定的模型基础上,采用单变量混合线性模型来估计各个遗传效应值.水稻数据分析和模拟的结果说明本章提出的新方法是可行的、有效的. 第四章研究高维回归模型中回归方程的显著性检验问题.首先,在线性回归的框架下,我们构造一个基于软阈技术和独立性原则的检验统计量来衡量回归变量与因变量之间的关联程度.这个检验统计量能压缩大部分噪声变量,从而能敏感地检测出稀疏性备择假设.其次,我们把这个检验统计量推广到高维Logistic回归情形中.最后,用模拟和白血病数据分析来比较新方法与其他已有方法之间的优缺点. 第五章讨论“大p,小n”情形下多样本均值检验问题.这一章主要包括三方面内容:首先,以高维一样本问题为出发点,我们提出一个基于正则化的检验方法来解决高维数据分析中存在的困难.通过把软阈技术引入检验统计量,新方法能有效地降低随机噪声对功效的影响,同时能挑选出对拒绝原假设有贡献的特征变量;其次,我们把新方法推广到多个样本问题,从而把一些传统的多变量方法推广到高维情形;最后,把本章提出的新方法应用于实际临床数据的基因集分析,结果验证了提出的新检验方法的有效性. 综上所述,本文首先研究了主成分降维技术在回归方程显著性检验中的统计性质,揭示了无指导学习的降维方法在处理检验问题中存在的风险.这些结果具有一定的理论意义,有助于实际工作者更深刻地认识这类方法的优缺点.其次,本文提出了一个基于混合线性模型的多个性状基因定位方法,推广和发展原先的单个性状基因定位方法.这个新的方法有着广泛的应用价值,实际数据分析和模拟结果说明本章提出的新方法是可行的、有效的.最后,本论文系统地研究了高维数据处理中的两类假设检验问题,提出了若干有效的检验统计量,从而推广和扩展了一些经典的检验方法.这些推断方法不仅具有重要的理论意义,而且在高维数据分析中有着广泛的应用价值,实例分析和随机模拟结果表明这些方法是可行且有效的.
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:Q348

手机知网App
【共引文献】
中国期刊全文数据库 前10条
1 曹明响;孔繁超;;线性约束下增长曲线模型中参数的线性估计的可容许性[J];安徽教育学院学报;2007年06期
2 曹明响;;推广增长曲线模型中最小二乘估计的相对效率[J];合肥师范学院学报;2008年06期
3 王建成;段乃彬;李群;颜廷进;张文兰;戴双;;应用微核心种质进行作物重要经济性状的评价[J];山东农业科学;2008年08期
4 朱占玲;田宾;刘宾;谢全刚;田纪春;;小麦整穗发芽的QTL定位分析[J];山东农业科学;2010年06期
5 储慧琴;郑玉国;徐海燕;;广义非中心拟F-分布[J];安徽工程科技学院学报(自然科学版);2008年01期
6 储慧琴;夏登峰;;EVS椭球等高矩阵分布中的正态性刻划[J];安徽工程大学学报;2012年01期
7 张作仿;小麦品种联合试验中试点代表性与联试效果[J];安徽农业科学;1984年04期
8 张泽生,苏泽胜,张效忠;安徽籼稻地方品种资源的聚类分析[J];安徽农业科学;1990年02期
9 程福如,郑曙峰,张军,许新华,王跃群;棉铃虫发生期和发生量预报技术研究[J];安徽农业科学;2000年04期
10 赵东娟;齐伟;杨芬;;主成分聚类分析在县域生态经济分区中的应用——以东营市河口区为例[J];安徽农业科学;2007年06期
中国重要会议论文全文数据库 前10条
1 冯艳;于立平;邵玮;乔俊峰;唐燕;;转变经济发展方式对北京经济影响的测度[A];科学发展:社会管理与社会和谐——2011学术前沿论丛(下)[C];2011年
2 杨晓霞;黄一;;激光陀螺捷联惯导系统的系统级标定方法研究[A];第二十六届中国控制会议论文集[C];2007年
3 赵松义;高春阳;胡日生;朱列书;;烤烟农艺性状的杂种优势表现[A];中国作物学会2007年全国作物遗传育种学术研讨会论文集[C];2007年
4 张佳川;;节理岩体按结构面性质分区的聚类分析与模糊综合评判[A];全国第三次工程地质大会论文选集(下卷)[C];1988年
5 孙伶俐;薛军蓉;李垠;;因子分析方法对九江5.7级地震前地震活动异常的研究[A];新世纪观测技术发展及防震减灾青年学术研讨会论文集[C];2007年
6 蔡雷;;系统评价中的可加性评价函数及其判别[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
7 顾万春;李斌;;刺槐无性系栽植生态区的研究——兼研林木品种(良种)推广系数[A];中国林木遗传育种进展[C];1991年
8 朱宁;徐标;李建军;;学生成绩判别分析预测模型[A];第八届中国青年运筹信息管理学者大会论文集[C];2006年
9 葛余博;杨大利;曾德超;;噪声环境下语音识别的几个问题(一)[A];第三届全国人机语音通讯学术会议论文集[C];1994年
10 李纲;陈关龙;王成焘;;数据融合及其在发动机润滑油状态监测多源信息处理中的应用[A];第六届全国摩擦学学术会议论文集(下册)[C];1997年
中国博士学位论文全文数据库 前10条
1 韩英鹏;多环境、多遗传背景下不同发育时期大豆籽粒重的QTL分析[D];哈尔滨师范大学;2010年
2 赵琪;我国国有企业人力资源优化配置研究[D];哈尔滨工程大学;2010年
3 马勇;欧盟科技一体化研究[D];华东师范大学;2011年
4 李培英;新疆草坪用野生偃麦草种质资源评价[D];新疆农业大学;2010年
5 张彩英;小麦主要产量和品质性状的QTL鉴定及ZDS功能标记的开发[D];河北农业大学;2010年
6 郭营;小麦不同矿质营养处理下苗期、产量和籽粒性状的QTL分析[D];山东农业大学;2011年
7 刘宾;小麦主要农艺性状的条件和非条件QTL定位[D];山东农业大学;2011年
8 张轲;利用三亲本复合杂交群体构建陆地棉遗传连锁图谱与纤维品质QTL定位[D];西南大学;2011年
9 徐文科;基于微分方程的生态数学模型统计分析[D];东北林业大学;2009年
10 杨代刚;陆地棉双列杂交的遗传效应及表达谱分析[D];中国农业科学院;2011年
中国硕士学位论文全文数据库 前10条
1 刘毅;水稻纹枯病抗性遗传分析及稻种资源的抗病鉴定与评价[D];华中农业大学;2010年
2 杨盖宇;近等基因系群体的Ghd7和Qph1上位性分析[D];华中农业大学;2010年
3 冯付春;水稻细胞质雄性不育系育性稳定性和柱头外露率遗传基础研究[D];华中农业大学;2010年
4 艾青;水稻耐高温遗传基础研究及基因表达谱分析[D];华中农业大学;2009年
5 李卓坤;小麦苗期性状QTL定位及株高杂种优势的遗传分析[D];山东农业大学;2010年
6 付希阳;小麦遗传图谱的加密和籽粒可溶性糖含量的QTL分析[D];山东农业大学;2010年
7 王翼;Gamma分布函数的研究[D];大连理工大学;2010年
8 冯静霞;大麦染色体1H-3H外源基因渗入系构建及其分析[D];甘肃农业大学;2010年
9 卢翔;小麦—冰草新种质穗部相关性状的QTL定位[D];甘肃农业大学;2010年
10 赵眉芳;基于ESRI MapObjects的GIS技术构建森林生态效益线性模型空间分析系统[D];华东师范大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 王晨阳,杜亚芳;DW分布的W特征函数和矩[J];天津理工学院学报;2004年04期
2 王桂林;方差分析中检验统计量的推证[J];河南科学;1988年04期
3 王晨阳;杜宾──瓦特森检验统计量DW的期望和方差[J];延安大学学报(自然科学版);1995年03期
4 朱宏;方差已知的正态样本多个异常值的检验[J];电子科技大学学报;1993年01期
5 吴素萍,许新忠;构造检验统计量的加权最优准则[J];宁夏农学院学报;1999年04期
6 庄常陵;;两条回归直线的比较[J];高等函授学报(自然科学版);2005年05期
7 刘岩;贾丽洁;;非参数统计中两样本比较方法研究[J];燕山大学学报;2006年05期
8 邱正卫;关于检验统计量的一个注记[J];扬州教育学院学报;2002年03期
9 王启应;;两样本秩次统计量的几乎处处界[J];应用概率统计;1989年01期
10 张航;几类PP型检验统计量的性质[J];应用数学学报;1989年01期
中国重要会议论文全文数据库 前10条
1 游波;陈磊;蔡志明;;Page Test算法在主动声纳检测中的应用[A];中国声学学会2006年全国声学学术会议论文集[C];2006年
2 邹丽娜;陈庆;黄鹤云;宫先仪;;不变性检验用于水下目标探测[A];2005年全国水声学学术会议论文集[C];2005年
3 刘勖;;临床试验设计与数据处理[A];第三届全国疑难病学术研讨会资料汇编[C];2005年
4 童春发;施季森;;林木半同胞子代测定遗传模型分析及软件“HalfsibSS 1.0”[A];第六届全国林木遗传育种大会论文集[C];2008年
5 侯紫燕;;极值分布参数检验的样本崩溃点[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
6 李政;何彬;;国有企业部门规模与地区经济增长关系的经验研究[A];社会主义经济理论研究集萃——纪念新中国建国60周年(2009)[C];2009年
7 杨之曙;张益勇;;市场开放和股票市场行为—B股市场实证研究[A];2004年中国管理科学学术会议论文集[C];2004年
8 林金官;韦博成;;离散型广义非线性纵向数据模型中偏离名义离差的检验及其功效模拟[A];中国现场统计研究会第12届学术年会论文集[C];2005年
9 唐焕文;潘丽丽;唐一源;;SPM的数学基础及其在脑功能成像研究中的应用[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
10 褚春兰;赵艳华;;“职中学生自卑心理的调查研究和团体辅导”课题研究报告[A];首届“健康杯”全国中小学心理健康教育研讨暨颁奖大会论文集[C];2002年
中国重要报纸全文数据库 前1条
1 顾奋宇 张明广 郭剑光;我国权证与正股收益率先行[N];金融时报;2009年
中国博士学位论文全文数据库 前10条
1 朱宏;异常观测数据处理及不确定大系统的鲁棒镇定[D];四川大学;2003年
2 夏志明;统计模型结构变化的序贯检测方法[D];西北大学;2009年
3 吴鑑洪;时间序列中回归模型的诊断检验[D];华东师范大学;2007年
4 杨继生;综列单位根和综列协整检验及其对我国的应用研究[D];华中科技大学;2007年
5 杨晓蓉;自回归时间序列的极限理论及其应用[D];浙江大学;2008年
6 张彩伢;两类统计推断问题[D];浙江大学;2008年
7 王占锋;删失回归模型中若干统计问题的研究[D];中国科学技术大学;2008年
8 刘雪燕;门限模型及其在我国宏观经济研究中的应用[D];南开大学;2009年
9 李美洲;门限及分数维协整分析及其在经济中的应用[D];暨南大学;2008年
10 荀鹏程;高维生物学数据分析中的几个统计问题[D];南京医科大学;2007年
中国硕士学位论文全文数据库 前10条
1 闫丽雅;关于有序离散选择模型检验的模拟分析[D];东北师范大学;2009年
2 李云飞;异常观测数据的统计检测方法研究[D];电子科技大学;2005年
3 彭超;拟合优度检验统计量的研究及在质量控制中的应用[D];燕山大学;2012年
4 包少堃;两总体协方差矩阵成比例的检验[D];东北师范大学;2011年
5 张蔚清;基于小样本复杂总体试验的抽样验收方法[D];华东师范大学;2007年
6 刘会清;扩散过程的一种新检验方法及其在股市、即期利率市场中的运用[D];厦门大学;2007年
7 樊国林;高维情况下双向分类的列联表有关独立性的检验统计量[D];东北师范大学;2008年
8 马艳梅;纵向数据模型中的几个假设检验问题[D];华东师范大学;2004年
9 彭荣;对连锁分析中的一个检验统计量和一个抽样方案的改进[D];华中师范大学;2002年
10 史志琳;我国上市公司股权分置改革前后的风险绩效评估[D];哈尔滨工业大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026