收藏本站
《哈尔滨工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

单核苷酸多态性分析算法的研究与应用

王峻  
【摘要】: 单核苷酸多态性(SNPs,Single Nucleotide Polymorphisms)研究是目前生物信息学领域中的重要课题之一。2000年人类全基因组草图的完成和2003年人类全基因组序列测定的彻底完成,极大地促进了生命科学家对于人类个体基因组序列中包含遗传信息的研究以及与人类各种个体表现特征相关基因组序列片段识别的研究。越来越多的生物信息学研究人员致力于从已有的遗传序列数据中挖掘包含遗传差异信息的遗传标记位点,分析各位点间遗传联系与差异并将其应用于疾病关联性研究中。SNP位点作为重要的遗传标记之一,其相关分析方法及其应用更受到了广泛关注。由于SNP位点数目巨大,使用现有计算方法进行分析通常面临着效率较低,花费较大等缺憾。因此,本文从SNP位点的固有特性出发,结合机器学习方法与图论知识,对单核苷酸多态性研究中的若干关键问题进行深入的研究。 本文的主要内容包括: (1)提出基于参数过滤和集成学习的EST序列集SNP位点挖掘方法。 通过生物手段获取和验证SNP位点花费巨大,而目前已有的挖掘算法通常面临着假阳性高及不能应用于非同类数据等问题。本文结合SNP位点固有特性构造过滤器,对表达序列标签(expressed sequence tag,EST)数据中SNP候选位点进行筛选,并针对SNP位点挖掘中训练集中正反例不平衡的问题,首先定义并筛选了一组有效特征,再结合集成学习和AdaBoost思想,通过切分重构正反例平衡的训练集,使用多分类器训练并采取合理的投票机制从过滤后的SNP候选集中挖掘SNP位点。与现有挖掘方法相比,本文算法特异性和敏感性均超过80%,获取的SNP位点正确率更高,能够极大地降低伪SNP位点的获取概率,有效降低了假阳性,实验结果表明本算法同样适用于缺少基因组数据的物种的SNP挖掘,有助于降低生物实验花费。 (2)提出基于图模型和聚类算法的标签SNP位点挖掘方法。 直接使用从EST序列集中挖掘出的的海量SNP位点进行相关研究需要花费大量的时间和金钱,因此出现了大量提取具有代表性的标签SNP位点的计算方法。针对现有方法信息缺失,限制条件较多等问题,本文首次提出了使用SNP位点图来描述各SNP位点间连锁不均衡性和遗传差异性,并结合信息论方法,通过基于最大密度子图和信息熵的图算法获取标签SNP位点。基于这种图算法,本文分别针对单体型序列和基因型序列数据提出标签SNP位点获取算法。此外,本文引入K近邻思想进行数据预处理,能够有效降低处理海量数据时图算法的复杂度。实验验证本文算法能够降低获取过程中的遗传信息缺失,提高了标签SNP位点获取精确度。 (3)结合本文中挖掘SNP位点、获取标签SNP位点取得的结果,提出了基于信息论和层次聚类算法的人群结构推断方法。 人群结构推断是单核苷酸多态性分析中的重要问题之一。本文首次将标签SNP位点作为人群结构推断中的重要特征,通过基于图的特征选择算法,减小基因型序列数据维数,降低噪声和无效SNP位点对推断精度的影响。通过构造基因型序列转换函数将序列遗传距离与序列间转化信息熵相结合,提出了一种新型的基于层次聚类的人群结构推断算法。将本文方法分别应用于模拟数据和人类真实数据上均取得了较好的效果。此外,将特征选择算法获取的标签SNP位点应用于现有的人群结构推断算法上也取得了很好的效果,在降低了已有算法推断时间的同时更提高了其推断精度。 (4)结合本文前阶段单核苷酸多态性各类分析算法的成果,提出了基于人类线粒体SNP(mtSNPs)的疾病人群分类方法。 单核苷酸多态性分析的最终目的是为了进行疾病关联性研究。疾病人群分类作为疾病关联性研究的重要问题之一受到了越来越多的关注。相比于目前的分类方法,本文将线粒体DNA序列作为研究对象,使用了基于关键字树的序列比对算法对线粒体DNA序列进行有效对齐。结合SNP特征分析结果,从比对后线粒体DNA序列中获取SNP位点。在此基础上,结合人群结构推断算法,对线粒体SNP位点集内疾病不相关SNP位点进行筛除,并提出了基于统计显著性的疾病关联线粒体SNP定位算法。最后,将获取的疾病关联线粒体SNP作为特征应用于有效的分类方法中进行疾病人群分类。在真实疾病人群数据上的实验结果证明了本文方法的有效性。此外,显著性SNP及其获取算法也可以用于其它疾病分类及关联性问题研究中。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:Q75

手机知网App
【引证文献】
中国博士学位论文全文数据库 前1条
1 尚军亮;全基因组单核苷酸多态性交互作用研究[D];西安电子科技大学;2013年
【参考文献】
中国期刊全文数据库 前3条
1 李鹏;王晓龙;刘远超;王宝勋;;一种基于混合策略的失衡数据集分类方法[J];电子学报;2007年11期
2 董文甫;李艳红;张春香;任有蛇;岳文斌;;单核苷酸多态(SNP)相关技术研究及其应用[J];现代畜牧兽医;2006年08期
3 李婧,潘玉春,李亦学,石铁流;人类基因组单核苷酸多态性和单体型的分析及应用[J];遗传学报;2005年08期
中国博士学位论文全文数据库 前2条
1 张强锋;单体分型和单体型频率估计[D];中国科学技术大学;2006年
2 蒋良孝;朴素贝叶斯分类器及其改进算法研究[D];中国地质大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 王朝霞;生物信息学:一门前沿交叉学科[J];安徽教育学院学报;2002年06期
2 漆燕;李双铃;袁美;王辉;任艳;石延茂;崔富华;李加纳;禹山林;;花生RGA-SSCP实验条件的优化[J];山东农业科学;2010年06期
3 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
4 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
5 程钢;;生物信息学课程教学改革和实践[J];安徽农学通报(上半月刊);2011年13期
6 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
7 王晓波;解天然;潘陈陈;华宿南;;大豆质膜内在水孔蛋白的生物学功能预测[J];安徽农业科学;2010年34期
8 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
9 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
10 王斌;;基于聚类的决策树在玉米种质筛选中的应用[J];安徽农业科学;2011年33期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
3 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 栾德琴;常国斌;陈国宏;;隐性白鸡不同时期肌肉组织生长相关基因的表达谱分析[A];安全优质的家禽生产——第十五次全国家禽学术讨论会论文集[C];2011年
5 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
6 崔光照;曹祥红;张华;;基于小波变换的基因表达数据去噪聚类分析[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
7 刘海霞;钟晓妮;周燕荣;田考聪;;决策树在居民就诊卫生服务利用影响因素研究中的应用[A];重庆市预防医学会2010年论文集[C];2011年
8 汪云亮;吕久明;刘孝刚;;基于信息熵的辐射源属性分类方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
9 叶中行;陆青;余敏杰;;计算智能在银行信贷信用分类中的应用[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
10 徐怡;余斌;李龙澍;;粗糙集在决策树生成中的应用[A];2005中国控制与决策学术年会论文集(下)[C];2005年
中国博士学位论文全文数据库 前10条
1 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
2 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
3 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
4 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
5 陈进;高光谱图像分类方法研究[D];国防科学技术大学;2010年
6 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
7 李军;不平衡数据学习的研究[D];吉林大学;2011年
8 魏小涛;在线自适应网络异常检测系统模型与相关算法研究[D];北京交通大学;2009年
9 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年
10 杨明;分布式环境下的安全策略关键技术研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 陈卫卫;耐高温水稻资源高温诱导表达蛋白鉴定与分析[D];华中农业大学;2010年
2 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
3 张艳萍;蛋白质序列的数学描述及其应用[D];浙江理工大学;2010年
4 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
5 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
6 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
7 秦园;基于SPOT5的土地信息提取技术研究[D];大连理工大学;2010年
8 李仁良;决策树算法在临床诊断中的应用研究[D];辽宁工程技术大学;2009年
9 郑陶;基于平面向量的决策树算法在高考志愿选择系统中的应用[D];辽宁工程技术大学;2010年
10 孙怡哲;一种改进的决策树算法研究与应用[D];辽宁工程技术大学;2010年
【同被引文献】
中国期刊全文数据库 前9条
1 Kathy L. MOSER,Eric J. TOPOL;An ensemble method for gene discovery based on DNA microarray data[J];Science in China(Series C:Life Sciences);2004年05期
2 ;Identification of a combination of SNPs associated with Graves' disease using swarm intelligence[J];Science China(Life Sciences);2011年02期
3 吴红霞;吴悦;刘宗田;雷州;;基于Relief和SVM-RFE的组合式SNP特征选择[J];计算机应用研究;2012年06期
4 谢民主;杨洋;;复杂疾病模型快速参数求解算法[J];计算机工程与应用;2012年07期
5 韩建文;张学军;;全基因组关联研究现状[J];遗传;2011年01期
6 权晟;张学军;;全基因组关联研究的深度分析策略[J];遗传;2011年02期
7 沈佳薇;胡晓菡;师咏勇;;全基因组基因-基因相互作用研究现状[J];遗传;2011年08期
8 李放歌;王志鹏;户国;李辉;;全基因组关联研究中的交互作用研究现状[J];遗传;2011年09期
9 Kathy L.MOSER,Robert C.ELSTON,Jane M.OLSON;Genetic mapping of complex discrete human diseases by discriminant analysis[J];Progress in Natural Science;2002年06期
中国博士学位论文全文数据库 前4条
1 蒋胜利;高维数据的特征选择与特征提取研究[D];西安电子科技大学;2011年
2 袁细国;基因组变异仿真与基因组模式鉴定[D];西安电子科技大学;2011年
3 彭柳青;高维高噪声数据聚类中关键问题研究[D];西安电子科技大学;2011年
4 张焕萍;面向基因表达数据的致病基因挖掘方法研究[D];南京航空航天大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 陈雪,戴芹,马建文,李小文;贝叶斯网络分类算法在遥感数据变化检测上的应用[J];北京师范大学学报(自然科学版);2005年01期
2 周颜军,王双成,王辉;基于贝叶斯网络的分类器研究[J];东北师大学报(自然科学版);2003年02期
3 张文宾,林景晔,刘概琴,韦学锐;对应分析油气水层识别方法及应用[J];大庆石油地质与开发;2002年06期
4 冯亚丽,伊三泉,冯卓利,于志刚,许少华;ISODATA在油水层综合判别中的应用[J];大庆石油地质与开发;2005年05期
5 夏克文;李昌彪;刘宏杰;沈钧毅;;用于油水层识别的一种简化的神经计算方法[J];大庆石油地质与开发;2006年03期
6 陈遵德;基于Rough Set理论的油层识别方法[J];地球物理学进展;1998年04期
7 刘涵;郭勇;郑岗;刘丁;;基于最小二乘支持向量机的图像边缘检测研究[J];电子学报;2006年07期
8 方景龙;陈铄;潘志庚;梁荣华;;复杂分类问题支持向量机的简化[J];电子学报;2007年05期
9 王志海,张璠;一种基于粗糙集合理论的树扩张型贝叶斯网络分类器[J];复旦学报(自然科学版);2004年05期
10 汉雨生;单核苷酸多态性分析技术及其在肿瘤研究中的应用[J];国外医学(肿瘤学分册);2003年03期
【相似文献】
中国期刊全文数据库 前10条
1 付松林,李新,杨留记;规范LR(K)分析算法的优化[J];西北大学学报(自然科学版);1985年01期
2 周玉清;刘伯莹;;LR(K)文法的改进的BMP分析算法[J];数学季刊;1987年02期
3 乔永生;;数据挖掘的探讨[J];科技情报开发与经济;2006年10期
4 李献礼,洗志妙,丘水生,陈艳锋;基于等效小参量法原理的高准确度计算机符号分析算法[J];电路与系统学报;2005年01期
5 陈文德;非线性移位寄存器的一个分析算法[J];数学的实践与认识;1988年01期
6 成安生;高毓乾;;关于潮汐不连续资料的分析算法[J];海洋与湖沼;1983年06期
7 曾江源;;ISODATA算法的原理与实现[J];科技广场;2009年07期
8 张东梅,尚春民;结构强度可靠性的随机有限元分析算法[J];长春理工大学学报;2004年03期
9 张德敷;;线性系统稳定性分析和双线性变换的两个算法[J];武汉理工大学学报;1984年04期
10 周玉清,马桂玲,刘伯莹;LR(k)文法的BMP分析算法和正规分析算法的等价性[J];山西大学学报(自然科学版);1991年04期
中国重要会议论文全文数据库 前10条
1 杜克平;Zhongping Lee;贺明霞;刘智深;李小文;;Raman散射及CDOM荧光的多波段准分析算法的影响[A];第十四届全国遥感技术学术交流会论文摘要集[C];2003年
2 刘强国;左志宏;董祥千;;基于WEB超链接分析算法的研究综述[A];四川省通信学会2006年学术年会论文集(二)[C];2006年
3 吴璟瑜;商少凌;洪华生;曾银东;;珠江口与南海东北部海域CDOM的吸收及其对叶绿素遥感反演精度的影响探讨[A];第十四届全国遥感技术学术交流会论文摘要集[C];2003年
4 卢俊之;陈小荷;曲维光;王东波;陈锋;丁德鑫;;基于语法功能匹配的汉语句法分析算法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 张冠元;林健;;一种针对餐馆评论的文本倾向性分析算法[A];第五届全国信息检索学术会议论文集[C];2009年
6 杨鹤;;一种送奶方式配送的路径分析算法[A];第九届中国青年信息与管理学者大会论文集[C];2007年
7 苏育挺;王莉莉;张春田;;一种新型视频信息隐藏分析算法[A];第七届全国信息隐藏暨多媒体信息安全学术大会论文集[C];2007年
8 白博;王永刚;;局部结构熵相干算法研究与应用[A];中国地球物理学会第二十四届年会论文集[C];2008年
9 令狐大智;李陶深;;一种面向混合数据的自反馈模糊聚类分析算法[A];广西计算机学会2007年年会论文集[C];2007年
10 陈丹;王育民;;一种针对加性空域掩密算法的通用掩密分析技术[A];第七届全国信息隐藏暨多媒体信息安全学术大会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 长江期货 韩锦 邹云峰 高华;基于RFM模型的聚类分析算法在期货公司客户分类中的应用[N];期货日报;2008年
2 吴凡;IPS需要高可靠性和体系支撑[N];计算机世界;2007年
3 力东;防毒、IDS联动起来[N];中国计算机报;2003年
4 李瀛寰;H3C SecCenter安管中心[N];中国计算机报;2007年
5 于露;微软笑称雅虎不再值钱 加大投入死拼谷歌[N];电子资讯时报;2008年
6 隋晓琳;创业向“钱”看[N];中国高新技术产业导报;2005年
7 周环;心脏除颤 复苏先行[N];健康报;2007年
8 赛迪顾问信息化咨询中心 贾宁;初级BI如何登堂入室[N];中国计算机报;2005年
9 张戈;H3C SecCenter安全管理中心智能高效[N];电脑商报;2007年
10 本报记者  李智鹏;宽带需要“交通协管”[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 窦强;分布式强实时系统中可调度性分析算法的研究[D];国防科学技术大学;2001年
2 张玉贵;烟气轮机叶片振动的非接触式在线监测关键技术研究[D];天津大学;2008年
3 王云飞;东海赤潮监测卫星遥感方法研究[D];中国海洋大学;2009年
4 唐东明;聚类分析及其应用研究[D];电子科技大学;2010年
5 陈丹;图像掩密安全性模型和通用掩密分析技术研究[D];西安电子科技大学;2006年
6 杨家轩;独立分量分析算法及其在多用户检测中的应用[D];大连海事大学;2008年
7 王小敏;独立分量分析及其在遥感动态监测中的应用研究[D];南京理工大学;2008年
8 安高云;复杂条件人脸识别中若干关键问题的研究[D];北京交通大学;2009年
9 赵峰;序列分析算法及其在入侵容忍中的应用研究[D];华中科技大学;2006年
10 叶娅兰;独立分量分析算法及其在生物医学中的应用研究[D];电子科技大学;2008年
中国硕士学位论文全文数据库 前10条
1 段鹏飞;基于网络对象模型的网络分析算法及应用[D];武汉理工大学;2011年
2 吴蓉晖;基于分解定量的网络K终端可靠性分析算法研究[D];湖南大学;2001年
3 李彩霞;空域自适应EA隐密算法及分析算法的研究[D];大连理工大学;2013年
4 杜强;基于改进聚类分析算法的IDS模型构建[D];山西大学;2011年
5 薛晓芸;面向大规模图数据的挖掘分析算法研究[D];西安电子科技大学;2014年
6 王群;电力系统谐波分析算法研究[D];东北大学;2009年
7 严德春;基因微阵列数据的分析算法[D];苏州大学;2012年
8 李湘吉;GIS数据空间理论与空间分析算法的研究和应用[D];东北大学;2005年
9 张凤军;中通博发客车线束测试系统的设计[D];山东大学;2006年
10 蔡苗;SNP数据仿真及关联分析算法的比较[D];西安电子科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026