收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

单核苷酸多态性分析算法的研究与应用

王峻  
【摘要】: 单核苷酸多态性(SNPs,Single Nucleotide Polymorphisms)研究是目前生物信息学领域中的重要课题之一。2000年人类全基因组草图的完成和2003年人类全基因组序列测定的彻底完成,极大地促进了生命科学家对于人类个体基因组序列中包含遗传信息的研究以及与人类各种个体表现特征相关基因组序列片段识别的研究。越来越多的生物信息学研究人员致力于从已有的遗传序列数据中挖掘包含遗传差异信息的遗传标记位点,分析各位点间遗传联系与差异并将其应用于疾病关联性研究中。SNP位点作为重要的遗传标记之一,其相关分析方法及其应用更受到了广泛关注。由于SNP位点数目巨大,使用现有计算方法进行分析通常面临着效率较低,花费较大等缺憾。因此,本文从SNP位点的固有特性出发,结合机器学习方法与图论知识,对单核苷酸多态性研究中的若干关键问题进行深入的研究。 本文的主要内容包括: (1)提出基于参数过滤和集成学习的EST序列集SNP位点挖掘方法。 通过生物手段获取和验证SNP位点花费巨大,而目前已有的挖掘算法通常面临着假阳性高及不能应用于非同类数据等问题。本文结合SNP位点固有特性构造过滤器,对表达序列标签(expressed sequence tag,EST)数据中SNP候选位点进行筛选,并针对SNP位点挖掘中训练集中正反例不平衡的问题,首先定义并筛选了一组有效特征,再结合集成学习和AdaBoost思想,通过切分重构正反例平衡的训练集,使用多分类器训练并采取合理的投票机制从过滤后的SNP候选集中挖掘SNP位点。与现有挖掘方法相比,本文算法特异性和敏感性均超过80%,获取的SNP位点正确率更高,能够极大地降低伪SNP位点的获取概率,有效降低了假阳性,实验结果表明本算法同样适用于缺少基因组数据的物种的SNP挖掘,有助于降低生物实验花费。 (2)提出基于图模型和聚类算法的标签SNP位点挖掘方法。 直接使用从EST序列集中挖掘出的的海量SNP位点进行相关研究需要花费大量的时间和金钱,因此出现了大量提取具有代表性的标签SNP位点的计算方法。针对现有方法信息缺失,限制条件较多等问题,本文首次提出了使用SNP位点图来描述各SNP位点间连锁不均衡性和遗传差异性,并结合信息论方法,通过基于最大密度子图和信息熵的图算法获取标签SNP位点。基于这种图算法,本文分别针对单体型序列和基因型序列数据提出标签SNP位点获取算法。此外,本文引入K近邻思想进行数据预处理,能够有效降低处理海量数据时图算法的复杂度。实验验证本文算法能够降低获取过程中的遗传信息缺失,提高了标签SNP位点获取精确度。 (3)结合本文中挖掘SNP位点、获取标签SNP位点取得的结果,提出了基于信息论和层次聚类算法的人群结构推断方法。 人群结构推断是单核苷酸多态性分析中的重要问题之一。本文首次将标签SNP位点作为人群结构推断中的重要特征,通过基于图的特征选择算法,减小基因型序列数据维数,降低噪声和无效SNP位点对推断精度的影响。通过构造基因型序列转换函数将序列遗传距离与序列间转化信息熵相结合,提出了一种新型的基于层次聚类的人群结构推断算法。将本文方法分别应用于模拟数据和人类真实数据上均取得了较好的效果。此外,将特征选择算法获取的标签SNP位点应用于现有的人群结构推断算法上也取得了很好的效果,在降低了已有算法推断时间的同时更提高了其推断精度。 (4)结合本文前阶段单核苷酸多态性各类分析算法的成果,提出了基于人类线粒体SNP(mtSNPs)的疾病人群分类方法。 单核苷酸多态性分析的最终目的是为了进行疾病关联性研究。疾病人群分类作为疾病关联性研究的重要问题之一受到了越来越多的关注。相比于目前的分类方法,本文将线粒体DNA序列作为研究对象,使用了基于关键字树的序列比对算法对线粒体DNA序列进行有效对齐。结合SNP特征分析结果,从比对后线粒体DNA序列中获取SNP位点。在此基础上,结合人群结构推断算法,对线粒体SNP位点集内疾病不相关SNP位点进行筛除,并提出了基于统计显著性的疾病关联线粒体SNP定位算法。最后,将获取的疾病关联线粒体SNP作为特征应用于有效的分类方法中进行疾病人群分类。在真实疾病人群数据上的实验结果证明了本文方法的有效性。此外,显著性SNP及其获取算法也可以用于其它疾病分类及关联性问题研究中。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 付松林,李新,杨留记;规范LR(K)分析算法的优化[J];西北大学学报(自然科学版);1985年01期
2 周玉清;刘伯莹;;LR(K)文法的改进的BMP分析算法[J];数学季刊;1987年02期
3 乔永生;;数据挖掘的探讨[J];科技情报开发与经济;2006年10期
4 李献礼,洗志妙,丘水生,陈艳锋;基于等效小参量法原理的高准确度计算机符号分析算法[J];电路与系统学报;2005年01期
5 陈文德;非线性移位寄存器的一个分析算法[J];数学的实践与认识;1988年01期
6 成安生;高毓乾;;关于潮汐不连续资料的分析算法[J];海洋与湖沼;1983年06期
7 曾江源;;ISODATA算法的原理与实现[J];科技广场;2009年07期
8 张东梅,尚春民;结构强度可靠性的随机有限元分析算法[J];长春理工大学学报;2004年03期
9 张德敷;;线性系统稳定性分析和双线性变换的两个算法[J];武汉理工大学学报;1984年04期
10 周玉清,马桂玲,刘伯莹;LR(k)文法的BMP分析算法和正规分析算法的等价性[J];山西大学学报(自然科学版);1991年04期
11 蒋国银,何跃;基于高级对象Petri网的工作流过程建模研究[J];系统工程理论与实践;2005年03期
12 仲婷;金浩;冯茜芦;潘金贵;;一种基于结构分析的改进HITS算法[J];广西师范大学学报(自然科学版);2007年02期
13 潘培琛;一般上下文无关文法的一个分析算法[J];北京大学学报(自然科学版);1989年05期
14 ;学术不端行为举报[J];科技导报;2010年14期
15 谢晓华;;一种适合测绘行业的因素分析算法及其应用[J];东华理工学院学报(自然科学版);1993年03期
16 庞晶,乔洪宾;神经网络BP算法与回归分析算法进行统计预测的比较研究[J];内蒙古工业大学学报(社会科学版);1998年01期
17 张红哲,侯文彬;一种轴对称结构强度可靠性分析算法[J];长春理工大学学报;2004年02期
18 孔繁敏,郭毅峰,李康,刘新;MRTD算法在集成平面光波导组件分析中的应用[J];光子学报;2004年09期
19 朱述龙;齐建成;朱宝山;曹闻;;以凸面单体边界为搜索空间的端元快速提取算法[J];遥感学报;2010年03期
20 李英,李武,王浣尘;聚类分析算法在交通控制中的应用[J];系统工程;2004年02期
中国重要会议论文全文数据库 前10条
1 杜克平;Zhongping Lee;贺明霞;刘智深;李小文;;Raman散射及CDOM荧光的多波段准分析算法的影响[A];第十四届全国遥感技术学术交流会论文摘要集[C];2003年
2 刘强国;左志宏;董祥千;;基于WEB超链接分析算法的研究综述[A];四川省通信学会2006年学术年会论文集(二)[C];2006年
3 吴璟瑜;商少凌;洪华生;曾银东;;珠江口与南海东北部海域CDOM的吸收及其对叶绿素遥感反演精度的影响探讨[A];第十四届全国遥感技术学术交流会论文摘要集[C];2003年
4 卢俊之;陈小荷;曲维光;王东波;陈锋;丁德鑫;;基于语法功能匹配的汉语句法分析算法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 张冠元;林健;;一种针对餐馆评论的文本倾向性分析算法[A];第五届全国信息检索学术会议论文集[C];2009年
6 杨鹤;;一种送奶方式配送的路径分析算法[A];第九届中国青年信息与管理学者大会论文集[C];2007年
7 苏育挺;王莉莉;张春田;;一种新型视频信息隐藏分析算法[A];第七届全国信息隐藏暨多媒体信息安全学术大会论文集[C];2007年
8 白博;王永刚;;局部结构熵相干算法研究与应用[A];中国地球物理学会第二十四届年会论文集[C];2008年
9 令狐大智;李陶深;;一种面向混合数据的自反馈模糊聚类分析算法[A];广西计算机学会2007年年会论文集[C];2007年
10 陈丹;王育民;;一种针对加性空域掩密算法的通用掩密分析技术[A];第七届全国信息隐藏暨多媒体信息安全学术大会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 窦强;分布式强实时系统中可调度性分析算法的研究[D];国防科学技术大学;2001年
2 张玉贵;烟气轮机叶片振动的非接触式在线监测关键技术研究[D];天津大学;2008年
3 王云飞;东海赤潮监测卫星遥感方法研究[D];中国海洋大学;2009年
4 唐东明;聚类分析及其应用研究[D];电子科技大学;2010年
5 陈丹;图像掩密安全性模型和通用掩密分析技术研究[D];西安电子科技大学;2006年
6 杨家轩;独立分量分析算法及其在多用户检测中的应用[D];大连海事大学;2008年
7 王小敏;独立分量分析及其在遥感动态监测中的应用研究[D];南京理工大学;2008年
8 安高云;复杂条件人脸识别中若干关键问题的研究[D];北京交通大学;2009年
9 赵峰;序列分析算法及其在入侵容忍中的应用研究[D];华中科技大学;2006年
10 叶娅兰;独立分量分析算法及其在生物医学中的应用研究[D];电子科技大学;2008年
中国硕士学位论文全文数据库 前10条
1 段鹏飞;基于网络对象模型的网络分析算法及应用[D];武汉理工大学;2011年
2 吴蓉晖;基于分解定量的网络K终端可靠性分析算法研究[D];湖南大学;2001年
3 李彩霞;空域自适应EA隐密算法及分析算法的研究[D];大连理工大学;2013年
4 杜强;基于改进聚类分析算法的IDS模型构建[D];山西大学;2011年
5 薛晓芸;面向大规模图数据的挖掘分析算法研究[D];西安电子科技大学;2014年
6 王群;电力系统谐波分析算法研究[D];东北大学;2009年
7 严德春;基因微阵列数据的分析算法[D];苏州大学;2012年
8 李湘吉;GIS数据空间理论与空间分析算法的研究和应用[D];东北大学;2005年
9 张凤军;中通博发客车线束测试系统的设计[D];山东大学;2006年
10 蔡苗;SNP数据仿真及关联分析算法的比较[D];西安电子科技大学;2011年
中国重要报纸全文数据库 前10条
1 长江期货 韩锦 邹云峰 高华;基于RFM模型的聚类分析算法在期货公司客户分类中的应用[N];期货日报;2008年
2 吴凡;IPS需要高可靠性和体系支撑[N];计算机世界;2007年
3 力东;防毒、IDS联动起来[N];中国计算机报;2003年
4 李瀛寰;H3C SecCenter安管中心[N];中国计算机报;2007年
5 于露;微软笑称雅虎不再值钱 加大投入死拼谷歌[N];电子资讯时报;2008年
6 隋晓琳;创业向“钱”看[N];中国高新技术产业导报;2005年
7 周环;心脏除颤 复苏先行[N];健康报;2007年
8 赛迪顾问信息化咨询中心 贾宁;初级BI如何登堂入室[N];中国计算机报;2005年
9 张戈;H3C SecCenter安全管理中心智能高效[N];电脑商报;2007年
10 本报记者  李智鹏;宽带需要“交通协管”[N];计算机世界;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978