收藏本站
《湖南大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

单核苷酸多态性数据挖掘方法及其应用研究

李雄  
【摘要】:下一代测序技术及全基因组关联分析技术的目标是识别遗传变异、表观遗传修饰与人类复杂疾病之间关联模式,最终依据个体遗传信息开展个体化医疗。遗传疾病可分为单基因疾病及复杂疾病。单基因疾病符合孟德尔式遗传规律,单个基因上易感位点的改变导致基因功能改变从而导致疾病形成。相比之下,复杂疾病如癌症、糖尿病等是由基因上多个单核苷酸多态性(SNP)之间相互作用形成,其分子层次上的致病机理仍然是未知的。因为SNP具有数量多、分布广等特点,全基因组SNP数据已成为识别复杂疾病致病基因并解释其致病过程的重要生物标记。由于SNP之间存在连锁不平衡性,从而使得该数据中存在大量冗余。因此,基于全基因组SNP数据的复杂疾病分析通常包含两个主要过程,首先对少量样本作全基因组SNP基因分型,然后从所有SNP中选择具有代表性的特征SNP子集,以降低冗余及噪声信息,然后采集大量样本并在特征SNP位点上作基因分型,以开展关联分析识别致病基因。本文通过设计优化算法及数据挖掘技术开展复杂疾病SNP数据分析方法研究,主要包含以下四个内容:1)基于组合优化算法的信息SNP选择方法。针对信息SNP选择过程中候选子集构造及基因型重构两个阶段中存在时间复杂度高等挑战,本文利用智能优化算法及确定性算法分别设计两种信息SNP选择方法。第一种方法首先利用两位点连锁度量以及多位点连锁度量构造最大相关最小冗余(MCMR)目标函数,以同时保证信息最大化及冗余最小化,接着利用贪婪算法搜索最优解。MCMR是以连锁不平衡性为优化目标,因此选择结果可解释性强并且避免了学习模型反复重构。第二种方法出发点是设计最近均值分类算法(NMC)克服特征选择阶段样本反复重构问题,该方法直接以最近均值分类器的重构准确度为优化目标,利用蚁群算法遍历组合空间,以搜索最优信息SNP子集。虽然NMC一定程度上忽略了连锁不平衡性这一重要生物现象,但是它能兼容基因型数据以及单体型数据。实验结果表明这两种信息SNP选择策略分别适用于不同应用环境且具有一定优势。2)基于多次蚁群搜索框架(MACA)的标签SNP选择方法。与信息SNP选择的重构准确度不同,标签SNP是以单体型覆盖度为评价标准,标签SNP主要用于基于单体型的复杂疾病关联研究。本文设计一种多次蚁群算法的组合空间搜索策略,每次迭代中将位点组合为不同粒度的节点,然后分别利用蚁群算法构造最优解,其基本思想是粗粒度加速算法收敛,细粒度提高解质量。MACA利用位点组合的单体型覆盖度设计启发式因子,以提高每次蚁群算法的搜索性能。实验部分利用模拟数据集及真实数据集从不同样本数量和不同SNP数量上验证MACA在标签SNP数量及运行时间等指标上的优势。3)统一信息SNP及标签SNP的核SNP选择方法。信息SNP是从信息含量角度选择具有代表性的SNP,而标签SNP则是从单体型多样性角度选择代表性SNP,两者选择代表性SNP的角度差别大,因此在同一数据集上选择的SNP子集不尽相同,使得后续研究人员难以选择。提出一种基于层次聚类的核SNP选择方法KSHC,该方法首先利用相对熵减少概念构造聚类距离公式,然后利用层次聚类算法将相似SNP进行聚类并识别聚类中核SNP,接着设计Top k及后向删除特征选择策略分别选择核SNP以统一信息SNP及标签SNP。KSHC基本原理是以信息熵最小确保同一类簇中单体型种类最少,同时保证不同位点上等位基因频率分布差异最小,这两点分别对应标签SNP与信息SNP的特征。实验在多个数据集上利用覆盖度及重构准确度指标评价KSHC,实验结果表明核SNP能有效统一信息SNP及标签SNP。4)基于最大一致最大差异准则的致病基因识别方法(MCMD)。传统方法通常仅考察致病基因型在患病组和对照组的分布差异,而本文方法不仅保证致病基因型在患病组合对照组的频率差异最大即最大差异性,并且保证患病组的致病基因型具有稳定的模式即最大一致性。MCMD假设患病组由于患有同一种疾病,那么其理想情况下其致病模式应该完全一致即致病基因完全一样,但是由于存在异质性,因此可能存在几种致病基因型,尽管如此其致病模式具有稳定性即最大一致性。在此假设基础上,以最大一致性及最大差异性准则为易感基因型评价函数,然后利用贪婪法寻找乳腺癌的致病基因型,接着进一步利用蚁群算法在不同上位性基因组合中寻找多组高风险致病基因型以分析乳腺癌异质性。
【学位授予单位】:湖南大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP18

【参考文献】
中国期刊全文数据库 前1条
1 孙红霞,杜玮南,方福德;人类疾病基因定位常用的统计学分析方法[J];中国医学科学院学报;2001年01期
中国博士学位论文全文数据库 前2条
1 张鸣凤;全基因组通路分析策略应用于皮肤基底细胞癌易感性的关联研究[D];南京医科大学;2012年
2 沈红斌;数据挖掘的建模及在生物信息学中的应用研究[D];上海交通大学;2006年
中国硕士学位论文全文数据库 前2条
1 周春光;基于多检测融合的稀疏变异关联方法研究[D];湖南大学;2013年
2 曾金萍;基于智能算法的信息SNP选择方法研究[D];湖南大学;2012年
【共引文献】
中国博士学位论文全文数据库 前5条
1 王磊;基于机器学习的药物—靶标相互作用预测研究[D];中国矿业大学;2018年
2 李雄;单核苷酸多态性数据挖掘方法及其应用研究[D];湖南大学;2015年
3 黄超;若干蛋白质种类鉴别的多标记预测问题研究[D];上海交通大学;2014年
4 梁瑾;模糊粗糙单调数据挖掘算法及在污水处理中应用研究[D];华南理工大学;2011年
5 王彤;高维生物数据的分类与预测研究[D];上海交通大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 于春香;;数据挖掘技术简介[J];福建信息技术教育;2005年01期
2 邵兴江;;数据挖掘在教育信息化中的应用空间分析[J];浙江现代教育技术;2004年03期
3 刘策;刘喆;;数据挖掘技术在各个领域上应用的研讨[J];知识文库;2019年01期
4 周致丞;;大数据下一种规则的快速挖掘技术研究[J];河南科技;2018年25期
5 蔡萌萌;张巍巍;王泓霖;;大数据时代的数据挖掘综述[J];价值工程;2019年05期
6 张泽;吕新;侯彤瑜;;数据挖掘在农业信息化中的应用进展探析[J];信息记录材料;2019年01期
7 周洋;;数据挖掘在电力调度自动化系统中的应用解析[J];科技创新与应用;2017年35期
8 梁园;;浅析数据挖掘在审计中的应用[J];现代经济信息;2017年22期
9 冯丽慧;;云计算和挖掘服务融合下的大数据挖掘体系架构设计及应用[J];电脑编程技巧与维护;2017年24期
10 何宇雄;苑晋沛;聂宇;罗超;高小芊;寇霄宇;李蔚;;试论数据挖掘在电力调度自动化系统中的应用[J];科技创新与应用;2018年04期
中国重要会议论文全文数据库 前10条
1 马钰超;;浅析大数据和数据挖掘及其在烟草行业中的应用[A];中国烟草学会2015年度优秀论文汇编[C];2015年
2 唐杰;梅俏竹;;数据挖掘学科发展研究[A];2012-2013控制科学与工程学科发展报告[C];2014年
3 王时光;;大数据时代规划数据挖掘的创新思考[A];新常态:传承与变革——2015中国城市规划年会论文集(04城市规划新技术应用)[C];2015年
4 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
6 许珂;姜山;;数据挖掘方法在科技产出分布可视化研究中的运用[A];第二届中国科技哲学及交叉学科研究生论坛论文集(硕士卷)[C];2008年
7 雷宇;;论行业信息资源的数据挖掘[A];中国烟草行业信息化研讨会论文集[C];2004年
8 吴以凡;吴铁军;欧阳树生;;面向生产过程质量控制的动态数据挖掘方法[A];05'中国自动化产业高峰会议暨中国企业自动化和信息化建设论坛论文集[C];2005年
9 彭怡;;从数据挖掘文章聚类分析看其发展趋势[A];现代工业工程与管理研讨会会议论文集[C];2006年
10 张建锦;刘小霞;;密度偏差抽样及其在海量数据挖掘中的应用[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
中国重要报纸全文数据库 前10条
1 陆天歌 王兆亮;数据挖掘:帮你读懂未来战争[N];解放军报;2018年
2 本报记者 张佳星;把扎克伯格拉下水,大数据挖掘犯错了吗[N];科技日报;2018年
3 本报记者 张佳星;数据挖掘大战 机器怎么做到“见信如面”[N];科技日报;2018年
4 记者 张潇;打造数据挖掘领域的“响尾蛇模式”[N];西安日报;2018年
5 上海市浦东卫生发展研究院 孙雪松 王晓丽;数据挖掘在医学大数据研究中的应用[N];中国信息化周报;2018年
6 本报记者 叶曜坤;全国人大代表邓晓辉:推翻阻碍数据挖掘的“三座大山”[N];人民邮电;2017年
7 本报记者 牛福莲;贵州争夺“大数据挖掘”制高点[N];中国经济时报;2017年
8 中国联合商报记者 刘末;大数据挖掘 让金融业未来更加多彩[N];中国联合商报;2017年
9 南方日报记者 彭颖;日化巨头借力大数据挖掘线下市场[N];南方日报;2017年
10 舒圣祥;“像打击酒驾一样打击假货”,该出招了[N];检察日报;2017年
中国博士学位论文全文数据库 前10条
1 李雄;单核苷酸多态性数据挖掘方法及其应用研究[D];湖南大学;2015年
2 姜彦;正则化方法在数据挖掘中的应用与研究[D];湖南大学;2015年
3 马昱欣;结合可视化与数据挖掘的数据分析方法探究[D];浙江大学;2017年
4 王达;时间序列数据挖掘研究与应用[D];浙江大学;2004年
5 马昕;粗糙集理论在数据挖掘领域中的应用[D];浙江大学;2003年
6 王立宏;信息系统的约简与粒度分析及其在数据挖掘中的应用[D];上海大学;2004年
7 杨虎;序列数据挖掘的模型和算法研究[D];重庆大学;2003年
8 李秋丹;数据挖掘相关算法的研究与平台实现[D];大连理工大学;2004年
9 李力;数据挖掘方法研究及其在中药复方配伍分析中的应用[D];西南交通大学;2003年
10 胡黔楠;化学信息学中的数据挖掘[D];中南大学;2004年
中国硕士学位论文全文数据库 前10条
1 陈少鹏;基于网络流量数据挖掘的用户安全性问题研究[D];华中科技大学;2017年
2 蔡晓鹏;基于数据挖掘的电信客户流失预测研究与应用[D];湖南大学;2016年
3 曹伶丽;数据挖掘在人力资源市场中的应用研究[D];湖南大学;2016年
4 姜钧陶;道路通行影响因子遥感监测技术研究[D];东南大学;2018年
5 刘鹏飞;基于数据挖掘的针织产品质量控制研究[D];江南大学;2018年
6 孙维富;基于数据挖掘的高速公路交通事故分析及预防对策研究[D];吉林大学;2018年
7 蔡周玲;货物综合运输通道选择与优化[D];吉林大学;2018年
8 卢颖浩;数据挖掘在电网安全生产监督管理中的应用研究[D];华北电力大学;2018年
9 靳昊凡;基于数据挖掘的风电机组健康状态监测研究[D];华北电力大学;2018年
10 周方泽;基于数据挖掘的居民购电行为研究[D];北京交通大学;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026