收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

生物子序列频数分布与肿瘤亚型分类模型研究

王树林  
【摘要】: 生物信息的爆炸式增长吸引了大量科研人员加入到生物信息学研究领域,使得生物信息学很快成为全球关注与研究的焦点。我们主要研究了生物信息学中的两个基本问题:(1)关于k-长DNA子序列在基因组全序列中出现频数的分布问题;(2)关于基于基因表达谱的肿瘤分子诊断问题。对于这两个问题的研究,都取得了非常好的实验结果,具有理论和现实意义,有助于生物信息学的发展。针对问题一,分别从DNA序列的可视化表示、k-长DNA子序列出现频数分布及其计数算法三个方面展开研究。针对问题二,分别从肿瘤特征抽取和信息基因选择两个方面研究了肿瘤亚型分类模型。 DNA序列可视化表示对于研究其结构与功能具有至关重要的意义,它有助于重复子序列的识别、内含子与外显子的区分以及DNA序列进化等方面的研究。我们首先综述性研究了几种DNA序列的可视化表示方法,比较了生成DNA序列分形图像的Hao方法与经典的混沌游戏表示方法的异同点,讨论了禁止子序列中回文子序列情况,阐述了迭代函数系统产生分形吸引子的数学机理,详细介绍了根据Moore自动机与迭代函数系统定义的混沌自动机,并研究了以DNA序列驱动混沌自动机产生分形图像的方法,提出DNA序列三联密码子的分形图像表示方法,并对其进行了初步分析研究,提出进一步需要解决的问题。 我们在生成DNA序列分形图像的Hao方法的基础上进一步提出一种能够直观显示k-长DNA子序列频数分布差异性的三维频数分布图生成方法,其优点是能够更加直观地观察k-长DNA子序列频数分布。然后把三维频数分布图转化为我们提出的一维对数频谱图,突出显示了频数分布的局部特征,并以一维对数频谱图为依据提出k-长DNA子序列频数区划分准则,详细研究了甚高频数区的n阶零间隔现象,发现并论证了,n阶零间隔分布就是基因组进化过程所留痕迹的有力证据,并给出一维对数频谱图特征的生物学解释。实验发现许多DNA序列频数概率分布近似服从非中心F分布,这个新发现有一定的普适性;对于分布呈多峰现象的DNA序列,可采用多个非中心F分布的叠加来拟合。在比较了非中心F分布与Gamma分布后,提出一种结合二者在拟合方面具有互补优势的新分布,实验证明这种新分布能够更好地吻合实际DNA序列的频数分布。然后研究了两种最特异出现频数(最高出现频数与出现频数为1的k-长DNA子序列个数)与k值的关系,发现不同物种的这两种关系具有良好的一致性,比如发现k-长DNA子序列最高出现频数与k值的关系与指数概率分布函数只相差一个常数因子。最后探讨了DNA序列的进化模型。 因为现实世界中的基因组规模非常大,所以对k-长DNA子序列的出现频数进行计数并不是一件容易的事。我们提出并研究了k-长DNA子序列在DNA全序列中出现频数的计数问题,设计并实现了k-长DNA子序列内部计数算法和外部计数算法。该算法通过一个哈希函数把k-长DNA子序列映射为整数关键字从而把k-长DNA子序列出现频数的计数问题转化为整数关键字的重复计数问题,使得能够利用经典B树算法来解决频数计数问题,并针对待解问题的特点提出三种改进措施以进一步提高算法的性能。 基于基因表达谱的肿瘤亚型分类方法有望成为临床医学上一种快速有效的肿瘤分子诊断方法,但由于目前肿瘤基因表达谱样本集存在维数过高、样本量很小以及噪音很大等特点,使得选择肿瘤信息基因或从基因表达谱中抽取肿瘤分类特征成为一件有挑战性的工作。国内外专家学者对肿瘤分类问题已开展了广泛深入的研究。我们在总结肿瘤分类研究成果的基础上概括出基于基因表达谱的肿瘤分类过程模型,阐述了分类过程模型的关键环节及其常用方法,提出肿瘤分类过程模型的分类方法,并过程模型比较了前人的研究成果,指出目前肿瘤分类研究中存在的问题。 针对肿瘤特征抽取问题,设计了六种方法以获得肿瘤分类特征,分别是:1)主成份分析方法PCA,2)因子分析方法FA,3)独立分量分析方法ICA,4)小波包分解方法WPD,5)基于离散余弦变换(DCT)的PCA方法,6)基于离散Fourier变换(DFT)的PCA方法。实验采用两种肿瘤样本集(结肠癌和急性白血病样本集)验证了这六种方法的有效性。实验结果表明,所提出的方法不仅分类性能好而且各有其特点,都能在保持较高的分类准确率前提下大幅地降低基因表达谱数据维数。在分类性能方面,基于DCT变换的PCA方法是一个比较理想的数据降维方法,对于结肠癌组织样本,交叉验证识别准确率高达96.77%,而对于急性白血病组织样本,其准确率高达100%。因子分析方法和独立分量分析方法有助于分析样本集的结构特征,实验发现只需少量的因子或独立分量就可以获得很高的分类性能,由此推测,只需3~4个肿瘤信息基因就可以获得很高的分类性能的假设,为设计优秀的肿瘤信息基因选择算法提供了先验知识。 尽管采用肿瘤特征抽取方法获得了好的实验结果,但是肿瘤信息基因选择仍是必不可少的工作。从基因表达谱的成千上万个基因中选择尽可能多的、分类能力尽可能强而基因数量却尽可能少的信息基因子集是一个挑战性工作。在没有先验知识的情况下,在如此大的基因空间中进行穷尽搜索是不可能的事情。为此我们提出了两类近似算法来解决肿瘤信息基因的选择问题。一类是采用经典粗糙集模型和邻域粗糙集模型的属性约简算法进行信息基因选择的方法。由于采用经典粗糙集模型的属性约简算法需要对数据进行离散化处理而导致信息损失,致使选出的肿瘤信息基因分类性能不高。为避免这个问题,我们又以邻域粗糙集模型的属性约简算法FARNeM(forward attribute reduction based on neighborhood model)为基础,设计了十一种信息基因选择算法以解决肿瘤亚型分类问题。实验结果表明,该方法能够快速搜索到分类准确率更高的信息基因子集。为提高NEC(neighborhood classifier)分类器在样本不均衡时的分类性能,对NEC分类器进行改进提出了一种适合于样本不均衡数据集的加权邻域分类器;同时我们还把适合于多分类问题的特征选择算法Simba(iterative search margin based algorithm)引入到肿瘤分类领域中,以丰富肿瘤信息基因选择方法的多样性;为增加分类模型的可信度提出一种基于邻域粗糙集模型的概率神经网络集成方法对肿瘤样本集进行分类;为实用的肿瘤分子诊断软件研制奠定了基础。 另一类是根据获得的肿瘤基因表达谱样本集的结构特征提出的以支持向量机分类器为评估准则的肿瘤信息基因启发式宽度优先搜索算法,其优点是能够同时搜索到基因数量尽可能少而分类能力尽可能强的多个肿瘤信息基因子集。实验采用了三种肿瘤样本集验证了这种分类算法的可行性和有效性。对于急性白血病组织样本集,只需2个信息基因就能获得100%的4-折交叉验证分类准确率(共发现14个这样的两基因子集);而对于难以分类的结肠癌组织样本集,只需4个信息基因就可获得100%的4-折交叉验证分类准确率(共发现7个这样的四基因子集);对于小圆蓝细胞肿瘤(Small Round Blue Cells Tumor,SRBCT)数据集,同样只需4个信息基因就能获得100%的4-折交叉验证分类准确率(共发现504个这样的四基因子集);实验结果与我们的预测假设十分吻合。与国内外其它优秀的肿瘤分类算法相比,我们的实验结果在综合分类性能方面超过目前所有已知的分类算法。为更加客观地评价肿瘤分类模型的分类性能,我们提出一种能够消除肿瘤样本集的不同划分对分类性能造成影响的一种称之为全折交叉验证的方法,实验证明这是一种更加客观反映分类性能的评估方法;同时针对多肿瘤亚型样本集提出一种推断肿瘤亚型相关信息基因的方法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 周溜溜;业宁;徐昇;严敏利;;基于频繁子树挖掘的DNA重复序列识别方法[J];微电子学与计算机;2011年09期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 陈立萍;乔元华;;SVM方法在DNA序列识别中的应用[A];2003中国现场统计研究会第十一届学术年会论文集(下)[C];2003年
2 李天瑞;;DNA序列分析的理论基础及挖掘算法研究[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
3 孟少武;李德铢;梁汉兴;;论5.8S DNA序列的系统学价值[A];第六届全国系统与进化植物学青年学术研讨会论文摘要集[C];2000年
4 佘朝文;宋运淳;;植物着丝粒DNA序列的研究进展[A];中国的遗传学研究——中国遗传学会第七次代表大会暨学术讨论会论文摘要汇编[C];2003年
5 袁佳;王振营;何康来;白树熊;;赤眼蜂研究综述[A];植物保护科技创新与发展——中国植物保护学会2008年学术年会论文集[C];2008年
6 陈惟昌;王自强;;DNA序列的高维空间数字编码与运算法则[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
7 王海波;赵和;吴志明;柴建芳;马民强;张春义;;利用特殊的dNTP高效诱发碱基的定向变异及DNA序列的多样性[A];中国的遗传学研究——中国遗传学会第七次代表大会暨学术讨论会论文摘要汇编[C];2003年
8 郭亚龙;葛颂;;利用叶绿体、线粒体和核基因组的DNA序列探讨稻族的系统发育关系[A];中国植物学会七十周年年会论文摘要汇编(1933—2003)[C];2003年
9 王昆;孙东晓;张沅;;浙江温岭高峰牛MHC-DRB_3基因序列分析[A];第十次全国畜禽遗传标记研讨会论文集[C];2006年
10 杨霞;张红英;夏平安;王川庆;;鸡源鲍氏志贺菌16S rRNA基因序列测定及同源性比较[A];中华预防医学会微生态学第二届特种医学暨河南省、山东省预防医学会微生态学学术研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 王树林;生物子序列频数分布与肿瘤亚型分类模型研究[D];国防科学技术大学;2007年
2 袁春欣;核酸序列的图形表示理论及应用[D];大连理工大学;2007年
3 杨秀霞;南极细菌Moritella sp.低温脂肪酶基因的克隆与表达[D];中国海洋大学;2004年
4 贺平安;DNA序列及蛋白质序列的分析与比较[D];大连理工大学;2003年
5 张茜;祁连圆柏的分子谱系地理学研究[D];兰州大学;2008年
6 姚玉华;生物序列相似性分析的图形表示及其不变量方法[D];大连理工大学;2006年
7 白凤兰;生物序列的图形表示及其应用[D];大连理工大学;2006年
8 翁洋;基于Dempster-Shafer证据理论组合基因预测[D];四川大学;2006年
9 高洁;基于时间序列理论方法的生物序列特征分析[D];江南大学;2009年
10 陆枫;真核生物基因组结构自动注释系统研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 胡波;DNA序列的可专利性研究[D];西南政法大学;2003年
2 于成龙;DNA序列的图形表示及其相似性分析[D];浙江大学;2006年
3 董丽娟;研究人类DNA序列的碱基分布[D];河北工业大学;2003年
4 汪挺松;曲率在生物序列相似性分析中的应用[D];大连理工大学;2007年
5 邢玉芳;甘肃省昆虫病原线虫分子生物学鉴定[D];甘肃农业大学;2009年
6 李梅;基于DTW距离的生物序列相似性分析[D];大连交通大学;2010年
7 段敏;生物DNA序列比对算法研究[D];暨南大学;2005年
8 蔡佩玲;人乳铁蛋白(hLF)cDNA的克隆及生物信息学分析[D];四川大学;2005年
9 康厚扬;华山新麦草与普通小麦属间杂种的产生及其形态学和细胞遗传学研究[D];四川农业大学;2006年
10 孙红卫;关于基因预测算法准确性度量标准的分析[D];四川大学;2006年
中国重要报纸全文数据库 前10条
1 何瑶;美发现致病“热点”DNA序列[N];医药经济报;2002年
2 史颖 张学全;人与黑猩猩DNA序列差异为1.44%[N];医药经济报;2004年
3 游雪晴;我国首家DNA序列公共数据库开通[N];中国环境报;2000年
4 ;国际HGP与我国的“1%项目”[N];科技日报;2000年
5 ;生命大解密[N];中国消费者报;2001年
6 游雪晴 实习生 刘晓倩;寻找埋在“垃圾”中的财富[N];科技日报;2005年
7 周游;生物计算机:“试管”里的奇迹[N];计算机世界;2004年
8 新华社记者 李斌;讲平等首先要讲基因平等[N];新华每日电讯;2003年
9 内蒙古大学物理系教授 罗辽复;解读生命的密码[N];内蒙古日报(汉);2001年
10 武卫政 施芳;如何突破基因治疗瓶颈?[N];中国高新技术产业导报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978