收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

用于预测剪切位点的一种改进字符串核函数研究

王天祺  
【摘要】:随着基因测序技术的进步,基因组序列的信息量呈现爆炸增长的趋势。人们迫切需要对这些信息进行分析处理的工具,而要对基因序列进行分析首先需要识别出DNA编码区也就是最终表达为蛋白质的DNA片段,这一步骤称为基因识别或基因预测。基因预测的难点是真核生物的基因识别算法,与原核生物相比,真核生物的一个主要不同是只有外显子部分才会最终编码成蛋白质。外显子与内含子的边界称为剪切位点,因此剪切位点的预测成为了基因识别的一个关键问题。这一问题可以转换成碱基序列文本的二分类问题。目前,支持向量机模型以及核函数方法在剪切位点识别算法的研究中受到了广泛的关注。在生物信息学问题中常用的核函数有两种,一种方法是基于特征空间的核函数,另一种是直接根据序列信息计算序列的相似性,也就是字符串核函数。目前字符串核函数在识别剪切位点问题上的性能已经达到了研究的前沿水平。在已经提出的用于剪切位点预测的字符串核函数中,Weighted Degree(WD)核是其中性能最好的一种。本文在分析WD核函数有效性的基础上,提出了WD核函数的准确率与碱基保守性的分布位置有关的假设以及验证该假设的实验方案。本文定义三个变量描述在某一位置上组成DNA的四种核苷酸碱基A、G、C和T分别在正例数据和反例数据上的分布以及其分布的差异,使用这三个变量定义关键因子的概念,用于表示该位置上的碱基对于区分正例和反例的重要程度。并使用这个概念在公共数据集上进行实验从而选出了可能会在分类时有重要作用的“关键位置”。通过在计算核函数时分别去除或保留这些位置上的碱基信息,证明了碱基所在位置这一信息对WD核函数预测剪切位点性能有着重要影响并且某一位置对应的关键因子可以用于描述该位置上的碱基在分类时的重要程度。在证明了WD核函数的性能与碱基所在位置有关后,本文对碱基位置的重要性进行扩展,即可能存在会对WD核函数性能造成不良影响的“迷惑位置”,并提出了迷惑因子的概念用于找出这种位置。基于找到的关键位置和迷惑位置,对每个位置分别按其对WD核函数的影响程度的不同赋予相应权值,并在计算核函数时使用。本文将这种基于位置重要性赋予权值的改进WD核函数方法称为Adaptive WD核函数,实验证明,在两个剪切位点公共数据集上,Adaptive WD核函数均能取得优于WD核函数的性能。随后为得到更好的分类效果,本文提出使用以Adaptive WD核为核函数的支持向量机分类器作为基分类器,分别应用Bagging和Adaboost两种集成学习方法提升预测效果。实验结果表明使用两种集成学习方法后,分类器的性能均能提升2%左右,证明了使用集成学习方法有着良好的提升效果。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 李咏晋;赵拥军;赵闯;;组合核函数优化的稀疏最小二乘支持向量机[J];太赫兹科学与电子信息学报;2017年03期
2 李村合;马敏敏;;增量支持向量机核函数的优化[J];计算机系统应用;2017年08期
3 魏瑾瑞;;对支持向量机混合核函数方法的再评估[J];统计研究;2015年02期
4 蒋铁军;张怀强;王先甲;;装备费用预测中的混合核函数支持向量机[J];数学的实践与认识;2014年16期
5 徐立祥;李旭;;基于混合核函数支持向量机的回归模型[J];合肥学院学报(自然科学版);2013年02期
6 晁学民;周继萍;;基于组合核函数支持向量机的人脸识别[J];重庆理工大学学报(自然科学);2013年06期
7 房菲;赵犁丰;;基于混合核函数的支持向量机在人脸识别中的应用研究[J];电子设计工程;2013年11期
8 李渝;吴增印;;基于分段核函数的支持向量机及其应用[J];现代电子技术;2013年16期
9 孙林凯;金家善;耿俊豹;;基于最优核函数支持向量机的费用预测[J];控制工程;2012年S1期
10 邬啸;魏延;吴瑕;;基于混合核函数的支持向量机[J];重庆理工大学学报(自然科学);2011年10期
11 夏红霞;丁子春;李哲;郭翠翠;宋华珠;;一种新的自适应组合核函数[J];武汉理工大学学报;2009年03期
12 颜根廷;马广富;肖余之;;一种混合核函数支持向量机算法[J];哈尔滨工业大学学报;2007年11期
13 王华忠;俞金寿;;核函数方法及其模型选择[J];江南大学学报;2006年04期
14 白璐;徐立祥;崔丽欣;焦宇航;吴宇帆;潘云逸;;图核函数研究现状与进展[J];安徽大学学报(自然科学版);2017年01期
15 温凤丹;林巨;;浅海环境下的声学灵敏度核函数研究[J];南京大学学报(自然科学);2017年01期
16 李素;李鲁文;庄大方;王勇;;混合核函数研究及其在数据建模领域应用进展[J];计算机仿真;2015年07期
17 孙强;杨旭娜;;组合核函数支持向量机在个人信用评估中的应用[J];黑龙江科技信息;2013年26期
18 谢凌然;高长伟;沈玉娣;;基于混合核函数支持向量机的齿轮诊断方法研究[J];机械传动;2011年09期
19 罗婷婷;范太华;;支持向量机核函数及优化研究[J];兵工自动化;2007年10期
中国重要会议论文全文数据库 前10条
1 孙威;阎石;郭鹏飞;;基于固定重构核函数的无网格法及其在弹性力学中的应用研究[A];第16届全国结构工程学术会议论文集(第Ⅰ册)[C];2007年
2 刘克彬;李芳;刘磊;韩颖;;基于特征选择和语义扩展的词序列核函数研究[A];第三届学生计算语言学研讨会论文集[C];2006年
3 龙滔;;非局域电子热传导的核函数[A];第六届全国激光科学技术青年学术交流会论文集[C];2001年
4 陆荣秀;杨辉;衷路生;;混合核函数支持向量机在稀土萃取过程软测量建模中的应用[A];2009中国控制与决策会议论文集(3)[C];2009年
5 虞欢欢;陈九昌;钱龙华;周国栋;;基于树核函数的中文语义关系抽取[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 钱向东;沈人杰;;广义阻尼模型的Gaussian核函数拉普拉斯域识别法[A];中国力学大会-2017暨庆祝中国力学学会成立60周年大会论文集(C)[C];2017年
7 程长明;彭志科;孟光;;基于Volterra核函数辨识的结构损伤检测研究[A];第十五届全国非线性振动暨第十二届全国非线性动力学和运动稳定性学术会议摘要集[C];2015年
8 张伟;张为民;张鹏辉;郑业勇;漆采玲;;含弱奇核函数的分数指数黏弹性模型[A];中国力学大会-2015论文摘要集[C];2015年
9 薄翠梅;李俊;陆爱晶;张广明;;基于核函数和概率神经网络的TE过程监控研究[A];第二十六届中国控制会议论文集[C];2007年
10 王永春;;一种复合的支持向量机模型在电力系统短期负荷中的应用[A];第十届全国电工数学学术年会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 武海巍;核函数与仿生智能算法在林下参光环境评价系统中的研究[D];吉林大学;2012年
2 谭泗桥;支持向量回归机的改进及其在植物保护中的应用[D];湖南农业大学;2008年
3 李俊彬;核函数逼近方法若干理论与应用研究[D];大连理工大学;2017年
4 刘大同;基于Online SVR的在线时间序列预测方法及其应用研究[D];哈尔滨工业大学;2010年
5 王宇凡;未确知信息分析的模糊支持向量机优化研究[D];西北工业大学;2014年
6 盛浩;核函数平衡矩阵算法在CTL表位预测中的应用[D];大连理工大学;2014年
7 谭治英;核机器学习方法及其在视觉检测中的应用研究[D];电子科技大学;2013年
8 朱孝开;基于核方法的图像目标识别技术研究[D];国防科学技术大学;2009年
9 楼雄伟;支持向量机的核方法研究及其在森林火灾视频识别中的应用[D];浙江工业大学;2014年
10 王书舟;支持向量机方法及其应用研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 王天祺;用于预测剪切位点的一种改进字符串核函数研究[D];哈尔滨工业大学;2016年
2 刘琰;支持向量机核函数的研究[D];西安电子科技大学;2012年
3 黄啸;支持向量机核函数的研究[D];苏州大学;2008年
4 范瑞雅;支持向量机核函数的参数选择方法[D];重庆大学;2011年
5 李红英;支持向量分类机的核函数研究[D];重庆大学;2009年
6 郭守团;基于支持向量机的组合核函数及模糊系统辩识研究[D];西南交通大学;2010年
7 段崇雯;多尺度核函数支持向量机算法及其应用研究[D];国防科学技术大学;2006年
8 朱春雷;支持向量机中核函数和参数选择研究及其应用[D];南京林业大学;2011年
9 李希鹏;基于混合核函数支持向量机的文本分类研究[D];中国海洋大学;2012年
10 曹懿;混合核函数支持向量机在信用评估中的应用[D];哈尔滨工业大学;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978