收藏本站
《宁波大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于多组学数据对长链非编码RNAs的功能注释

李金城  
【摘要】:目的随着测序技术的发展,在各种哺乳动物中发现越来越多的长链非编码RNA(long-noncoding RNA,lncRNA),但是大部分lncRNA的功能未知。鉴于lncRNA在众多生物过程中的重要调节作用,对lncRNA的功能研究已成为生物学家和生物信息学家研究的热点,其中基于计算机的功能预测是目前研究lncRNA功能的主要方法之一。目前能够应用于lncRNA功能预测的高通量数据相对较少,大部分研究者主要基于表达谱构建共表达网络对lncRNA进行功能预测,但由于lncRNAs表达较低,如果RNA-seq的测序深度不够,大部分lncRNAs的表达将不能够被检测,因此基于共表达网络的方法对lncRNAs的功能预测具有局限性。本研究引入表观遗传修饰和转录因子的ChIP-seq数据,基于多组学数据对lncRNA进行功能注释,探索和比较不同数据源进行lncRNAs功能预测的可行性和准确性。方法本研究基于共表达网络、表观遗传修饰和转录因子数据,运用了建立在统计学习理论基础上的支持向量机算法,结合重抽样和集成算法,对多数据源构造训练数据集,经过特征提取、特征选择、模型训练、模型评价、lncRNA功能预测、结果集成等流程,完成对lncRNA的功能预测。SVM算法基于LIBSVM软件包,数据预处理等相关实现基于Perl、R语言软件。结果基于共表达网络、表观遗传修饰和转录因子数据的SVM在测试集中的平均AUC值分别为0.662、0.638、0.609,在几种数据源中,共表达网络数据相较于表观遗传数据、转录因子数据在所构造的预测模型性能上最好,而表观遗传数据、转录因子数据最终得到了相对更多的lncRNA注释条目。三种数据源分别预测得到有功能注释的lncRNA分别为32、1 441、6 637个。结果集成后最终得到7 036个非编码基因的预测结果,平均每个非编码基因预测得到GO功能注释约203个。结论集成欠抽样的SVM算法从理论上来讲,具有避免类不平衡问题、提升预测模型性能、减少信息损失、降低运算时间成本的优势。多组学数据根据不同生物分子的性质和特点,对不同GO功能的预测中提供的信息、起到的作用也不尽相同。因为生物系统的复杂性,基因功能涉及到的生物机制繁多,单个数据源往往无法完全提供基因功能相关的信息,而多数据源的整合可以有效解决此问题,基于多组学数据进行lncRNA功能预测是一个有效思路,机器学习方法的运用也为研究提供了有效的工具。除了表观遗传数据、转录因子数据,或许还会有更多的数据被整合运用到lncRNA功能预测领域。
【学位授予单位】:宁波大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:Q811.4

【相似文献】
中国期刊全文数据库 前10条
1 秦克锋,高谦,汪美先,姜绍谆,徐月清,王丽莉;单纯疱疹病毒1型约105000道尔顿糖蛋白的鉴定及其编码基因的定位[J];细胞与分子免疫学杂志;1988年04期
2 张立军;弓雪;汪澈;冀宇奇;;酯酶功能和编码基因的多样性[J];沈阳农业大学学报;2010年05期
3 海生;古思今;;改变命运的神秘力量[J];大科技(科学之谜);2013年08期
4 田立峰,戴建凉,黄达蔷,付旭平,沈健民,范俊,张雷,马良宵,谢毅,毛裕民;2813条全长人类新基因编码蛋白质的功能预测[J];复旦学报(自然科学版);2000年06期
5 王桂武;杨福合;;IGF-II生理功能及其编码基因的结构研究[J];特产研究;2007年04期
6 本刊编辑部;;孟加拉腹泻病研究国际中心部分研究工作进展[J];国外医学.生物制品分册;1981年06期
7 张丽娟;成军;罗军;;新基因功能预测的理论及方法[J];医学分子生物学杂志;2006年04期
8 徐万祥,熊艳,邱德义,廖矛川,孙志达,应康,顾少华,刘建平,谢毅;hCG嵌合肽-7、-10和-11编码基因的化学合成和生物表达[J];Developmental & Reproductive Biology;2001年S1期
9 ;我国破译乙肝病毒基因组新编码基因[J];医学研究通讯;2004年04期
10 边春象;李劲涛;彭正松;阮期平;;蛇苔细胞色素C(Cyt C)的序列分析及功能预测[J];武汉植物学研究;2009年04期
中国重要会议论文全文数据库 前9条
1 陈润生;;非编码基因的生物功能[A];生物膜与重大疾病学术研讨会论文集[C];2004年
2 汪军梅;;小鼠载脂蛋白CⅡ编码基因的表达[A];泛环渤海地区九省市生物化学与分子生物学会——2011年学术交流会论文集[C];2011年
3 齐名;陈亚利;姚凯;邢嘉翊;朱琴;;二球悬铃木花粉变应原编码基因克隆的制备[A];中华医学会第二次全国变态反应学术会议论文汇编[C];2004年
4 李江;高小平;;组织蛋白酶L全长编码基因的克隆、表达及活性鉴定[A];第九届全国酶学学术讨论会暨邹承鲁诞辰85周年纪念会论文摘要集[C];2008年
5 屈良鹄;;非编码基因生物学—从生命起源到转化医学[A];生命的分子机器及其调控网络——2012年全国生物化学与分子生物学学术大会摘要集[C];2012年
6 黄敏;;枯草芽孢杆菌Bacillus subtilis降解3-羟基丁酮(acetoin)酶系统编码基因的克隆[A];中国细胞生物学学会第七次会议论文摘要汇编[C];1999年
7 周国鑫;王霞;娄永根;程家安;;水稻诱导抗虫反应的分子基础[A];中国生态学会2006学术年会论文荟萃[C];2006年
8 陈静;李多川;;嗜热毛壳菌热稳定糖化酶纯化及其编码基因的克隆与表达[A];中国植物病理学会2006年学术年会论文集[C];2006年
9 高鹏;单安山;冯兴军;毕重朋;;LfcinB15-Mag12编码基因的合成及在大肠杆菌中的表达研究[A];中国畜牧兽医学会动物营养学分会第十次学术研讨会论文集[C];2008年
中国重要报纸全文数据库 前3条
1 吴一福;首次成功分离出HPA全长编码基因[N];中国医药报;2005年
2 黄显斌、唐明山;成功破译乙肝病毒新编码基因[N];解放军报;2003年
3 记者 李天舒;人类外显子区域精细遗传图谱绘出[N];健康报;2010年
中国博士学位论文全文数据库 前5条
1 张慧;长链非编码RNA lnc-LEMGC、编码基因KIF26B对胃癌浸润、转移的调控作用及相关机制研究[D];山东大学;2016年
2 马知行;基于数据驱动的非编码基因功能注释方法研究[D];吉林大学;2015年
3 王军;人脑组织Nav1.5 Na~+通道编码基因的克隆及表达分析[D];中国医科大学;2010年
4 郭杏莉;基于网络模型的基因相关预测问题算法研究[D];西安电子科技大学;2013年
5 崔毅峙;翻译中mRNA与蛋白质的定量关系及其生物学意义研究[D];暨南大学;2017年
中国硕士学位论文全文数据库 前10条
1 李金城;基于多组学数据对长链非编码RNAs的功能注释[D];宁波大学;2017年
2 刘紫戈;石栗果实发育特性及ACCase编码基因的表达分析[D];广西大学;2015年
3 刘青斌;Shewanella loihica PV-4基因组蛋白质编码基因重注释[D];山东师范大学;2016年
4 吴明辉;小鼠睾丸非编码基因来源小蛋白的蛋白质组学研究[D];南京医科大学;2015年
5 杨雷;基于序列特征预测蛋白质编码基因及其启动子[D];华中科技大学;2006年
6 蔺光岭;基于SVM和蛋白功能注释的蛋白质相互作用关系预测方法研究[D];吉林大学;2017年
7 库玛娜(NDIKUMANA Yvonne);敲除莽草酸转运蛋白编码基因shiA对莽草酸积累影响[D];华东理工大学;2010年
8 方婷;家蚕特有基因的鉴定、表达模式分析及功能初探[D];西南大学;2010年
9 许三岗;疟原虫分子功能注释二级数据库的构建[D];北京协和医学院;2013年
10 吴浩宇;基于Hadoop的同源性搜索GO功能注释平台的研究[D];南京农业大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026