收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于文档集的生物信息挖掘模型研究与实现

姜楠楠  
【摘要】:随着现代科学技术不断的进步与发展,互联网信息时代的到来,多种多样的信息资源凭借互联网为载体的聚集,成就了一个多元化、大存储的信息数据库。在海量的信息资源中,怎样精确、高速地提取研究人员感兴趣的信息成为新的科研研究课题。各个专业领域的研究人员能用总结性、规范性的科学语言精确的描述出实验研究的方法及结果,并且借助文本的形式存储起来,也可借用互联网的方式共享出去,所以共享的科学文献中存在大量的专业知识。科学文献中的表述均是通过实践考证的,高度概括的,与专业领域内科研专家的表述形式最相近的。在生物信息的范畴内,一些研究专家提出了关于文献里知识发现的思想,经过文献中的题目、摘要、关键字等专业词语,将隐藏在生物文献里许多鲜为人知的信息挖掘出来。在生物信息文献中记录着大量重要的实验结果,例如,数量性状位点(QTL)定位信息通常是在表格中。QTL(quantitative trait locus)的含义是控制数量性状的基因在基因组中的位置,它是作物育种研究的重要依据。可是,随着生物信息技术突飞猛进的发展,生物文献的总数量增长的越来越快。人工从文献中获取所需要的信息已不能适应生物信息文献数量迅速生长的需要。文本挖掘技术能自动地从文本中发现知识,因而,信息提取的方法得到了普遍的运用。然而,大多数使用文本挖掘技术从文献里抽取知识均侧重于在非结构化文本里抽取。在本文中,提出一个方法用于在文献中抽取结构化信息,并将复杂、多样的表格转化为结构化的数据,然后再结合从文本中抽取的信息构建数据库。通过构建《Soybean QTL数据挖掘系统》,应用文本挖掘的方法自动从相关文献中挖掘分析QTL、基因功能等信息。本文使用大豆文献作为基础数据,全面介绍当前信息抽取现状以及国内外发展历程,在文本预处理、句法分析和训练样本基础上,从提取规则方式上入手,提出具有特色的文本信息抽取方式,建立基于文档集的生物信息挖掘模型,为大豆育种和分子生物信息学的科研工作提供了数据资源。同时,这个方法可以大大减少数据库构建的劳动负担。构建Soybean QTL数据库,从245篇文献中抽取到3638条记录,数据的正确率为94.3%,召回率为80.5%,方法的F值是0.87。


知网文化
【相似文献】
中国期刊全文数据库 前5条
1 陈志敏;沈洁;;基于Web日志的混合挖掘模型研究[J];扬州大学学报(自然科学版);2007年03期
2 段隆振;秦磊;张锋;冯豫华;;一种用于信息聚集的抽象Web挖掘模型[J];南昌大学学报(理科版);2007年04期
3 尤垂桔;赵绍玉;;基于信息增益的征信数据关联规则挖掘模型设计[J];甘肃联合大学学报(自然科学版);2010年02期
4 李毅;胡金凤;王正友;;一种面向中文依赖语法的观点挖掘模型[J];河北省科学院学报;2014年02期
5 ;[J];;年期
中国重要会议论文全文数据库 前3条
1 李永立;吴冲;胡冬冬;吴世堂;;基于树形网络分析的短信种子用户挖掘模型及其实证分析[A];第十四届中国管理科学学术年会论文集(上册)[C];2012年
2 张素兰;张继福;;融合粗集和概念格理论的分类知识挖掘模型研究[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
3 陈显周;俞守华;区晶莹;;异常挖掘在猪只行为数据分析上的应用[A];2011年中国农业系统工程学术年会论文集;海峡两岸农业学术研讨会论文集;长沙市第五届自然科学学术年会农学研讨会论文集[C];2011年
中国硕士学位论文全文数据库 前10条
1 姜楠楠;基于文档集的生物信息挖掘模型研究与实现[D];东北农业大学;2016年
2 王红芹;项目管理中的知识挖掘模型及应用[D];天津工业大学;2008年
3 沈陵峰;网上产品评价的意见挖掘模型研究[D];中国科学技术大学;2010年
4 张济础;教育信息挖掘模型的设计与实现[D];大连海事大学;2007年
5 王春岩;Web博主信息挖掘模型研究与设计[D];首都师范大学;2009年
6 崔凯;基于LDA的主题演化研究与实现[D];国防科学技术大学;2010年
7 李玲玲;基于K-means的企业基础信息挖掘模型的设计与应用[D];东北财经大学;2010年
8 何建军;基于粗糙集理论的粮食经营信息挖掘模型研究[D];吉林大学;2005年
9 梁庆;基于改进Apriori算法的中医温病诊治规律挖掘模型研究[D];西安电子科技大学;2009年
10 阴小雄;古中医复方方剂配伍关系挖掘模型[D];四川大学;2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978