收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于判别式模型的蛋白质互作用文本挖掘技术研究

钱伟中  
【摘要】:蛋白质互作用描述了蛋白质间的相互作用关系,对于生物医学具有重要的理论和应用价值。随着生物医学的发展,人工从文献中获取蛋白质互作用信息已不能适应生物文献数量迅速增长的需要。文本挖掘技术能自动地从文本中发现知识,因而在蛋白质互作用信息提取任务中得到了广泛的应用。传统的方法在蛋白质命名实体识别和互作用抽取性能上难以满足实际需要,此外对标注语料的依赖制约了算法的性能。为了解决这些问题,以机器学习中的判别式模型为理论基础,论文研究工作包括蛋白质命名实体识别和蛋白质互作用信息抽取两个任务。 本文主要原创性工作包括以下四个方面: 1.提出了一种基于条件随机域模型,并结合特征选择和后处理的蛋白质命名实体识别方法。该方法在提取蛋白质命名实体特征的基础上,对传统的词特征方法进行扩展。增加的模块包括:基于信息增益的特征选择,及后处理阶段采用的基于词性分析的边界规则和单词过滤方法。实验表明,与传统方法相比,该方法能够更好地适应于具有复杂定义模式的命名实体识别任务。 2.提出了一种基于模型融合的蛋白质互作用信息抽取模型。基于级连法的思想,将模式匹配的结果作为特征融合到词特征方法中,使得模型兼具模式学习和词特征方法的优点。在模式学习中,对单模式评价的方法进行改进,并提出基于性能增益的模式评价的方法,能够有效地去除性能低下的模式和冗余模式。实验表明,与单个方法相比,该方法能够显著提高分类性能,且具有更为均衡的准确率和召回率。 3.提出了一种融合浅层句法分析的蛋白质互作用信息抽取方法。生物文本中复杂的语法结构导致信息抽取性能低下。本方法在信息抽取前,对输入句子集合进行语块划分、同位语分析、并列结构分析、从句分析的处理,从而将待分类的蛋白质对的实例划分到不同的语法单位中。语法单位的划分能够限定蛋白质对的搜索范围,提高分类的准确性。实验表明,与传统基于机器学习的方法相比,该方法能显著提升F1值10%以上。 4.将基于词特征的方法和自动模式学习方法进行联合训练,并提出一种基于k-最近邻算法(kNN)的实例自动标注方法。在已标注样本缺乏情况下,应用联合训练框架,词特征方法和模式学习方法能够互相学习,互为补充。基于kNN,通过将不同样本中的蛋白质对文本的序列比对分值定义为距离值,使未标注样本得以自动标注。实验表明,在初始标注样本数较少的情况下,上述两种方法均能有效利用未标注样本,显著提高信息抽取性能。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 曲晓棠;沈晓红;;基于最大熵模型的中文命名实体识别研究[J];科技信息(学术研究);2008年30期
2 钱伟中;王娟;傅翀;秦志光;;融合浅层句法分析的蛋白质互作用信息抽取方法[J];计算机应用研究;2011年03期
3 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
4 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
5 胡昉,张寒洁,吕斌,陶永升,李海洋,鲍世宁,何丕模,王学森;Ge在Ru(0001)表面上生长及其性质研究[J];物理学报;2005年03期
6 苗建军,王效民;论相互作用[J];哈尔滨市委党校学报;1999年04期
7 李德俊,朱沛臣;SOVE方程中参数A(T)的推导[J];南京大学学报(自然科学版);1996年04期
8 陈茂庆;试论“读、说、写”的整合功能[J];中国科技信息;2005年08期
9 施启良;结构定义述评[J];系统辩证学学报;1995年02期
10 王宏毅;系统的相互作用模式探讨[J];系统辩证学学报;1997年01期
11 冯艳,刘冬青,王震,曹慧青,时娜,邓仲端,丁金凤,孟宪敏;心肌特异性新蛋白激酶p93和peroxiredoxin3的相互作用[J];生物化学与生物物理进展;2004年08期
12 庆承瑞;关于μ-俘获中相互作用的讨论[J];北京大学学报(自然科学版);1962年04期
13 胡雄,张训械;磁层中哨声波与电子的相互作用[J];空间科学学报;1992年04期
14 苗建军;相互作用的自然科学含义及特征[J];烟台大学学报(哲学社会科学版);1994年04期
15 夏立容;信息与相互作用的关系[J];自然辩证法研究;1995年01期
16 陈少飞,郝亚南,李天柱,徐林昊,杨文柱;Web信息抽取技术研究进展[J];河北大学学报(自然科学版);2003年01期
17 袁晶,汪俏梅,张海峰;植物激素信号之间的相互作用[J];细胞生物学杂志;2005年03期
18 周光召;迈向科技大发展的新世纪[J];科学中国人;1995年04期
19 李向阳,张亚非;基于语义标注的信息抽取[J];解放军理工大学学报(自然科学版);2004年04期
20 王凡,和音;强子互作用的长程行为[J];物理学进展;1984年01期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 李琰;崔晓强;;特大型钢结构施工过程中基础与上部结构相互作用的研究[A];第十一届空间结构学术会议论文集[C];2005年
4 郭振亚;陈焕金;金庆华;周达明;丁大同;;HfV_2·H_X中扩散导致~1H核自旋弛豫[A];第五届全国波谱学学术会议论文摘要集[C];1988年
5 唐维军;王晨星;;斜激波与物质界面相互作用的数值模拟[A];中国工程物理研究院科技年报(2003)[C];2003年
6 吴建国;;病毒与致病、致癌因子的相互作用及功能研究[A];2004年中国科学院新生病毒性疾病控制学术讨论会摘要集[C];2004年
7 梁雪;王一波;;是传统氢键还是X-H…π相互作用存在于无机苯与卤化氢复合物中?[A];大环化学和超分子化学研究进展——中国化学会全国第十二届大环第四届超分子化学学术讨论会论文集[C];2004年
8 龚福忠;刘力恒;马培华;梁渝柠;;变性淀粉与表面活性剂的相互作用[A];中国化学会第十届胶体与界面化学会议论文摘要集[C];2004年
9 刘文杰;郭霞;郭荣;;表面活性剂与血红蛋白的相互作用[A];中国化学会第十届胶体与界面化学会议论文摘要集[C];2004年
10 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
2 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
3 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
4 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
5 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
6 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
7 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
8 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
9 薛永增;统计机器翻译若干关键技术研究[D];哈尔滨工业大学;2007年
10 吴迪;若干弱相互作用体系的结构和性质的理论研究[D];吉林大学;2004年
中国硕士学位论文全文数据库 前10条
1 王静;基于GHMM的Web文本信息抽取技术研究与系统设计[D];西安电子科技大学;2008年
2 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
3 杨永贵;中文信息抽取关键技术研究与实现[D];北京邮电大学;2008年
4 任惠;基于Stacking框架的命名实体识别[D];大连理工大学;2008年
5 牟力科;Web中文信息抽取技术与命名实体识别方法的研究[D];西北大学;2008年
6 刘杰;Web中文信息抽取中命名实体识别的研究及应用[D];西北大学;2009年
7 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
8 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
9 赵辄谦;基于互联网的中文问答系统研究[D];山西大学;2003年
10 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 徐怀逵;药物与体外物质的相互作用不可忽视[N];健康报;2004年
3 彭芳;搜索也专业[N];中国计算机报;2004年
4 聂松义;心肌细胞膜钾离子通道研究进展[N];中国医药报;2005年
5 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
6 刘晔;海陆气相互作用研究取得原创性成果[N];科技日报;2004年
7 记者 金璐;心理咨询进社区[N];金华日报;2005年
8 闫确;饭前保健 效果更佳[N];农村医药报(汉);2006年
9 记者 张亮;州直上半年招商到位资金18亿[N];伊犁日报(汉);2007年
10 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978