收藏本站
《电子科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于判别式模型的蛋白质互作用文本挖掘技术研究

钱伟中  
【摘要】:蛋白质互作用描述了蛋白质间的相互作用关系,对于生物医学具有重要的理论和应用价值。随着生物医学的发展,人工从文献中获取蛋白质互作用信息已不能适应生物文献数量迅速增长的需要。文本挖掘技术能自动地从文本中发现知识,因而在蛋白质互作用信息提取任务中得到了广泛的应用。传统的方法在蛋白质命名实体识别和互作用抽取性能上难以满足实际需要,此外对标注语料的依赖制约了算法的性能。为了解决这些问题,以机器学习中的判别式模型为理论基础,论文研究工作包括蛋白质命名实体识别和蛋白质互作用信息抽取两个任务。 本文主要原创性工作包括以下四个方面: 1.提出了一种基于条件随机域模型,并结合特征选择和后处理的蛋白质命名实体识别方法。该方法在提取蛋白质命名实体特征的基础上,对传统的词特征方法进行扩展。增加的模块包括:基于信息增益的特征选择,及后处理阶段采用的基于词性分析的边界规则和单词过滤方法。实验表明,与传统方法相比,该方法能够更好地适应于具有复杂定义模式的命名实体识别任务。 2.提出了一种基于模型融合的蛋白质互作用信息抽取模型。基于级连法的思想,将模式匹配的结果作为特征融合到词特征方法中,使得模型兼具模式学习和词特征方法的优点。在模式学习中,对单模式评价的方法进行改进,并提出基于性能增益的模式评价的方法,能够有效地去除性能低下的模式和冗余模式。实验表明,与单个方法相比,该方法能够显著提高分类性能,且具有更为均衡的准确率和召回率。 3.提出了一种融合浅层句法分析的蛋白质互作用信息抽取方法。生物文本中复杂的语法结构导致信息抽取性能低下。本方法在信息抽取前,对输入句子集合进行语块划分、同位语分析、并列结构分析、从句分析的处理,从而将待分类的蛋白质对的实例划分到不同的语法单位中。语法单位的划分能够限定蛋白质对的搜索范围,提高分类的准确性。实验表明,与传统基于机器学习的方法相比,该方法能显著提升F1值10%以上。 4.将基于词特征的方法和自动模式学习方法进行联合训练,并提出一种基于k-最近邻算法(kNN)的实例自动标注方法。在已标注样本缺乏情况下,应用联合训练框架,词特征方法和模式学习方法能够互相学习,互为补充。基于kNN,通过将不同样本中的蛋白质对文本的序列比对分值定义为距离值,使未标注样本得以自动标注。实验表明,在初始标注样本数较少的情况下,上述两种方法均能有效利用未标注样本,显著提高信息抽取性能。
【学位授予单位】:电子科技大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:Q51;TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前5条
1 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
2 李满生;刘齐军;李栋;刘培磊;朱云平;;蛋白质相互作用信息的文本挖掘研究进展[J];中国科学:生命科学;2010年09期
3 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
4 姜远;周志华;;基于词频分类器集成的文本分类方法[J];计算机研究与发展;2006年10期
5 孔芳;周国栋;朱巧明;钱培德;;指代消解综述[J];计算机工程;2010年08期
【共引文献】
中国期刊全文数据库 前10条
1 谷川;田喜平;;基于条件随机场的汉语词性标注方法研究[J];安阳师范学院学报;2010年05期
2 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
3 蒋宗礼;徐学可;;一种基于集成学习与类指示器的文本分类方法[J];北京工业大学学报;2010年04期
4 向毅;王成敏;;基于Abney的组块识别方法研究[J];重庆科技学院学报(自然科学版);2008年04期
5 王琦;;自动分类技术研究[J];河南财政税务高等专科学校学报;2008年04期
6 杨利英;张军英;覃征;;元学习算法选择机制及关联对性能的影响[J];电子科技大学学报;2007年02期
7 于江德;李学钰;樊孝忠;庞文博;;最大熵模型的事件分类[J];电子科技大学学报;2010年04期
8 王鑫;于洪亮;;加权超1-依赖贝叶斯分类器在柴油机故障诊断中的应用[J];大连海事大学学报;2011年02期
9 廖一星;潘雪增;;文本分类中基于逆云模型的特征选择方法[J];大连海事大学学报;2011年04期
10 江爱朋;邵之江;方学毅;郑小青;钱积新;;基于有限存储的简约空间序列二次规划算法研究[J];电路与系统学报;2007年05期
中国重要会议论文全文数据库 前10条
1 王周宏;;符号几何规划的全局解方法[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
2 刘中意;孙文瑜;;大型有界约束最优化问题的子空间有限存储BFGS算法(英文)[A];中国运筹学会第九届学术交流会论文集[C];2008年
3 李在禾;;等式约束优化的一个子空间算法的下降性质(英文)[A];中国运筹学会第九届学术交流会论文集[C];2008年
4 谷波;刘开瑛;;决策树模型和最大熵模型在文本分类中的比较研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 张玮;孙乐;冯元勇;吕元华;;一种结合分类模型的中文输入法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 罗雪兵;黄德根;周惠巍;李丽双;;基于组合方法的组块识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 代翠;周俏丽;蔡东风;;统计和规则相结合的汉语最长名词短语自动识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
10 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
2 孙霖;人脸识别中的活体检测技术研究[D];浙江大学;2010年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年
5 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
6 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
7 孔志周;多分类器系统中信息融合方法研究[D];中南大学;2011年
8 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
9 王秀美;隐变量模型的建模与优化[D];西安电子科技大学;2010年
10 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
3 赵群;极小化标注的音频分类和句子切分的研究[D];中国海洋大学;2010年
4 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
5 苏保君;在线组合分类器应用于大规模垃圾邮件过滤的研究[D];浙江大学;2010年
6 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
7 殷贤君;基于增量存储的商业数据流分类挖掘算法研究与应用[D];浙江工商大学;2011年
8 胡家豪;基于互联网的WEB舆情问答系统[D];电子科技大学;2011年
9 刘智慧;基于搜索引擎的自动问答系统[D];西安电子科技大学;2010年
10 陈帅;自然语言理解中介词管界处理及其在机械产品设计领域的应用[D];西安电子科技大学;2011年
【二级参考文献】
中国期刊全文数据库 前5条
1 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
2 马亮,陈群秀,蔡莲红;一种改进的自适应文本信息过滤模型[J];计算机研究与发展;2005年01期
3 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
4 赵军,黄昌宁;基于转换的汉语基本名词短语识别模型[J];中文信息学报;1999年02期
5 唐春生,金以慧;基于全信息矩阵的多分类器集成方法[J];软件学报;2003年06期
【相似文献】
中国期刊全文数据库 前10条
1 ;蛋白质分析新技术大大提高分析率[J];湖北林业科技;2004年03期
2 ;日开发出提高蛋白质分析效率技术[J];养殖与饲料;2004年08期
3 莫恭佑;;英国生物技术新进展[J];全球科技经济瞭望;1992年12期
4 李红旗,沈忠耀;高效毛细管电泳在蛋白质分析上的应用[J];生物工程进展;1995年06期
5 徐立,樊代明,金伯泉;一种用于蛋白质分析的快速聚丙烯酰胺凝胶电泳方法[J];细胞与分子免疫学杂志;1999年04期
6 ;韩国研发出分析人体蛋白质新方法[J];中国科技信息;2008年10期
7 屈锋;刘松南;任肖敏;李倩;;“毛细管电泳快速分析蛋白质”开放实验的实践[J];实验技术与管理;2009年04期
8 逯斌,林兵;一种改良的植物蛋白质双向电泳方法[J];生物化学与生物物理进展;1989年06期
9 毕颖楠;张惠静;;微流控分析芯片在医学领域的应用[J];生物工程学报;2006年01期
10 吴孟辉;陈思瑾;曾文灿;林旭聪;谢增鸿;;新型吖啶染料-蛋白质光散射体系[J];光谱实验室;2008年04期
中国重要会议论文全文数据库 前10条
1 吴开力;F.Kashanchi;;与HTLV-1病毒Tax相结合的蛋白质分析[A];中国蛋白质组学首届学术大会论文摘要集[C];2003年
2 刘宇;王善韦;左育民;;用于蛋白质分析的大孔聚苯乙烯填料的制备[A];中国化学会第十三届有机分析与生物分析学术会议论文集[C];2005年
3 沙莉;苏争先;陈德欣;关雄;;苏云金芽孢杆菌(Bacillus thuringiensis)几丁质酶的蛋白质分析[A];中国蛋白质组学首届学术大会论文摘要集[C];2003年
4 胡斌;韩京;杨水平;李建强;陈焕文;;表面解吸常压化学电离质谱法快速检测生物样品中痕量蛋白质[A];第十届中国化学会分析化学年会暨第十届全国原子光谱学术会议论文摘要集[C];2009年
5 朱宏;马旭俊;王佰臣;王同昌;;与小麦T型细胞质雄性不育和育性恢复相关的蛋白质分析[A];中国生物工程学会第三次全国会员代表大会暨学术讨论会论文摘要集[C];2001年
6 钟伯雄;李建科;林健荣;颜海燕;张平波;藤井博;;30K蛋白质对胚胎生长发育的影响[A];中国蚕学会第四届青年学术研讨会会议论文集[C];2004年
7 沈健;彭斌;黄杉生;;基于金纳米通道膜用于蛋白质分离的研究[A];中国化学会第十四届有机分析及生物分析学术研讨会会议论文摘要集[C];2007年
8 马红勃;祁建民;林荔辉;姜海青;徐建堂;廖英明;;烟草细胞质雄性不育系及其保持系的差异蛋白质分析[A];2008中国作物学会学术年会论文摘要集[C];2008年
9 Vickie Ma;;非标记技术在蛋白质结构和新药研发中的应用[A];第六届全国化学生物学学术会议论文摘要集[C];2009年
10 刘亚伟;戴兵;梅长林;张岩;熊锡山;;常染色体显性多囊肾病患者与正常成人肾组织磷酸化蛋白质的比较蛋白质组学研究[A];中华医学会肾脏病学分会2006年学术年会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 王宇星;中科院力学所光学多元蛋白质芯片研究达国际领先水平[N];中国医药报;2005年
2 王迪编译;AMUSE:基因组排序的好工具[N];医药经济报;2005年
3 张磊;浪潮天梭助力中科大生命科学院[N];中华工商时报;2007年
4 本报记者 朴淑瑜 唐婷;全天候、全开放为生命科学研究服务[N];科技日报;2007年
5 戴炳仁;食品中的转基因含量测量有新标准[N];中国国门时报;2006年
6 张亚滨;从10天到1天:四核技术为蛋白质研究加速[N];中国电脑教育报;2007年
7 任荃;“太空烟草”上海初长成[N];文汇报;2004年
8 新华社记者 赵凯;古巴:在困难中坚守免费医疗制[N];新华每日电讯;2003年
9 曲果;古巴医疗卫生事业发展迅速[N];中国医药报;2002年
10 德功;新技术有助快速查明蛋白种类[N];医药经济报;2004年
中国博士学位论文全文数据库 前10条
1 袁春雪;Λ-型吡啶盐类光电功能材料的设计、合成与性能研究[D];山东大学;2009年
2 文建辉;一维微流控微珠阵列芯片在核酸和蛋白质分析中的应用[D];湖南大学;2007年
3 郑婷婷;随机商分形模型及其在蛋白质分析中的应用[D];安徽大学;2007年
4 张萃;中药对LPS诱导单核巨噬细胞增殖的抑制作用及其差异蛋白质分析[D];广州中医药大学;2006年
5 张立勇;食管鳞癌分泌型血清蛋白标志物的分离和鉴定[D];中国协和医科大学;2003年
6 王京兰;磷酸化蛋白质分析方法研究及其在人胎肝磷酸化蛋白质组研究中的应用[D];中国人民解放军军事医学科学院;2004年
7 韩锦铂;前体蛋白加工酶furin的天然抑制剂及相互作用蛋白研究[D];中国科学院研究生院(上海生命科学研究院);2007年
8 李伟;荧光核酸适体探针的设计及其在血管生成素分析中的应用[D];湖南大学;2009年
9 杨敬松;数字微流控生物芯片的布局及调度问题研究[D];吉林大学;2008年
10 万涛;胆管癌相关新基因FXYD6全长cDNA克隆及其功能区定位分析、亚克隆与原核表达[D];中国人民解放军军医进修学院;2005年
中国硕士学位论文全文数据库 前10条
1 李朝霞;胡杨异形叶结构特征及离体培养条件对叶片发育影响的研究[D];北京林业大学;2005年
2 张伟;枣树雄性不育的蛋白质组学初步研究[D];河北农业大学;2007年
3 王璐;转CpTI基因苹果特异蛋白质分析和抗虫性株系的筛选[D];河北农业大学;2006年
4 刘艳;梭梭种子内源抑制物质及萌发生理生化变化研究[D];北京林业大学;2007年
5 胡德红;纳米粒子与蛋白质的相互作用及应用研究[D];华中农业大学;2008年
6 宋玉芳;光谱法测定加替沙星及动物尿样中白蛋白的研究[D];河南大学;2009年
7 林莉;新型电化学活性—非活性对适体信标的研制及其在蛋白质传感器中的应用研究[D];华东师范大学;2007年
8 程琳;以适配体为识别试剂基于催化反应或荧光开关的蛋白质分析新方法[D];山西大学;2013年
9 张爱霞;缺氧诱导因子1相关肽的筛选及活性研究[D];南京医科大学;2003年
10 王京京;水稻叶色突变体标810S光合特性及叶绿体蛋白质分析[D];湖南师范大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026