收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

生物命名实体识别及生物文本分类

豆增发  
【摘要】:近年来,随着生物医学文本的大规模出现,对文本进行自动化处理的文本挖掘技术变得越来越重要,如对海量生物医学文本数据进行自动分类,从文本中挖掘感兴趣的生物命名实体,研究这些生物命名实体之间的内在关系等。生物医学文本中生物命名实体的识别是所有生物数据挖掘的最基础部分,也是将非结构化数据转换为结构化数据的关键步骤。本文主要研究生物医学文本中命名实体的识别和生物文本自动分类的关键技术,所取得的主要研究成果为: 1、研究了基于改进二进制粒子群优化的特征选择算法。二进制粒子群优化是离散粒子群优化的一个变种,不同与传统的实数粒子群优化,二进制粒子群优化的每个变量取值非0即1。基于改进二进制粒子群优化的特征选择算法用翻转角度来控制粒子群进化,在多维空间搜索目标函数的最优二进制解,求出最佳特征权重向量,权重为0的特征是冗余特征,权重为1的特征为有效特征。 2、研究了基于膜粒子群优化的特征选择算法。膜粒子群优化算法利用了膜系统的分层结构和消息传递机制,将粒子群优化算法作为区域子算法部署到各个区域中。不同于传统粒子群优化算法,本文将粒子群优化的搜索速率分解为局部搜索速率和全局搜索速率。膜系统的所有外层区域采用局部搜索速率,搜索局部最优解,最内层区域采用全局搜索速率,搜索全局最优解。所有外部区域将最优解传递给相邻内部区域,内部区域将最差解传递给相邻外部区域,最内层区域向相邻外部区域传递最差解。当各个区域之间的解传递在一段时间内停止,或者算法迭代次数达到限定次数,算法收敛,取最内层区域的最优解为最终解。利用膜粒子群优化算法在多维空间搜索目标函数的最优解,求出最佳特征权重向量,选取权重系数大于阈值的特征,去除权重系数小于阈值的特征,达到清除冗余特征的目的。 3、研究了条件随机场模型的参数估计问题。针对传统的条件随机域模型参数估计算法过度拟合的问题,提出了改进粒子群优化算法并将该算法应用到条件随机域的参数估计中。改进的粒子群优化算法引入粒子群聚集度来防止粒子群过早的陷入局部收敛,用迭代间对数似然相对变化率来控制算法的收敛,用线性变化的惯性因子和学习因子来控制搜索范围。该算法在搜索初期具有较好的全局搜索能力,在搜索后期具有较好的局部搜索能力。当迭代间的对数似然相对变化率小于门限值时,或者迭代次数达到限定次数,算法终止。本文用条件随机域模型的对数似然估计作为目标函数,用改进粒子群优化算法来训练条件随机域,寻找使目标函数最大的参数向量作为条件随机域的最佳参数。 4、研究了利用条件随机域模型从生物医学文本中识别生物命名实体的方法。针对马尔科夫等模型在命名实体识别中的标签倾向问题,提出了用富特征的条件随机域识别生物命名实体的方法。首先利用改进二进制粒子群优化方法对条件随机域的特征进行选择,然后利用改进粒子群优化算法对条件随机域模型进行训练,接下来基于各种辅助的特征集,用训练好的条件随机域模型进行生物命名实体的识别,标注出生物文本中存在的表示生物命名实体的名词和各种短语。 5、研究了基于可拓分类器的生物医学文本分类方法。为了对海量生物医学文本进行自动分类,本文提出了一种新的基于可拓分类器的文本分类方法。可拓分类器用空间向量模型来表示单个生物医学文本,用可拓矩阵表示每个类型模板,通过计算文本与各个类型模板之间的可拓相关度,来判定文本与类型之间的相似程度,选择可拓相关度最大的类型为最终归档类型。为了使可拓矩阵保持最佳分类效果,本文采用改进粒子群优化算法来训练不同类别的文本特征的权重系数,使不同文本类别之间的距离和最大化。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 施德明;林洋港;陈恩红;;一种集成NER的文本分类特征选择方法[J];计算机工程与科学;2007年11期
2 冯冲;陈肇雄;黄河燕;;采用主动学习策略的组织机构名识别[J];小型微型计算机系统;2006年04期
3 吕婷;姜友好;;文本挖掘在生物医学领域中的应用及其系统工具[J];中华医学图书情报杂志;2010年04期
4 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期
5 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
6 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
7 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
8 李桂兰;余正涛;毛存礼;郭剑毅;侯波;线岩团;;旅游领域实体答案的抽取[J];广西师范大学学报(自然科学版);2009年01期
9 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
10 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
11 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
12 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
13 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
14 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
15 马续补;郭菊娥;;基于GATE的任务信息抽取研究[J];情报杂志;2010年01期
16 韩普;姜杰;;HMM在自然语言处理领域中的应用研究[J];计算机技术与发展;2010年02期
17 张朝胜;郭剑毅;线岩团;余正涛;雷春雅;王海雄;;基于条件随机场的英文产品命名实体识别[J];计算机工程与科学;2010年06期
18 邹涛;;一种电子产品领域命名实体识别方法研究[J];情报学报;2010年06期
19 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期
20 郑强;刘齐军;王正华;朱云平;;生物医学命名实体识别的研究与进展[J];计算机应用研究;2010年03期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
7 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
9 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
2 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
3 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
4 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
5 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
6 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
7 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
8 廖一星;文本分类及其特征降维研究[D];浙江大学;2012年
9 郑文斌;基于正则化线性统计模型的文本分类研究[D];浙江大学;2012年
10 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
2 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
3 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
4 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
5 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
6 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
7 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
8 万鑫;基于文本分类的命名实体识别系统[D];北京邮电大学;2009年
9 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
10 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
中国重要报纸全文数据库 前6条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
3 希安;微软试水信息检索[N];经济日报;2004年
4 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
5 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
6 应晓敏 窦文华;技术架构[N];计算机世界;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978