收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于条件随机域模型的中文地名识别的研究

马龙  
【摘要】: 中文地名识别属于中文命名实体(Named Entity)识别范畴,它是自然语言处理的基础任务之一,是机器翻译、信息检索、问答系统等技术的基础,中文地名在命名实体中占有很大比例。由于中文地名自身的特点,中文地名识别一直是中文自然语言处理的难题。 本文在已有研究的基础上,利用条件随机域(Conditional Random Fields,CRFs)模型进行中文地名自动识别的研究,旨在提高中文地名识别的效果。 本文的核心工作概括为以下两个方面: (1)首先简要介绍了隐马尔科夫理论和最大熵隐马尔科夫模型理论,然后进一步介绍了由最大熵理论发展起来的CRFs模型。CRFs模型是目前比较优秀的条件概率模型,它没有隐马尔科夫模型的输出独立性假设,同时最大程度上降低了最大熵模型的标记偏置问题带来的影响,从而可以利用上下文特征获得全局最优的标注结果。 (2)在传统用CRFs模型进行中文地名识别中,使用单层CRFs模型很难获取远距离特征,因此为了易于处理非本地依赖实体的识别,提出双层CRFs模型:将地名识别问题转化为序列标注问题,结合中文地名的特点,首先将中文文本中提取的地名特征分为三类:局部特征、非局部特征和词典特征,同时将训练文本中的地名提取出来作原始地名词典,然后利用局部特征训练第一层CRFs,对测试语料进行测试,将识别的结果加入到原始地名词典中,第二层CRFs利用非局部特征和通过最大匹配法获的词典特征进行。 本文的主要贡献是在进行中文地名识别时使用双层CRFs模型获得文本的远距离特征从而解决了标记一致性问题。有效利用已有的研究方法,设计并实现了中文地名识别系统。实验证明,基于双层条件随机域的中文地名识别方法,能有效的提高中文地名识别效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
2 帅训波;马书南;;基于决策树的现代汉语中任职关系抽取研究[J];昆明理工大学学报(理工版);2009年04期
3 吕婷;姜友好;;文本挖掘在生物医学领域中的应用及其系统工具[J];中华医学图书情报杂志;2010年04期
4 韩普;姜杰;;HMM在自然语言处理领域中的应用研究[J];计算机技术与发展;2010年02期
5 陈敏杰;;问答系统中问题分析模块的实现[J];经营管理者;2009年13期
6 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
7 胡乃全;孔芳;王海东;周国栋;朱巧明;;基于最大熵模型的中文指代消解系统实现[J];计算机应用研究;2009年08期
8 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
9 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
10 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期
11 王浩畅;赵铁军;于浩;;生物文本中蛋白质名称的识别[J];计算机应用研究;2007年01期
12 王灿辉;张敏;马少平;;自然语言处理在信息检索中的应用综述[J];中文信息学报;2007年02期
13 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
14 郑强;刘齐军;王正华;朱云平;;生物医学命名实体识别的研究与进展[J];计算机应用研究;2010年03期
15 陈华;梁循;杨健;;面向专题的智能化中文搜索引擎[J];广西师范大学学报(自然科学版);2007年02期
16 孟伟涛;张蕾;张晓孪;李海军;;一种基于位置概率模型的中文人名识别方法[J];计算机应用与软件;2008年04期
17 张素香;高国洋;戚银城;;基于条件随机场的中国人名识别方法[J];郑州大学学报(理学版);2009年02期
18 李斌;;浅谈web信息抽取[J];大众科技;2010年04期
19 伍守芹;李晓昀;;信息抽取技术研究与探讨[J];福建电脑;2010年04期
20 周法国;王映龙;杨炳儒;宋泽锋;;非结构化信息抽取关键技术研究探讨[J];计算机工程与应用;2009年14期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
3 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
5 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
9 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 杨丽鹏;林世平;;基于关联规则和自然语言处理技术的概念间非分类关系的抽取[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
3 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
4 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
5 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
6 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
7 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
8 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
9 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
10 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
2 乔永波;规则与统计相结合的中文命名实体识别[D];山东大学;2007年
3 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
4 万鑫;基于文本分类的命名实体识别系统[D];北京邮电大学;2009年
5 马龙;基于条件随机域模型的中文地名识别的研究[D];大连理工大学;2009年
6 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
7 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
8 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
9 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
10 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978