收藏本站
《大连理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于CRF的中文地名识别研究

廖文平  
【摘要】: 命名实体识别是机器翻译、信息检索、问答系统等的技术基础。中文地名识别是中文命名实体识别的一个难点。本文主要对中文地名识别进行研究,实现了条件随机域(Conditional Random Fields, CRF)与支持向量机(Support Vector Machine, SVM)相结合中文地名识别系统,并重点对条件随机域与规则相结合的中文地名识别进行了研究。 在目前常用的机器学习模型中,CRF模型结合了隐马尔科夫模型和最大熵模型优点,是比较优秀的机器学习模型之一,它可以利用上下文特征获得全局最优的标注结果,适合中文地名识别任务。本文在前人命名实体识别研究的基础上,结合分析中文地名的特点选取了合适的特征,采用递增式学习的策略选择特征模板,优化了机器模型的性能,提高了条件随机场模型的地名识别效果。 对CRF的识别结果的边缘概率进行分析后发现,CRF模型中给出的错误标记与较小的边缘概率有一定的对应关系,用边缘概率可以定位到CRF模型识别结果中的部分错误标记。SVM的识别结果与CRF识别结果有一定的互补性,将SVM识别结果对CRF较小的边缘概·率的标记进行修正,以提高系统的召回率。实验证明,这种混合模型的识别效果优于单纯的CRF。 CRF的错误标注结果中有许多标注与语法规则和语义规则明显不符,这是由于机器模型不能表达语言确定性造成的。规则的方法正好可以弥补机器模型的这一不足。本文通过分析词法和语义结构,对CRF的错误识别结果进行归类,人工添加规则修正CRF识别结果,取得较好的识别结果。 实验证明,本文采用的方法是有效的,对BAKEOFF-3 NER任务的MSRA语料进行开放测试,条件随机域与支持向量机相结合的地名识别系统的召回率、精确率和F-值分别为92.39%、91.33%、91.86%,条件随机域与规则相结合的中文地名识别系统的召回率、精确率和F-值分别为94.67%、92.35%和93.50%。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.43

【相似文献】
中国期刊全文数据库 前10条
1 王亚宏;;消逝电波的背后——从BBC中文广播停播说起[J];中国记者;2011年08期
2 姜文志;顾佼佼;丛林虎;;CRF与规则相结合的军事命名实体识别研究[J];指挥控制与仿真;2011年04期
3 长江边上;;中文简历快速转英文[J];电脑迷;2011年12期
4 雅丽;;网文创作新高峰两岸线上大PK[J];出版参考;2011年21期
5 ;后记[J];制度经济学研究;2011年02期
6 刘晓雪;;中央电视台中文国际频道百集高清巨制《边疆行》播出[J];当代电视;2011年08期
7 ;蓝光新视界[J];家庭影院技术;2011年07期
8 ;林夕全新力作《毫无代价唱最幸福的歌》出版[J];出版参考;2011年19期
9 ;接力社出版《“暮光之城”官方指南》中文简体字版[J];出版参考;2011年21期
10 刘英;;中文姓氏笔划排队 资源管理器搞定[J];电脑爱好者;2011年06期
中国重要会议论文全文数据库 前10条
1 周鸿;吕宾;李蒙;鉏莉;陈鸣艳;陈汉卿;张璐;;CRF及其受体在内脏高敏感信号传导通路中的作用及其与5-HT的关系[A];全国中西医结合发展战略研讨会暨中国中西医结合学会成立三十周年纪念会论文汇编[C];2011年
2 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张伟男;张宇;刘挺;;基于中心理论的中文对话省略恢复研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 王佳;;对中文屋思想实验四个主要版本的考察[A];第三届全国科技哲学暨交叉学科研究生论坛文集[C];2010年
5 李春雨;张艺;孟宪丽;;基于代谢组学技术的大黄治疗CRF的作用机制研究[A];第十三届中国科协年会生物医药博士论坛论文集[C];2011年
6 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
7 吴法洲;苏昊;周明;李春平;;利用英文搜索日志建立中文新词同义词词表[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
8 计峰;邱锡鹏;黄萱菁;;中文不确定性句子的识别研究[A];第六届全国信息检索学术会议论文集[C];2010年
9 周小甲;李昊旻;吕旭东;段会龙;;中文病历文本中的时间表达分类与识别[A];中国生物医学工程学会成立30周年纪念大会暨2010中国生物医学工程学会学术大会青年优秀论文[C];2010年
10 王明;魏连波;汪南海;;人参养荣汤对腺嘌呤致CRF营养不良模型大鼠营养状态的影响[A];第十一届全国中西医结合肾脏病学术会议论文汇编[C];2010年
中国重要报纸全文数据库 前10条
1 记者 胡光耀;全美第二届中文大会开幕[N];人民日报海外版;2009年
2 泰国南美有限公司副总经理 陈美琪 整理 本报实习生 杨冰;泰国新一代学中文热潮到来[N];中国新闻出版报;2009年
3 记者 王建刚 吴志强;美国 中文电视举办20周年台庆[N];人民日报海外版;2010年
4 晓路;美国“中文热”遭遇教师荒[N];中国文化报;2011年
5 本报记者 韩言铭;中文在线 全媒体版权运营[N];中国经营报;2011年
6 本报驻外记者 吴乐珺 张旸 本报记者 韩硕 崔悦 姜波;商务中文考试酝酿改革[N];人民日报;2011年
7 记者 古隆媛;中文媒体共携手 发挥更大影响力[N];中国新闻出版报;2009年
8 记者 向杰;网络化中文办公平台获“核高基”立项[N];科技日报;2011年
9 本报记者 任涛;李裕里:中文给了我未来[N];人民日报海外版;2010年
10 汪融;美国人到底有多爱中文[N];中国文化报;2011年
中国博士学位论文全文数据库 前10条
1 侯香华;Dynepo的肾脏保护作用研究和中国东部地区CRF患者血清铝水平调查分析[D];山东大学;2009年
2 孟庆元;糖皮质激素对前额皮层促肾上腺皮质激素释放因子的调控[D];中国科学技术大学;2010年
3 蔡莉;视黄酸信号调控下丘脑室旁核促肾上腺皮质激素释放因子及其在抑郁症发病中的可能作用[D];中国科学技术大学;2011年
4 关晓伟;ERK1/2及CRF系统在可卡因成瘾过程中的作用及其机制研究[D];南京医科大学;2009年
5 胡旭光;康泰胶囊对内脏高敏感性模型大鼠的治疗作用及机制[D];广州中医药大学;2008年
6 傅博;健脾益肾方治疗慢性肾功能衰竭肾纤维化实验和临床研究[D];广州中医药大学;2008年
7 朱麟;中国人说英语的节奏模式及在教学中的运用[D];中央民族大学;2007年
8 高良才;神经肽在动物抑郁症发生发展中的作用研究[D];华东师范大学;2009年
9 李世奇;面向文景转换的中文浅层语义分析方法研究[D];哈尔滨工业大学;2011年
10 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
中国硕士学位论文全文数据库 前10条
1 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
2 陈成海;评塞尔的中文屋论证[D];浙江大学;2010年
3 冯岩;促肾上腺皮质激素释放因子(CRF)对人胶质瘤细胞株U87CRFR1表达的比较研究[D];河北医科大学;2012年
4 钟冬祥;快动眼睡眠剥夺对抑郁模型大鼠延髓、海马及下丘脑中CRF及受体mRNA表达的影响[D];华中科技大学;2011年
5 刘冬平;面向中文歌词的音乐情感分类研究[D];广东工业大学;2011年
6 姜斌;肾衰养真颗粒对CRF营养不良大鼠的药效学研究[D];南方医科大学;2010年
7 王丽娜;中枢CRF受体对可卡因戒断及外周CRF受体对前列腺癌细胞凋亡的影响[D];南京医科大学;2011年
8 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
9 张山山;中文XML压缩技术研究[D];华中科技大学;2011年
10 汤明达;基于近邻传播算法的中文文本聚类的研究[D];广西师范大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026