收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文命名实体识别的研究

丁卓冶  
【摘要】: 中文命名实体识别是自然语言处理的基础任务,是机器翻译、信息检索、问答系统等技术的基础,研究并实现有效的中文命名实体识别方法是本文的主要研究内容。 本文主要采用基于机器学习的方法完成命名实体识别任务。 首先,通过分析中文人名、地名的特点,以抽取合适的特征;定义科学的特征模板,并建立了一种基于条件随机场(Conditional Random Fields,CRFs)的中文命名实体识别模型。通过对CRFs的识别结果进行分析,发现CRFs模型中给出的错误标记大都拥有较小的边缘概率,用边缘概率定位到CRFs模型中可能的错误标记,并分别引入了概率统计方法和边界模板的方法对这部分标记进行修正,以优化系统的识别效果。实验证明,这两种混合模型的识别效果明显好于单纯的CRFs方法。 另外,提出一种基于Max-Margin Markov Networks模型的地名识别方法。Max-MarginMarkov Networks模型将Max-Margin的思想应用于马尔可夫网络。它综合了支持向量机(Support Vector Machine,SVM)模型和无向图模型的优点。通过地名识别的实验证明,在相同的语料、特征和特征模板的条件下,基于Max-Margin Markov Networks模型的识别效果好于CRFs和SVM模型。 最后,提出了一种基于概率特征函数的CRFs模型。CRFs模型是目前最优秀的机器学习模型之一,它定义的特征函数全部是0、1二值形式的,导致丢失一些有用的概率信息。本文在定义特征函数时融入了概率信息,以强化模型的学习能力,然后基于概率特征函数构造条件随机场。通过命名实体识别的实验证明,在相同的条件下,基于概率特征函数的CRFs比传统的CRFs具有更好的机器学习能力。 本文的研究成果可应用于其它自然语言处理任务中。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
2 吕婷;姜友好;;文本挖掘在生物医学领域中的应用及其系统工具[J];中华医学图书情报杂志;2010年04期
3 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
4 倪茂树;赵晶;林鸿飞;;生物医学文本分类方法比较研究[J];计算机工程与应用;2007年12期
5 帅训波;马书南;;基于决策树的现代汉语中任职关系抽取研究[J];昆明理工大学学报(理工版);2009年04期
6 李世奇;赵铁军;李晗静;刘鹏远;刘水;;基于特征组合的中文语义角色标注[J];软件学报;2011年02期
7 宇缨;;支持向量机及其在自然语言处理中的应用[J];东莞理工学院学报;2007年01期
8 刘禹孜,何中市;一种基于SVM和规则消除组合型歧义的算法[J];重庆大学学报(自然科学版);2005年10期
9 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
10 姜维;关毅;王晓龙;刘秉权;;基于支持向量机的音字转换模型[J];中文信息学报;2007年02期
11 韩普;姜杰;;HMM在自然语言处理领域中的应用研究[J];计算机技术与发展;2010年02期
12 陈敏杰;;问答系统中问题分析模块的实现[J];经营管理者;2009年13期
13 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
14 李艳翠;杨勇;周国栋;朱巧明;;基于支持向量机的英语名词短语指代消解[J];计算机工程;2009年03期
15 胡乃全;孔芳;王海东;周国栋;朱巧明;;基于最大熵模型的中文指代消解系统实现[J];计算机应用研究;2009年08期
16 林煜明;李优;;基于SVM的句子组块识别[J];山东大学学报(理学版);2006年03期
17 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
18 杨经;林世平;;基于SVM的文本词句情感分析[J];计算机应用与软件;2011年09期
19 王浩畅;赵铁军;于浩;;生物文本中蛋白质名称的识别[J];计算机应用研究;2007年01期
20 邹宏梅;王挺;;SVM和基于转换的错误驱动学习相结合的汉语组块识别[J];计算机工程与科学;2007年04期
中国重要会议论文全文数据库 前10条
1 符敏;程德福;张广峰;;基于支持向量回归的声音转换[A];第八届全国人机语音通讯学术会议论文集[C];2005年
2 王浩畅;赵铁军;刘延力;于浩;;生物医学文本中命名实体识别的智能化方法[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
3 黄浩炜;王挺;陈火旺;;SVM与错误驱动学习相结合的生物实体识别方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 林杰华;张斌;李冬森;宋华茂;余志强;王浩;;支持向量机在电力客户信用评级中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
5 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
6 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
7 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
8 涂冬成;薛龙;刘木华;赵进辉;沈杰;吁芳;;基于支持向量机的鹅肉肉色客观评定研究[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
9 杨凌;刘玉树;;基于支持向量机的坦克识别算法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
10 师旭超;巴松涛;;基于支持向量机方法的深基坑变形预测[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(上册)[C];2004年
中国博士学位论文全文数据库 前10条
1 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
2 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
3 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
4 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
5 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
6 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
7 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
8 朱燕飞;锌钡白回转窑煅烧过程智能建模研究[D];华南理工大学;2005年
9 田英杰;支持向量回归机及其应用研究[D];中国农业大学;2005年
10 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
中国硕士学位论文全文数据库 前10条
1 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
2 乔永波;规则与统计相结合的中文命名实体识别[D];山东大学;2007年
3 杨辉;汉语新词语发现及其词性标注方法研究[D];复旦大学;2008年
4 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
5 万鑫;基于文本分类的命名实体识别系统[D];北京邮电大学;2009年
6 张岩;基于语义角色的句子语义倾向判断[D];北京邮电大学;2008年
7 马龙;基于条件随机域模型的中文地名识别的研究[D];大连理工大学;2009年
8 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
9 刘艳伟;支持向量机方法在感潮河段洪峰水位预报中的应用[D];浙江大学;2010年
10 杨镭;支持向量机算法设计及在高分辨雷达目标识别中的应用[D];国防科学技术大学;2010年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978