收藏本站
《大连理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于条件随机场模型的中文人名识别的研究

王东亮  
【摘要】: 中文人名识别是中文命名实体识别(NER)的一个重点工作,广泛应用于信息检索、信息抽取、机器翻译等领域。中文人名在命名实体中占有很大的比重,并且由于中文人名结构的复杂性和形式的多样性,中文人名识别一直是中文信息处理领域的一个难点。 本文在前人工作的基础上,采用条件随机场(Conditional Random Fields, CRFs)模型,并利用篇章信息,来完成中文人名识别的任务。本文的主要工作和特点介绍如下: (1)详细介绍了条件随机场模型,并讨论了本模型相比其他机器学习模型的特点。CRFs模型是当前比较优秀的条件概率模型,它既克服了生成模型的独立性假设,同时避免了有向图模型的标记偏执问题,并具有这两种模型的优点。 (2)由于中文人名可能在同一篇语料中多次出现,但是同一人名在不同的位置具有不同的上下文环境,因此对于上下文信息比较充足的人名很容易通过模型进行召回,但是对于上下文信息不足的人名可能被漏识别。本文基于篇章信息,将通过CRFs模型识别出来的人名提取出来作为人名词典,进行第二次人名识别,进一步提高中文人名识别的效率。 本文的研究成果同样适用于中文地名和机构名等其他命名实体的识别,实验证明本文提出的方法是有效的。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.43

【参考文献】
中国期刊全文数据库 前10条
1 王明会;自然语言处理的研究与进展[J];地质科技管理;1995年05期
2 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
3 张玥杰;徐智婷;薛向阳;;融合多特征的最大熵汉语命名实体识别模型[J];计算机研究与发展;2008年06期
4 胡春静,韩兆强;基于隐马尔可夫模型(HMM)的词性标注的应用研究[J];计算机工程与应用;2002年06期
5 贾宁;张全;;基于最大熵模型和规则的中文姓名识别[J];计算机工程与应用;2007年35期
6 张素香;张素贤;王小捷;;一种人名识别方法的研究[J];计算机工程与应用;2008年21期
7 向晓雯,史晓东,曾华琳;一个统计与规则相结合的中文命名实体识别系统[J];计算机应用;2005年10期
8 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
9 黄德根,杨元生,王省,张艳丽,钟万勰;基于统计方法的中文姓名识别[J];中文信息学报;2001年02期
10 王振华,孔祥龙,陆汝占,刘绍明;结合决策树方法的中文姓名识别[J];中文信息学报;2004年06期
中国硕士学位论文全文数据库 前2条
1 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
2 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 王东雷;;基于单纯形算法的优化设计与实现[J];安徽农业科学;2007年36期
2 许正荣;贾贤龙;杨敦毅;;循环冗余校验(CRC)编码器设计及FPGA实现[J];安徽农业科学;2010年08期
3 陈寅杰;石瑞;曹建军;郑熠;;基于LabVIEW的数字信号生成在渔船通导设备测试中的应用[J];现代农业科技;2011年21期
4 ;A Preliminary Application of the Differential Evolution Algorithm to Calculate the CNOP[J];Atmospheric and Oceanic Science Letters;2009年06期
5 魏长宏;赵宇;;《金山词霸2006》屏幕取词问题研究[J];鞍山师范学院学报;2007年04期
6 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
7 吴华;徐甜;;机器翻译中源语分析的研究与探讨[J];安阳工学院学报;2006年02期
8 吴晓军;沈向辉;曾志斌;;一种改进的RS编码算法及其FPGA实现[J];中国传媒大学学报(自然科学版);2012年01期
9 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
10 吕琳,周世斌,刘玉树;一种高性能英文词性标注器的设计与实现[J];北京理工大学学报;2005年10期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 赛依旦·阿不力米提;吐尔根·依布拉音;;基于规则与统计的维吾尔族人名识别研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 马骥;朱慕华;肖桐;朱靖波;;面向移进-归约句法分析器的单模型系统融合算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 何正焱;王厚峰;;商品品牌名称挖掘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 穆穆;王家城;;非线性全局及局部最优扰动和第一类可预报性[A];自然、工业与流动——第六届全国流体力学学术会议论文集[C];2001年
6 邓冰;林宗坚;彭晓东;;遥感图像信息度量的原理与方法[A];《测绘通报》测绘科学前沿技术论坛摘要集[C];2008年
7 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
8 ;Chapter 9 Full Space and Subspace Methods for Large Scale Image Restoration[A];中国科学院地质与地球物理研究所第十届(2010年度)学术年会论文集(中)[C];2011年
9 殷业;王清;李夏;;基于Globish的受限域英汉机器翻译系统研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
10 孟凤莉;马丕明;;WiMAX标准中LDPC码最小距离的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
2 常旭;低维碳纳米材料和冰纳米管的结构与物性的数值模拟研究[D];南京大学;2010年
3 邓冰;遥感影像信息度量方法研究[D];武汉大学;2009年
4 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
5 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
6 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
7 王军;数字几何处理若干关键技术研究[D];中国科学技术大学;2011年
8 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
9 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
10 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
3 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
4 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
5 李魁星;基于信息熵遗传算法的舰船导航路径规划技术研究[D];哈尔滨工程大学;2010年
6 张瑶;英汉机器翻译中的英语动词汉译研究[D];大连理工大学;2010年
7 赵莲;大规模中英可比较语料库构建[D];大连理工大学;2010年
8 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
9 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
10 苏新明;Turbo码译码算法与交织器的研究[D];辽宁工程技术大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
3 李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期
4 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
5 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
6 张仰森,徐波,曹元大;自然语言处理中的语言模型及其比较研究[J];广西师范大学学报(自然科学版);2003年01期
7 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
8 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
9 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
10 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
中国重要会议论文全文数据库 前1条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国硕士学位论文全文数据库 前2条
1 毛婷婷;中文专有名词识别的研究[D];大连理工大学;2006年
2 朱江涛;中文信息处理中命名实体识别问题的研究[D];沈阳航空工业学院;2006年
【相似文献】
中国期刊全文数据库 前10条
1 冯伟;利用数据库处理CAD应用中的中文及表格[J];职大学报;1995年01期
2 明冬萍,骆剑承,周成虎,王晶;基于简化随机场模型的高分辨率遥感影像分割方法[J];计算机工程与应用;2004年26期
3 马桂琴;中文搜索引擎研究[J];兰州商学院学报;2001年S2期
4 陈明;网络的安全维护与故障排除[J];微型电脑应用;2001年03期
5 端木艺;网上中文学位论文数据库简评[J];现代情报;2003年01期
6 沈殊璇;Linux平台中文化的实现方案[J];微处理机;2003年01期
7 霍然;普通高校实施中文素质教育探索[J];杭州电子工业学院学报;2004年02期
8 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
9 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
10 王知津,孙美丽,蒋伟伟;网上中文社会科学信息资源利用研究——在校与非在校用户对比分析[J];晋图学刊;2003年04期
中国重要会议论文全文数据库 前10条
1 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 张伟男;张宇;刘挺;;基于中心理论的中文对话省略恢复研究[A];第六届全国信息检索学术会议论文集[C];2010年
3 王佳;;对中文屋思想实验四个主要版本的考察[A];第三届全国科技哲学暨交叉学科研究生论坛文集[C];2010年
4 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
5 吴法洲;苏昊;周明;李春平;;利用英文搜索日志建立中文新词同义词词表[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
6 计峰;邱锡鹏;黄萱菁;;中文不确定性句子的识别研究[A];第六届全国信息检索学术会议论文集[C];2010年
7 周小甲;李昊旻;吕旭东;段会龙;;中文病历文本中的时间表达分类与识别[A];中国生物医学工程学会成立30周年纪念大会暨2010中国生物医学工程学会学术大会青年优秀论文[C];2010年
8 张小衡;;一个支持人工校对的中文简繁体转换工具[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 崔磊;王穗苹;;副中央凹-中央凹效应的中文眼动研究[A];第十一届全国心理学学术会议论文摘要集[C];2007年
10 韩宪军;武清玺;杨明珠;;岩石地基弹性模量随机场建模方法研究[A];2007重大水利水电科技前沿院士论坛暨首届中国水利博士论坛论文集[C];2007年
中国重要报纸全文数据库 前10条
1 张海桐;用中文把歌剧唱出来[N];人民日报海外版;2011年
2 张伟城;中文热持续升温[N];人民日报海外版;2009年
3 朱珉迕;说中文和“拌洋荤”[N];解放日报;2009年
4 本报驻巴黎记者 姚立;“中文热”在法升温速度令人始料不及[N];光明日报;2010年
5 刘菲;关注特殊的学中文群体[N];人民日报海外版;2011年
6 记者钟哲 通讯员李世举;合编首部“民族版”高校中文教材[N];中国社会科学报;2010年
7 ;“汉语桥”世界大学生中文比赛举行[N];人民日报;2011年
8 晓阳;《选报》落户起点中文网[N];中华新闻报;2009年
9 ;中文在线 “九死一生”的出版经历[N];电脑报;2010年
10 本报记者 原小瑛;欧特克发布中文工厂设计软件[N];中国化工报;2010年
中国博士学位论文全文数据库 前10条
1 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
2 钱线;快速精确的结构化机器学习方法研究[D];复旦大学;2010年
3 邵晓鹏;红外纹理生成方法研究[D];西安电子科技大学;2005年
4 李方涛;基于产品评论的情感分析研究[D];清华大学;2011年
5 禇一平;基于条件随机场模型的视频目标分割算法研究[D];浙江大学;2007年
6 朱红霞;随机场理论在地基可靠度分析中的应用研究[D];天津大学;2008年
7 朱麟;中国人说英语的节奏模式及在教学中的运用[D];中央民族大学;2007年
8 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
9 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年
10 李世奇;面向文景转换的中文浅层语义分析方法研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
2 陈成海;评塞尔的中文屋论证[D];浙江大学;2010年
3 侯立斌;中文事件抽取与缺失角色填充的研究[D];苏州大学;2012年
4 刘冬平;面向中文歌词的音乐情感分类研究[D];广东工业大学;2011年
5 李丽娜;中文专家检索关键技术研究[D];昆明理工大学;2011年
6 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
7 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年
8 汤明达;基于近邻传播算法的中文文本聚类的研究[D];广西师范大学;2012年
9 张硕果;基于条件随机场模型的文本分类研究[D];重庆大学;2010年
10 张山山;中文XML压缩技术研究[D];华中科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026