收藏本站
《厦门大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于条件随机场的中文命名实体识别

向晓雯  
【摘要】: 命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。因此,对命名实体识别的研究具有很大的实用意义。 本文针对现代汉语文本的特点,主要研究以人名、地名和组织名的识别为核心内容的中文命名实体识别问题,我们以一种较新型的统计模型--条件随机场为基本框架,设计并实现了一个中文命名实体识别系统。具体说来,本文的主要内容如下: 本文首先分析了命名实体识别的难点,人名、地名、组织名的相关语言学知识,并对现有的一些命名实体识别方法和中文命名实体识别系统进行了简要介绍。 接着,详细介绍了条件随机场的定义、模型结构、势函数、参数估计和训练方法、概率计算方法等。进一步地,将条件随机场模型应用于中文命名实体识别任务,提出了适合于各类中文命名实体的特征模板,并通过实验进行验证,确定了有效特征。 本文最后,实现了一个基于条件随机场的中文命名实体识别系统,系统采用了层叠结构,以模型训练模块和命名实体识别模块作为系统的核心组成部分,在低层条件随机场模型中进行人名、简单地名以及简单组织名的识别,低层的识别结果传递到高层模型,再进行复合地名与复合组织名的识别。实验结果表明,基于条件随机场的中文命名实体识别系统能够获得较为满意的效果,在对2004年863中文命名实体识别评测语料的开放测试中,系统识别的精确率、召回率和F值分别为82.50%、76.04%和79.14%。
【学位授予单位】:厦门大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.43

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
2 王昊;邓三鸿;;HMM和CRFs在信息抽取应用中的比较研究[J];现代图书情报技术;2007年12期
中国重要会议论文全文数据库 前1条
1 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前2条
1 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
2 罗亮;蛋白质结构预测模型研究[D];华中科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 蓝雁玲;基于多模板HMM的中文命名实体识别[D];华南理工大学;2011年
2 张佳宝;基于条件随机场的中文命名实体识别研究[D];国防科学技术大学;2010年
3 雷春雅;领域实体关系自动抽取研究[D];昆明理工大学;2011年
4 许晓丽;面向信息抽取的中文命名实体识别研究[D];哈尔滨工程大学;2009年
5 邹涛;一种电子产品领域命名实体识别方法研究[D];西安电子科技大学;2010年
6 谭魏璇;命名实体与基本名词短语识别研究[D];苏州大学;2010年
7 冯鲸华;基于N-gram模型的哈萨克语实体名识别方法研究[D];新疆大学;2010年
8 王国印;科技文献语义标注系统研究[D];华中科技大学;2009年
9 韩雪冬;基于CRFs的中文分词算法研究与实现[D];北京邮电大学;2010年
10 路前;基于SVM算法的本体实例分类改进研究[D];杭州电子科技大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
2 张仰森,徐波,曹元大,宗成庆;基于姓氏驱动的中国姓名自动识别方法[J];计算机工程与应用;2003年04期
3 谭红叶,郑家恒,刘开瑛;中国地名自动识别系统的设计与实现[J];计算机工程;2002年08期
4 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
5 郑家恒,张辉;基于HMM的中国组织机构名自动识别[J];计算机应用;2002年11期
6 庄明,老松杨,吴玲达;一种统计和词性相结合的命名实体发现方法[J];计算机应用;2004年01期
7 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
8 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
9 黄德根,杨元生,王省,张艳丽,钟万勰;基于统计方法的中文姓名识别[J];中文信息学报;2001年02期
10 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
中国硕士学位论文全文数据库 前3条
1 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
2 陈晴;基于条件随机场的自动分词技术的研究[D];东北大学;2005年
3 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 王东雷;;基于单纯形算法的优化设计与实现[J];安徽农业科学;2007年36期
2 ;A Preliminary Application of the Differential Evolution Algorithm to Calculate the CNOP[J];Atmospheric and Oceanic Science Letters;2009年06期
3 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
4 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期
5 史永刚;左志宏;;决策树在中文姓名信息提取中的应用研究[J];成都信息工程学院学报;2006年02期
6 窦嵘;加羊吉;黄伟;;统计与规则相结合的藏文人名自动识别研究[J];长春工程学院学报(自然科学版);2010年02期
7 李建平;王慧强;卢爱平;郝洪亮;冯光升;;基于条件随机场的网络安全态势量化感知方法[J];传感器与微系统;2010年10期
8 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
9 柯逍;李绍滋;陈锦秀;;Recognition of Chinese Organization Name Using Co-training[J];Journal of Donghua University(English Edition);2010年02期
10 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 赛依旦·阿不力米提;吐尔根·依布拉音;;基于规则与统计的维吾尔族人名识别研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 马骥;朱慕华;肖桐;朱靖波;;面向移进-归约句法分析器的单模型系统融合算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 何正焱;王厚峰;;商品品牌名称挖掘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 穆穆;王家城;;非线性全局及局部最优扰动和第一类可预报性[A];自然、工业与流动——第六届全国流体力学学术会议论文集[C];2001年
6 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
7 ;Chapter 9 Full Space and Subspace Methods for Large Scale Image Restoration[A];中国科学院地质与地球物理研究所第十届(2010年度)学术年会论文集(中)[C];2011年
8 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
9 王周宏;;符号几何规划的全局解方法[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
10 杨月婷;纪颖;王大力;;改进的有限内存BFGS算法的二次终止性质[A];中国运筹学会第七届学术交流会论文集(下卷)[C];2004年
中国博士学位论文全文数据库 前10条
1 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
2 常旭;低维碳纳米材料和冰纳米管的结构与物性的数值模拟研究[D];南京大学;2010年
3 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
4 王军;数字几何处理若干关键技术研究[D];中国科学技术大学;2011年
5 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
6 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
7 张浩;视频运动人体行为识别与分类方法研究[D];西安电子科技大学;2011年
8 刘浩;大规模非线性方程组和无约束优化方法研究[D];南京航空航天大学;2008年
9 陆晓平;锥模型信赖域算法研究[D];南京航空航天大学;2008年
10 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
3 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
4 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
5 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
6 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
7 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
8 江涛;基于藏文web舆情分析的热点发现算法研究[D];西北民族大学;2010年
9 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
10 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 王涛,李伟生;最短路径子图[J];北方交通大学学报;2004年02期
2 吴娜炯;;格语法在主观题自动阅卷中的应用[J];办公自动化;2010年08期
3 胡俊峰,俞士汶;唐宋诗之计算机辅助深层研究[J];北京大学学报(自然科学版);2001年05期
4 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
5 高文硕;郑伟伟;杨磊;;运动模糊图像复原技术的改进算法[J];中国传媒大学学报(自然科学版);2010年01期
6 来新夏;中国地方志的史料价值及其利用[J];国家图书馆学刊;2005年01期
7 刘刚;中国方志书目与索引述略[J];北京图书馆馆刊;1997年01期
8 周艺华,曹元大,张龙飞,张洪欣;基于二次帧差与窗口最大值的镜头边界检测方法[J];北京理工大学学报;2005年11期
9 陈康;樊孝忠;刘杰;贾可亮;;基于问句语义表征的中文问句相似度计算方法[J];北京理工大学学报;2007年12期
10 张文秀;朱庆华;;领域本体的构建方法研究[J];图书与情报;2011年01期
中国重要会议论文全文数据库 前2条
1 吐尔根·依不拉音;阿里甫·库尔班;阿不都热依木;;基于词典的现代维吾尔语词性自动标注系统的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 潘梅森;医学图像倾斜校正方法与应用研究[D];中南大学;2011年
2 邓爱林;电子商务推荐系统关键技术研究[D];复旦大学;2003年
3 王勇献;蛋白质二级结构预测的模型与方法研究[D];国防科学技术大学;2004年
4 周伟军;拟牛顿法及其收敛性[D];湖南大学;2006年
5 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
6 邱明;语义相似性度量及其在设计管理系统中的应用[D];浙江大学;2006年
7 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
8 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
9 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
10 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
中国硕士学位论文全文数据库 前10条
1 蓝雁玲;基于多模板HMM的中文命名实体识别[D];华南理工大学;2011年
2 张世璞;汽车速度测量方法研究[D];天津理工大学;2011年
3 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
4 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
5 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
6 陈晴;基于条件随机场的自动分词技术的研究[D];东北大学;2005年
7 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
8 任登君;面向机器学习方法的命名实体识别[D];东北大学;2005年
9 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
10 李飒;基于GATE的中文信息抽取系统的开发和实现[D];中国科学院研究生院(文献情报中心);2006年
【二级引证文献】
中国期刊全文数据库 前10条
1 顾佼佼;姜文志;栗飞;胡文萱;;基于条件随机场的实时入侵检测系统框架实现[J];海军航空工程学院学报;2011年05期
2 姜文志;顾佼佼;胡文萱;栗飞;;条件随机场模型的应用研究及改进[J];计算机与现代化;2011年11期
3 谷川;周宏宇;于江德;;融合多特征的中文产品命名实体识别[J];科学技术与工程;2013年31期
4 朱锁玲;包平;;方志类古籍地名识别及分析研究——以《方志物产》(广东分卷)为例[J];图书馆论坛;2012年04期
5 萨蕾;;图书馆古籍数字资源整合研究[J];图书馆;2014年04期
6 谷俊;王昊;;基于领域中文文本的术语抽取方法研究[J];现代图书情报技术;2011年04期
7 顾佼佼;杨志宏;姜文志;胡文萱;;基于条件随机场的中文分词算法改进[J];信息与电子工程;2012年02期
8 朱锁玲;包平;;方志类古籍地名识别及系统构建[J];中国图书馆学报;2011年03期
9 邓三鸿;王昊;秦嘉杭;苏新宁;;基于字角色标注的中文书目关键词标引研究[J];中国图书馆学报;2012年02期
10 努尔布力;解男男;陈飞彦;胡亮;;一种基于条件随机场的入侵检测误报滤除方法[J];中国科技论文;2012年10期
中国博士学位论文全文数据库 前3条
1 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
2 努尔布力;基于数据挖掘的异常检测和多步入侵警报关联方法研究[D];吉林大学;2010年
3 肖奕;地质数据信息服务参考模型及关键技术研究[D];中国地质大学(北京);2013年
中国硕士学位论文全文数据库 前10条
1 朱姗;基于本体的电子产品实体关系抽取研究[D];西安电子科技大学;2011年
2 朱颖;基于HMM的汉语词性标注及其改进[D];太原理工大学;2011年
3 顾铖;图情档术语自动提取研究[D];南京大学;2011年
4 蓝雁玲;基于多模板HMM的中文命名实体识别[D];华南理工大学;2011年
5 邹永强;新闻网页中人物实体关系提取技术研究[D];国防科学技术大学;2011年
6 李阳;英文文本中命名实体识别及关系抽取技术研究[D];华东理工大学;2012年
7 姜俊;基于生物实体语境的语音识别后文本纠错算法研究[D];北京邮电大学;2012年
8 万如;中文机构名识别的研究[D];大连理工大学;2008年
9 徐丹丹;专利文本聚类分析及可视化研究[D];南京理工大学;2009年
10 王程明;入侵检测系统中误报的滤除以及入侵场景识别的研究[D];吉林大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 张建平;语音识别与理解的语言统计模型和搜索算法[J];电子科技导报;1999年09期
2 王国胜,钟义信;支持向量机的若干新进展[J];电子学报;2001年10期
3 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
4 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
5 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
6 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
7 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
8 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
9 谭红叶,郑家恒,刘开瑛;中国地名自动识别系统的设计与实现[J];计算机工程;2002年08期
10 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
中国重要会议论文全文数据库 前1条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期
2 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
3 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
4 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
5 李桂兰;余正涛;毛存礼;郭剑毅;侯波;线岩团;;旅游领域实体答案的抽取[J];广西师范大学学报(自然科学版);2009年01期
6 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
7 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
8 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
9 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
10 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
3 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
5 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 张祝玉;任飞亮;朱靖波;;基于条件随机场的中文命名实体识别特征比较研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
10 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
3 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
5 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
6 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
7 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
8 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
9 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
10 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
中国硕士学位论文全文数据库 前10条
1 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
2 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
3 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
4 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
5 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
6 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
7 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
8 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
9 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
10 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026