收藏本站
《昆明理工大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计的机器学习的中文命名实体识别

孟迎  
【摘要】:计算语言学所研究的命名实体是指句子中有确定含义的名词。由于命名实体 包含了文本中重要的信息,命名实体识别是信息抽取研究中最有意义的研究内容 之一。另外,文本中频繁出现的命名实体,也是制约分词精度提高的最主要原 因。其识别的好坏将直接影响分词精度以及其后的词性标注和句法分析的精度, 命名实体的自动识别也是汉语分词的关键问题和热点问题。因此研究命名实体自 动识别具有重要的理论意义和实际意义。 在汉语文本处理中通常关注的命名实体可以分为7个类别:“人名”,“地 名”,“机构名”,“日期”,“时间”,“货币”,“百分比”。 目前命名实体识别主要 使用两种方法:基于统计的方法和基于规则的方法。前者利用统计的方法从真实 的文本自动抽取命名实体的构成规律,通过训练的语言模型自动识别命名实体: 后者主要利用语言学家的理性知识,通过语言学家书写的规则识别命名实体。本 文运用统计与规则相结合的方法,一方面利用了较大规模的语料库来训练,统计 命名实体的用字用词规律。另一方面,从已经标注的语料库中提取了大量用于识 别的规则,最终成功的实现了这些命名实体的识别,识别的精度比单纯基于统计 的方法和单纯基于规则的方法都有所提高,具体地,本文的工作主要集中在以下 几个方面: 1. 汉字编码转换。汉字编码是汉语文本进入计算机处理的第一步。汉语由 于存在简体、繁体两种体统,编码比较复杂,编码的格式并不统一。本文研究并 实现了汉语不同编码体统之前的转换,支持当前所有主要汉语编码间的转换并实 现了多种汉字符号集的共存。为后面的文本预处理和命名实体识别提供了基础。 2. 非汉字符号和数字识别。非汉字符号和数字是文本中比较容易识别的部 分,可以在命名实体识别之前进行处理。本文首先对不同格式、不同内容的文本 进行了分句处理,然后对文本中的非汉字符号,如百分比、金额、阿拉伯数字 等,以及汉字数字进行了识别。 3. 基于评价函数的人名地名识别。本文通过对大规模标注语料进行训练, 统计出人名、地名的用字、用词和上下文特性,用基于统计的评价函数对侯选人 基于统计的机器学习的中文命名实体识别 名、地名进行打分,通过运用动态规划方法识别出人名、地名在文本中可能出现 的位置。 4.基于决策树的命名实体识别。引入机器学习的方法,设计了一种基于决 策树的识别模型,结合了命名实体句法组成的基本结构特征和上下文特征,该方 法不依赖于分词系统,可以对分词过后的语料进行处理,同时也对其它命名实体 进行了识别。 5.基于模板匹配的机构名识别。通过真实语料中获取的大量机构名,对机 构名的组成进行了深入的剖析,总结出识别机构名的模板,提出了一种基于模板 匹配的汉语机构名识别方法。 6.介绍集成基于多种策略的命名实体识别技术的两个系统,并分别给出若 干示例,说明命名实体识别在其中的作用。 目前的实验结果表明,本文所采用的统计与规则结合的方法,获得了比较理 想的识别精度,所做的命名实体识别畏盖了命名实体的所有类别,并考虑到了汉 语文本的预处理中存在的问题。所做工作具有一定的研究意义和实用价值。
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP182

【引证文献】
中国重要会议论文全文数据库 前1条
1 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国硕士学位论文全文数据库 前6条
1 陈慧炜;刑事案件文本信息抽取研究[D];南京师范大学;2011年
2 陈霄;基于支持向量机的中文组织机构名识别[D];上海交通大学;2007年
3 王铮;基于CRF的古籍地名自动识别研究[D];广西民族大学;2008年
4 孙建国;领域汉语理解中的智能分词系统的研究与实现及其在产品设计中的应用[D];西安电子科技大学;2009年
5 廖志华;马尔科夫逻辑网络在引文匹配和中文命名实体识别中的应用研究[D];西南大学;2009年
6 王国印;科技文献语义标注系统研究[D];华中科技大学;2009年
【参考文献】
中国期刊全文数据库 前9条
1 赵铁军,方高林,李生;英语介词短语附着决策的研究[J];高技术通讯;2001年03期
2 张俊盛,陈舜德,郑萦,刘显仲,柯淑津;多语料库作法之中文姓名辨识[J];中文信息学报;1992年03期
3 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期
4 万建成;FPY中的同音词智能识别方法[J];中文信息学报;1993年02期
5 赵铁军,毛成江,张民,李生;CEMT—Ⅲ系统中汉语兼类问题的处理[J];中文信息学报;1993年04期
6 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
7 刘芳,赵铁军,于浩,杨沐昀,方高林;基于统计的汉语组块分析[J];中文信息学报;2000年06期
8 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
9 周强,孙茂松,黄昌宁;汉语最长名词短语的自动识别[J];软件学报;2000年02期
【共引文献】
中国期刊全文数据库 前10条
1 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
2 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
3 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
4 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
5 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
6 王斌;;基于聚类的决策树在玉米种质筛选中的应用[J];安徽农业科学;2011年33期
7 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
8 覃爱明,胡昌振,谭惠民;网络攻击检测中的机器学习方法综述[J];安全与环境学报;2001年01期
9 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
10 左吉峰;乔均俭;;ID3算法的合理性证明及实验分析[J];保定学院学报;2008年04期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
3 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
5 刘海霞;钟晓妮;周燕荣;田考聪;;决策树在居民就诊卫生服务利用影响因素研究中的应用[A];重庆市预防医学会2010年论文集[C];2011年
6 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
7 汪云亮;吕久明;刘孝刚;;基于信息熵的辐射源属性分类方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
8 叶中行;陆青;余敏杰;;计算智能在银行信贷信用分类中的应用[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
9 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
10 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
3 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
4 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
5 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
6 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
7 陈进;高光谱图像分类方法研究[D];国防科学技术大学;2010年
8 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
9 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
10 李军;不平衡数据学习的研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
2 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
3 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
4 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
5 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
6 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
7 秦园;基于SPOT5的土地信息提取技术研究[D];大连理工大学;2010年
8 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
9 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
10 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 韩光辉;论中国地名学发展的三个阶段[J];北京社会科学;1995年04期
2 文庭孝;情报检索中汉语语词自动切分研究[J];图书与情报;2001年02期
3 孙广路;王晓龙;郎非;刘远超;;条件随机域模型及在语言分析系统中的应用[J];电机与控制学报;2008年01期
4 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
5 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
6 于鹏;刘大有;欧阳丹彤;;基于遗传与粒子群算法的Markov逻辑网学习研究[J];电子学报;2006年S1期
7 冯元勇;孙乐;张大鲲;李文波;;基于小规模尾字特征的中文命名实体识别研究[J];电子学报;2008年09期
8 蔡勇智;;未登录词识别算法的改进[J];福建电脑;2006年03期
9 卢玉敏;;未登录名词短语识别现状初探[J];广西大学学报(自然科学版);2007年S1期
10 郭志鑫;金海;陈汉华;;SemreX中基于语义的文档参考文献元数据信息提取[J];计算机研究与发展;2006年08期
中国重要会议论文全文数据库 前4条
1 欧阳佑;李素建;;条件随机域模型和实验分析[A];第三届学生计算语言学研讨会论文集[C];2006年
2 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
3 史树敏;王志强;周浪;冯冲;黄河燕;;基于条件随机域的中文命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
4 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前4条
1 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
2 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
3 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
4 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
2 毕丽克孜;现代维吾尔语语料库词频统计实验性研究[D];新疆大学;2003年
3 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
4 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
5 胡业江;中文姓名自动识别技术研究[D];华侨大学;2005年
6 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
7 叶娜;面向信息抽取的文本预处理和规则自动学习技术研究[D];东北大学;2005年
8 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
9 吴雪军;面向信息抽取的命名实体识别与模板获取技术研究[D];东北大学;2005年
10 任登君;面向机器学习方法的命名实体识别[D];东北大学;2005年
【二级引证文献】
中国期刊全文数据库 前4条
1 车万翔;张梅山;刘挺;;基于主动学习的中文依存句法分析[J];中文信息学报;2012年02期
2 谭永兴;罗军勇;尹美娟;;Markov逻辑网及其在信息抽取中的应用[J];计算机工程;2012年18期
3 朱锁玲;包平;;方志类古籍地名识别及分析研究——以《方志物产》(广东分卷)为例[J];图书馆论坛;2012年04期
4 朱锁玲;包平;;方志类古籍地名识别及系统构建[J];中国图书馆学报;2011年03期
中国重要会议论文全文数据库 前1条
1 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前2条
1 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
2 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
中国硕士学位论文全文数据库 前9条
1 吴广财;HMM增量学习算法在中文命名实体识别中的应用研究[D];华南理工大学;2011年
2 刘莎莎;大规模中文机构名称与机构地址自动翻译研究[D];哈尔滨工业大学;2010年
3 陈鑫;基于主动学习的汉语依存树库构建[D];哈尔滨工业大学;2011年
4 闫俊杰;基于HMM的社交网络连接关系研究[D];华东理工大学;2012年
5 冯鲸华;基于N-gram模型的哈萨克语实体名识别方法研究[D];新疆大学;2010年
6 张祝玉;基于条件随机场的中文命名实体识别[D];东北大学;2009年
7 吴阳珺;用户建模和事件检测技术在论坛监测系统中的研究与应用[D];浙江大学;2012年
8 李艳;基于本体的毒品案件信息抽取研究[D];西北大学;2013年
9 蒋超;基于用户聚类和语义词典的微博推荐系统[D];浙江大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 赵军,黄昌宁;结合句法组成模板识别汉语基本名词短语的概率模型[J];计算机研究与发展;1999年11期
2 周强,孙茂松,黄昌宁;汉语句子的组块分析体系[J];计算机学报;1999年11期
3 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
4 孙茂松,黄昌宁;汉语中的兼类词、同形词类组及其处理策略[J];中文信息学报;1989年04期
5 汤建华,徐近霈;利用句法、语义循环递归网络实现汉语拼音→汉字转换[J];中文信息学报;1989年04期
6 仲兴国;多词组一次性拼音·汉字变换[J];中文信息学报;1990年02期
7 张普;信息处理用现代汉语语义分析的理论与方法[J];中文信息学报;1991年03期
8 张俊盛,陈舜德,郑萦,刘显仲,柯淑津;多语料库作法之中文姓名辨识[J];中文信息学报;1992年03期
9 赵铁军,李生,周明;一种生成复杂特征集句法树的汉语句法分析方法与系统实现[J];中文信息学报;1992年04期
10 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
【相似文献】
中国期刊全文数据库 前10条
1 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期
2 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
3 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
4 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
5 李桂兰;余正涛;毛存礼;郭剑毅;侯波;线岩团;;旅游领域实体答案的抽取[J];广西师范大学学报(自然科学版);2009年01期
6 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
7 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
8 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
9 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
10 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
3 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
5 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 张祝玉;任飞亮;朱靖波;;基于条件随机场的中文命名实体识别特征比较研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
10 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
3 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
5 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
6 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
7 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
8 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
9 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
10 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
中国硕士学位论文全文数据库 前10条
1 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
2 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
3 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
4 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
5 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
6 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
7 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
8 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
9 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
10 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026