收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计的机器学习的中文命名实体识别

孟迎  
【摘要】:计算语言学所研究的命名实体是指句子中有确定含义的名词。由于命名实体 包含了文本中重要的信息,命名实体识别是信息抽取研究中最有意义的研究内容 之一。另外,文本中频繁出现的命名实体,也是制约分词精度提高的最主要原 因。其识别的好坏将直接影响分词精度以及其后的词性标注和句法分析的精度, 命名实体的自动识别也是汉语分词的关键问题和热点问题。因此研究命名实体自 动识别具有重要的理论意义和实际意义。 在汉语文本处理中通常关注的命名实体可以分为7个类别:“人名”,“地 名”,“机构名”,“日期”,“时间”,“货币”,“百分比”。 目前命名实体识别主要 使用两种方法:基于统计的方法和基于规则的方法。前者利用统计的方法从真实 的文本自动抽取命名实体的构成规律,通过训练的语言模型自动识别命名实体: 后者主要利用语言学家的理性知识,通过语言学家书写的规则识别命名实体。本 文运用统计与规则相结合的方法,一方面利用了较大规模的语料库来训练,统计 命名实体的用字用词规律。另一方面,从已经标注的语料库中提取了大量用于识 别的规则,最终成功的实现了这些命名实体的识别,识别的精度比单纯基于统计 的方法和单纯基于规则的方法都有所提高,具体地,本文的工作主要集中在以下 几个方面: 1. 汉字编码转换。汉字编码是汉语文本进入计算机处理的第一步。汉语由 于存在简体、繁体两种体统,编码比较复杂,编码的格式并不统一。本文研究并 实现了汉语不同编码体统之前的转换,支持当前所有主要汉语编码间的转换并实 现了多种汉字符号集的共存。为后面的文本预处理和命名实体识别提供了基础。 2. 非汉字符号和数字识别。非汉字符号和数字是文本中比较容易识别的部 分,可以在命名实体识别之前进行处理。本文首先对不同格式、不同内容的文本 进行了分句处理,然后对文本中的非汉字符号,如百分比、金额、阿拉伯数字 等,以及汉字数字进行了识别。 3. 基于评价函数的人名地名识别。本文通过对大规模标注语料进行训练, 统计出人名、地名的用字、用词和上下文特性,用基于统计的评价函数对侯选人 基于统计的机器学习的中文命名实体识别 名、地名进行打分,通过运用动态规划方法识别出人名、地名在文本中可能出现 的位置。 4.基于决策树的命名实体识别。引入机器学习的方法,设计了一种基于决 策树的识别模型,结合了命名实体句法组成的基本结构特征和上下文特征,该方 法不依赖于分词系统,可以对分词过后的语料进行处理,同时也对其它命名实体 进行了识别。 5.基于模板匹配的机构名识别。通过真实语料中获取的大量机构名,对机 构名的组成进行了深入的剖析,总结出识别机构名的模板,提出了一种基于模板 匹配的汉语机构名识别方法。 6.介绍集成基于多种策略的命名实体识别技术的两个系统,并分别给出若 干示例,说明命名实体识别在其中的作用。 目前的实验结果表明,本文所采用的统计与规则结合的方法,获得了比较理 想的识别精度,所做的命名实体识别畏盖了命名实体的所有类别,并考虑到了汉 语文本的预处理中存在的问题。所做工作具有一定的研究意义和实用价值。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期
2 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
3 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
4 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
5 李桂兰;余正涛;毛存礼;郭剑毅;侯波;线岩团;;旅游领域实体答案的抽取[J];广西师范大学学报(自然科学版);2009年01期
6 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
7 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
8 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
9 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
10 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
11 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
12 马续补;郭菊娥;;基于GATE的任务信息抽取研究[J];情报杂志;2010年01期
13 韩普;姜杰;;HMM在自然语言处理领域中的应用研究[J];计算机技术与发展;2010年02期
14 张朝胜;郭剑毅;线岩团;余正涛;雷春雅;王海雄;;基于条件随机场的英文产品命名实体识别[J];计算机工程与科学;2010年06期
15 邹涛;;一种电子产品领域命名实体识别方法研究[J];情报学报;2010年06期
16 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期
17 郑强;刘齐军;王正华;朱云平;;生物医学命名实体识别的研究与进展[J];计算机应用研究;2010年03期
18 蔡华利;刘鲁;李红;;基于规则推理的突发事件发生地点识别研究[J];情报学报;2011年02期
19 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
20 王浩畅;赵铁军;于浩;;生物文本中蛋白质名称的识别[J];计算机应用研究;2007年01期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
3 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
5 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 张祝玉;任飞亮;朱靖波;;基于条件随机场的中文命名实体识别特征比较研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
10 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
3 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
5 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
6 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
7 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
8 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
9 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
10 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
中国硕士学位论文全文数据库 前10条
1 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
2 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
3 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
4 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
5 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
6 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
7 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
8 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
9 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
10 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978