收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计的机器学习的中文命名实体识别

孟迎  
【摘要】:计算语言学所研究的命名实体是指句子中有确定含义的名词。由于命名实体 包含了文本中重要的信息,命名实体识别是信息抽取研究中最有意义的研究内容 之一。另外,文本中频繁出现的命名实体,也是制约分词精度提高的最主要原 因。其识别的好坏将直接影响分词精度以及其后的词性标注和句法分析的精度, 命名实体的自动识别也是汉语分词的关键问题和热点问题。因此研究命名实体自 动识别具有重要的理论意义和实际意义。 在汉语文本处理中通常关注的命名实体可以分为7个类别:“人名”,“地 名”,“机构名”,“日期”,“时间”,“货币”,“百分比”。 目前命名实体识别主要 使用两种方法:基于统计的方法和基于规则的方法。前者利用统计的方法从真实 的文本自动抽取命名实体的构成规律,通过训练的语言模型自动识别命名实体: 后者主要利用语言学家的理性知识,通过语言学家书写的规则识别命名实体。本 文运用统计与规则相结合的方法,一方面利用了较大规模的语料库来训练,统计 命名实体的用字用词规律。另一方面,从已经标注的语料库中提取了大量用于识 别的规则,最终成功的实现了这些命名实体的识别,识别的精度比单纯基于统计 的方法和单纯基于规则的方法都有所提高,具体地,本文的工作主要集中在以下 几个方面: 1. 汉字编码转换。汉字编码是汉语文本进入计算机处理的第一步。汉语由 于存在简体、繁体两种体统,编码比较复杂,编码的格式并不统一。本文研究并 实现了汉语不同编码体统之前的转换,支持当前所有主要汉语编码间的转换并实 现了多种汉字符号集的共存。为后面的文本预处理和命名实体识别提供了基础。 2. 非汉字符号和数字识别。非汉字符号和数字是文本中比较容易识别的部 分,可以在命名实体识别之前进行处理。本文首先对不同格式、不同内容的文本 进行了分句处理,然后对文本中的非汉字符号,如百分比、金额、阿拉伯数字 等,以及汉字数字进行了识别。 3. 基于评价函数的人名地名识别。本文通过对大规模标注语料进行训练, 统计出人名、地名的用字、用词和上下文特性,用基于统计的评价函数对侯选人 基于统计的机器学习的中文命名实体识别 名、地名进行打分,通过运用动态规划方法识别出人名、地名在文本中可能出现 的位置。 4.基于决策树的命名实体识别。引入机器学习的方法,设计了一种基于决 策树的识别模型,结合了命名实体句法组成的基本结构特征和上下文特征,该方 法不依赖于分词系统,可以对分词过后的语料进行处理,同时也对其它命名实体 进行了识别。 5.基于模板匹配的机构名识别。通过真实语料中获取的大量机构名,对机 构名的组成进行了深入的剖析,总结出识别机构名的模板,提出了一种基于模板 匹配的汉语机构名识别方法。 6.介绍集成基于多种策略的命名实体识别技术的两个系统,并分别给出若 干示例,说明命名实体识别在其中的作用。 目前的实验结果表明,本文所采用的统计与规则结合的方法,获得了比较理 想的识别精度,所做的命名实体识别畏盖了命名实体的所有类别,并考虑到了汉 语文本的预处理中存在的问题。所做工作具有一定的研究意义和实用价值。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郑强;刘齐军;王正华;朱云平;;生物医学命名实体识别的研究与进展[J];计算机应用研究;2010年03期
2 王浩畅;赵铁军;于浩;;生物文本中蛋白质名称的识别[J];计算机应用研究;2007年01期
3 叶枫;陈莺莺;周根贵;李昊旻;李莹;;电子病历中命名实体的智能识别[J];中国生物医学工程学报;2011年02期
4 周法国;王映龙;杨炳儒;宋泽锋;;非结构化信息抽取关键技术研究探讨[J];计算机工程与应用;2009年14期
5 乔维;孙茂松;;基于M~3N的中文分词与命名实体识别一体化[J];清华大学学报(自然科学版);2010年05期
6 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
7 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
8 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期
9 张宏生;;使用HMM模型改进规则自动生成的命名实体识别系统性能[J];中小企业管理与科技(下旬刊);2010年01期
10 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
11 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
12 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
13 李桂兰;余正涛;毛存礼;郭剑毅;侯波;线岩团;;旅游领域实体答案的抽取[J];广西师范大学学报(自然科学版);2009年01期
14 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
15 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
16 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
17 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
18 马续补;郭菊娥;;基于GATE的任务信息抽取研究[J];情报杂志;2010年01期
19 韩普;姜杰;;HMM在自然语言处理领域中的应用研究[J];计算机技术与发展;2010年02期
20 张朝胜;郭剑毅;线岩团;余正涛;雷春雅;王海雄;;基于条件随机场的英文产品命名实体识别[J];计算机工程与科学;2010年06期
中国重要会议论文全文数据库 前10条
1 王浩畅;赵铁军;李艳;;生物医学命名实体识别的特征选取与评价[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
3 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
4 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
5 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
6 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
7 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
8 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 谢世朋;胡茂林;;基于局部仿射区域对稀疏纹理分类的研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
10 王浩畅;赵铁军;于浩;;基于文本的生物信息获取[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
3 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
4 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
5 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
6 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
7 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
8 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
9 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
10 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
中国硕士学位论文全文数据库 前10条
1 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
2 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
3 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
4 杨永贵;中文信息抽取关键技术研究与实现[D];北京邮电大学;2008年
5 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
6 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
7 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
8 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
9 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
10 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
中国重要报纸全文数据库 前10条
1 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
2 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
3 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
4 记者 何边;网络化激活人工智能[N];计算机世界;2001年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 傅秋瑛;默默耕耘数十载 自主创新结硕果[N];科技日报;2006年
7 王育昕吴红梅;高水平原创性科技成果大量涌现[N];新华日报;2008年
8 杰逊;微软的第一个搜索技术掌门[N];中国计算机报;2006年
9 冯卫东;科技将这样改变我们的生活[N];科技日报;2008年
10 记者 刘垠;首届中美视觉夏令营开营[N];大众科技报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978