收藏本站
《东北大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

面向信息抽取的命名实体识别与模板获取技术研究

吴雪军  
【摘要】:随着信息时代的到来和Internet的发展,“信息爆炸”成为信息处理领域的瓶颈问题。如何快速准确的从互联网上获取信息,成了一个急需解决的问题。信息抽取就是解决这一问题的有力手段之一。 然而信息抽取中的命名实体识别、模板自动获取、共指消解等技术都是急待解决的问题。本文主要对信息抽取中的命名实体识别和模板自动获取两个技术进行了研究,并提出了一套有效的解决方案。在命名实体识别方面本文重点研究了中文人名的识别和机构名的识别。本文在对大规模语料统计的基础上,建立了一个人名识别的知识库,提出了一种统计和规则相结合的人名识别方法。该方法兼顾了准确率和召回率,获得了较好的识别效果。经测试,召回率达到了91.35%,准确率达到了92.23%。在机构名的识别中,本文采用了Co-Training的机器学习方法自动构造机构名用词、机构名前导词、机构名后导词、机构名后缀、机构名用词等造机构名识别知识库,并且充分运用了机构名的组成概率,机构名的用词的同现概率等统计信息,还有机构名的内部组成结构和机构名前导词后导词等信息,提出了一种统计和规则相结合的机构名识别算法。实验系统封闭测试准确率和召回率分别达到了90.2%和81.7%,开放测试准确率和召回率分别达到了88.5%和75.5%。 本文另外一个主要的研究工作是面向信息抽取的模板自动获取技术的研究。本文创新性地提出了一种基于相似计算模板自动获取方法。该方法充分利用了模板中的关键词及其同义词信息,并且提出了一个相似计算模型。首先给定一个种子模板,从大规模的未标注的训练文本中自动学习与该种子模板相关的模板,生成的模板只需要少量的人工处理加工。相对其它算法本文的方法需要的人工干预更少,无须人工标注训练语料,实验结果自动获取的模板开放测试正确率达到
【关键词】:信息抽取 人名识别 机构名识别 Co-Training 模板自动获取 相似计算
【学位授予单位】:东北大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.1
【目录】:
  • 声明4-5
  • 摘要5-7
  • ABSTRACT7-9
  • 目录9-12
  • 第一章 前言12-20
  • 1.1 信息抽取概述12-13
  • 1.2 本文研究背景与意义13-18
  • 1.3 本文研究工作概述及论文结构18-20
  • 第二章 统计和规则相结合的人名识别20-28
  • 2.1 人名及其前后缀引导词的统计分析20-23
  • 2.1.1 定义21-22
  • 2.1.2 统计分析22-23
  • 2.2 识别方法23-26
  • 2.2.1 人名识别的预处理23-24
  • 2.2.2 算法24-25
  • 2.2.3 统计的方法25-26
  • 2.2.4 规则的方法26
  • 2.2.5 不带姓氏的人名的识别和外国人名的识别26
  • 2.3 实验结果及分析26-27
  • 2.3.1 实验结果26-27
  • 2.3.2 分析27
  • 2.4 本章小结27-28
  • 第三章 机构名的识别与CO-TRAINING机器学习方法的应用28-39
  • 3.1 机构名分类及其特征分析28-30
  • 3.2 采用Co-Training的方法构造机构名知识库30-35
  • 3.2.1 机构名知识库30-32
  • 3.2.2 Co-Training方法32
  • 3.2.3 基于Co-Training的中文机构名资源自动获取方法32-35
  • 3.3 统计和规则相结合的中文机构名识别方法35-37
  • 3.3.1 统计和规则相结合的机构名识别模型35-36
  • 3.3.2 算法描述36-37
  • 3.4 实验结果与分析37-38
  • 3.5 本章小结38-39
  • 第四章 基于相似计算的模板自动获取39-48
  • 4.1 基于相似计算的模板自动获取方法40-45
  • 4.1.1 相关定义40-41
  • 4.1.2 模板的表示与同义词资源的建立41
  • 4.1.3 预处理41-42
  • 4.1.4 获取候选模板42
  • 4.1.5 模板相似计算模型42-43
  • 4.1.6 模板筛选43-44
  • 4.1.7 算法44-45
  • 4.2 实验与分析45-47
  • 4.2.1 实验145
  • 4.2.2 实验245-46
  • 4.2.3 实验346
  • 4.2.4 讨论46-47
  • 4.3 本章小结47-48
  • 第五章 中文信息抽取系统的设计48-57
  • 5.1 信息抽取系统简介48
  • 5.2 中文信息抽取系统的设计48-49
  • 5.3 中文信息抽取系统的实现技术49-56
  • 5.3.1 文本预处理49-52
  • 5.3.2 命名实体识别52-53
  • 5.3.3 模板解析53-56
  • 5.3.4 数据存储56
  • 5.4 本章小结56-57
  • 第六章 结束语57-59
  • 6.1 研究工作总结57
  • 6.2 研究工作的前景57-58
  • 6.3 未来的研究工作58-59
  • 参考文献59-62
  • 致谢62-63
  • 攻读硕士学位期间发表的论文63

【引证文献】
中国硕士学位论文全文数据库 前3条
1 陈慧炜;刑事案件文本信息抽取研究[D];南京师范大学;2011年
2 林伟贇;基于海量网页的同类命名实体共现统计规律的研究[D];北京工业大学;2011年
3 陈霄;基于支持向量机的中文组织机构名识别[D];上海交通大学;2007年
【参考文献】
中国期刊全文数据库 前10条
1 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
2 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
3 胡睿,张冬茉,杜蓬;基于结点语义关系的信息抽取技术[J];计算机工程;2001年04期
4 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
5 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
6 李芳,盛焕烨,姚天昉;信息检索与信息抽取技术的研究[J];计算机应用研究;2002年01期
7 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
8 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
9 黄德根,杨元生,王省,张艳丽,钟万勰;基于统计方法的中文姓名识别[J];中文信息学报;2001年02期
10 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
【共引文献】
中国期刊全文数据库 前10条
1 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
2 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
5 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
6 岳洪江;;基于共词分析的国际企业研发文本知识挖掘可视化研究[J];商业研究;2008年09期
7 张敏;;基于确定性树自动机技术的信息抽取研究[J];才智;2011年36期
8 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
9 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期
10 史永刚;左志宏;;决策树在中文姓名信息提取中的应用研究[J];成都信息工程学院学报;2006年02期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 赛依旦·阿不力米提;吐尔根·依布拉音;;基于规则与统计的维吾尔族人名识别研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
4 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
5 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
6 王治敏;俞士汶;;人称代词和名词的歧义消解研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
8 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(上)[C];2009年
9 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(中)[C];2009年
10 梁勇;张文;;网络舆情采集系统的设计[A];2011年全国通信安全学术会议论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
3 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
4 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
5 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
6 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
8 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
9 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
10 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 王浩;NetFlow数据处理与异常检测研究[D];哈尔滨工程大学;2010年
5 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
6 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
7 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
8 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
9 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
10 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李晓明;对中国曾有过静态网页数的一种估计[J];北京大学学报(自然科学版);2003年03期
2 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
3 冯元勇;孙乐;张大鲲;李文波;;基于小规模尾字特征的中文命名实体识别研究[J];电子学报;2008年09期
4 霍林;王力;黄俊文;潘英花;;一种结合同义词典和词对共现距离的查询扩展方法[J];广西大学学报(自然科学版);2010年02期
5 张玥杰;徐智婷;薛向阳;;融合多特征的最大熵汉语命名实体识别模型[J];计算机研究与发展;2008年06期
6 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
7 石倩;陈荣;鲁明羽;;基于规则归纳的信息抽取系统实现[J];计算机工程与应用;2008年21期
8 胡雪琴;周昌乐;李绍滋;;中医医案数据库的数据基础研究[J];计算机工程与应用;2008年35期
9 胡文博;都云程;吕学强;施水才;;基于多层条件随机场的中文命名实体识别[J];计算机工程与应用;2009年01期
10 周法国;王映龙;杨炳儒;宋泽锋;;非结构化信息抽取关键技术研究探讨[J];计算机工程与应用;2009年14期
中国重要会议论文全文数据库 前1条
1 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前5条
1 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
2 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
3 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
4 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
5 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
2 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
3 叶娜;面向信息抽取的文本预处理和规则自动学习技术研究[D];东北大学;2005年
4 廖先桃;中文命名实体识别方法研究[D];哈尔滨工业大学;2006年
5 宋爽;共现分析在文本知识挖掘中的应用研究[D];南京理工大学;2006年
6 乔永波;规则与统计相结合的中文命名实体识别[D];山东大学;2007年
7 冯礼;基于事件框架的突发事件信息抽取[D];上海交通大学;2008年
8 徐亚娟;基于公安业务信息的文本挖掘技术研究与实现[D];浙江大学;2008年
9 陈川波;基于半结构化文本信息抽取的简历识别系统[D];北京邮电大学;2008年
10 杨永贵;中文信息抽取关键技术研究与实现[D];北京邮电大学;2008年
【二级引证文献】
中国期刊全文数据库 前1条
1 车万翔;张梅山;刘挺;;基于主动学习的中文依存句法分析[J];中文信息学报;2012年02期
中国重要会议论文全文数据库 前1条
1 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前1条
1 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
中国硕士学位论文全文数据库 前5条
1 吴广财;HMM增量学习算法在中文命名实体识别中的应用研究[D];华南理工大学;2011年
2 刘莎莎;大规模中文机构名称与机构地址自动翻译研究[D];哈尔滨工业大学;2010年
3 陈鑫;基于主动学习的汉语依存树库构建[D];哈尔滨工业大学;2011年
4 冯鲸华;基于N-gram模型的哈萨克语实体名识别方法研究[D];新疆大学;2010年
5 张祝玉;基于条件随机场的中文命名实体识别[D];东北大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 穗志方,俞士汶;汉语单句谓语中心词识别知识的获取及应用[J];北京大学学报(自然科学版);1998年Z1期
2 邱广君,张俐,王宝库,朱靖波,邱波;汉语信息处理中的语义关系类型分析[J];东北大学学报;1998年01期
3 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
4 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
5 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
6 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
7 王厚峰;;句类中E块的作用及其判定策略[J];计算机科学;2000年05期
8 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
9 张俊盛,陈舜德,郑萦,刘显仲,柯淑津;多语料库作法之中文姓名辨识[J];中文信息学报;1992年03期
10 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
【相似文献】
中国期刊全文数据库 前10条
1 李向阳;苗壮;肖江;;无结构文本信息抽取综述[J];军事通信技术;2004年02期
2 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
3 张春明;;Web挖掘技术研究[J];廊坊师范学院学报(自然科学版);2008年05期
4 张岩;;基于本体的信息抽取技术研究[J];科技信息(学术研究);2008年36期
5 邹荣;;对垂直搜索技术的分析[J];福建电脑;2009年02期
6 吴芳;郑君;刘金亮;宗克玄;;基于GATE框架的中文信息抽取技术的研究[J];电脑知识与技术;2009年24期
7 于薇;;包装器的自动生成方法介绍[J];才智;2009年28期
8 张涛;胡正华;夏明星;;远洋运输业业务邮件信息抽取系统的设计及实现[J];电脑知识与技术;2010年01期
9 朱青;吕晓旭;;基于机器学习的HTML标题抽取[J];微计算机信息;2010年09期
10 祝伟华;卢熠;刘斌斌;;基于HMM的Web信息抽取算法的研究与应用[J];计算机科学;2010年02期
中国重要会议论文全文数据库 前10条
1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
5 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
7 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
9 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
10 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
5 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
6 董振东;到用户中去[N];中国计算机报;2003年
7 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年
8 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
9 本报记者 余戈;电脑为什么能战胜人脑[N];北京科技报;2004年
10 马志彦;悄然而至的EIP[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
5 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
6 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
7 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
8 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
9 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
10 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 吴雪军;面向信息抽取的命名实体识别与模板获取技术研究[D];东北大学;2005年
2 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
3 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
4 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
5 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
6 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
7 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
8 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
9 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
10 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026