收藏本站
《东北大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

面向信息抽取的命名实体识别与模板获取技术研究

吴雪军  
【摘要】:随着信息时代的到来和Internet的发展,“信息爆炸”成为信息处理领域的瓶颈问题。如何快速准确的从互联网上获取信息,成了一个急需解决的问题。信息抽取就是解决这一问题的有力手段之一。 然而信息抽取中的命名实体识别、模板自动获取、共指消解等技术都是急待解决的问题。本文主要对信息抽取中的命名实体识别和模板自动获取两个技术进行了研究,并提出了一套有效的解决方案。在命名实体识别方面本文重点研究了中文人名的识别和机构名的识别。本文在对大规模语料统计的基础上,建立了一个人名识别的知识库,提出了一种统计和规则相结合的人名识别方法。该方法兼顾了准确率和召回率,获得了较好的识别效果。经测试,召回率达到了91.35%,准确率达到了92.23%。在机构名的识别中,本文采用了Co-Training的机器学习方法自动构造机构名用词、机构名前导词、机构名后导词、机构名后缀、机构名用词等造机构名识别知识库,并且充分运用了机构名的组成概率,机构名的用词的同现概率等统计信息,还有机构名的内部组成结构和机构名前导词后导词等信息,提出了一种统计和规则相结合的机构名识别算法。实验系统封闭测试准确率和召回率分别达到了90.2%和81.7%,开放测试准确率和召回率分别达到了88.5%和75.5%。 本文另外一个主要的研究工作是面向信息抽取的模板自动获取技术的研究。本文创新性地提出了一种基于相似计算模板自动获取方法。该方法充分利用了模板中的关键词及其同义词信息,并且提出了一个相似计算模型。首先给定一个种子模板,从大规模的未标注的训练文本中自动学习与该种子模板相关的模板,生成的模板只需要少量的人工处理加工。相对其它算法本文的方法需要的人工干预更少,无须人工标注训练语料,实验结果自动获取的模板开放测试正确率达到
【学位授予单位】:东北大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前3条
1 陈慧炜;刑事案件文本信息抽取研究[D];南京师范大学;2011年
2 林伟贇;基于海量网页的同类命名实体共现统计规律的研究[D];北京工业大学;2011年
3 陈霄;基于支持向量机的中文组织机构名识别[D];上海交通大学;2007年
【参考文献】
中国期刊全文数据库 前10条
1 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
2 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
3 胡睿,张冬茉,杜蓬;基于结点语义关系的信息抽取技术[J];计算机工程;2001年04期
4 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
5 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
6 李芳,盛焕烨,姚天昉;信息检索与信息抽取技术的研究[J];计算机应用研究;2002年01期
7 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
8 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
9 黄德根,杨元生,王省,张艳丽,钟万勰;基于统计方法的中文姓名识别[J];中文信息学报;2001年02期
10 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
【共引文献】
中国期刊全文数据库 前10条
1 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
2 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
5 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
6 岳洪江;;基于共词分析的国际企业研发文本知识挖掘可视化研究[J];商业研究;2008年09期
7 张敏;;基于确定性树自动机技术的信息抽取研究[J];才智;2011年36期
8 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
9 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期
10 史永刚;左志宏;;决策树在中文姓名信息提取中的应用研究[J];成都信息工程学院学报;2006年02期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 赛依旦·阿不力米提;吐尔根·依布拉音;;基于规则与统计的维吾尔族人名识别研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
4 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
5 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
6 王治敏;俞士汶;;人称代词和名词的歧义消解研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
8 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(上)[C];2009年
9 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(中)[C];2009年
10 梁勇;张文;;网络舆情采集系统的设计[A];2011年全国通信安全学术会议论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
3 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
4 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
5 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
6 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
8 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
9 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
10 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 王浩;NetFlow数据处理与异常检测研究[D];哈尔滨工程大学;2010年
5 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
6 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
7 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
8 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
9 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
10 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李晓明;对中国曾有过静态网页数的一种估计[J];北京大学学报(自然科学版);2003年03期
2 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
3 冯元勇;孙乐;张大鲲;李文波;;基于小规模尾字特征的中文命名实体识别研究[J];电子学报;2008年09期
4 霍林;王力;黄俊文;潘英花;;一种结合同义词典和词对共现距离的查询扩展方法[J];广西大学学报(自然科学版);2010年02期
5 张玥杰;徐智婷;薛向阳;;融合多特征的最大熵汉语命名实体识别模型[J];计算机研究与发展;2008年06期
6 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
7 石倩;陈荣;鲁明羽;;基于规则归纳的信息抽取系统实现[J];计算机工程与应用;2008年21期
8 胡雪琴;周昌乐;李绍滋;;中医医案数据库的数据基础研究[J];计算机工程与应用;2008年35期
9 胡文博;都云程;吕学强;施水才;;基于多层条件随机场的中文命名实体识别[J];计算机工程与应用;2009年01期
10 周法国;王映龙;杨炳儒;宋泽锋;;非结构化信息抽取关键技术研究探讨[J];计算机工程与应用;2009年14期
中国重要会议论文全文数据库 前1条
1 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前5条
1 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
2 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
3 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
4 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
5 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
2 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
3 叶娜;面向信息抽取的文本预处理和规则自动学习技术研究[D];东北大学;2005年
4 廖先桃;中文命名实体识别方法研究[D];哈尔滨工业大学;2006年
5 宋爽;共现分析在文本知识挖掘中的应用研究[D];南京理工大学;2006年
6 乔永波;规则与统计相结合的中文命名实体识别[D];山东大学;2007年
7 冯礼;基于事件框架的突发事件信息抽取[D];上海交通大学;2008年
8 徐亚娟;基于公安业务信息的文本挖掘技术研究与实现[D];浙江大学;2008年
9 陈川波;基于半结构化文本信息抽取的简历识别系统[D];北京邮电大学;2008年
10 杨永贵;中文信息抽取关键技术研究与实现[D];北京邮电大学;2008年
【二级引证文献】
中国期刊全文数据库 前1条
1 车万翔;张梅山;刘挺;;基于主动学习的中文依存句法分析[J];中文信息学报;2012年02期
中国重要会议论文全文数据库 前1条
1 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前1条
1 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
中国硕士学位论文全文数据库 前6条
1 吴广财;HMM增量学习算法在中文命名实体识别中的应用研究[D];华南理工大学;2011年
2 刘莎莎;大规模中文机构名称与机构地址自动翻译研究[D];哈尔滨工业大学;2010年
3 陈鑫;基于主动学习的汉语依存树库构建[D];哈尔滨工业大学;2011年
4 冯鲸华;基于N-gram模型的哈萨克语实体名识别方法研究[D];新疆大学;2010年
5 张祝玉;基于条件随机场的中文命名实体识别[D];东北大学;2009年
6 李艳;基于本体的毒品案件信息抽取研究[D];西北大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 穗志方,俞士汶;汉语单句谓语中心词识别知识的获取及应用[J];北京大学学报(自然科学版);1998年Z1期
2 邱广君,张俐,王宝库,朱靖波,邱波;汉语信息处理中的语义关系类型分析[J];东北大学学报;1998年01期
3 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
4 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
5 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
6 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
7 王厚峰;;句类中E块的作用及其判定策略[J];计算机科学;2000年05期
8 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
9 张俊盛,陈舜德,郑萦,刘显仲,柯淑津;多语料库作法之中文姓名辨识[J];中文信息学报;1992年03期
10 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
【相似文献】
中国期刊全文数据库 前10条
1 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期
2 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
3 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
4 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
5 李桂兰;余正涛;毛存礼;郭剑毅;侯波;线岩团;;旅游领域实体答案的抽取[J];广西师范大学学报(自然科学版);2009年01期
6 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
7 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
8 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
9 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
10 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
3 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
5 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 张祝玉;任飞亮;朱靖波;;基于条件随机场的中文命名实体识别特征比较研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
10 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
3 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
5 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
6 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
7 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
8 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
9 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
10 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
2 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
3 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
4 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
5 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
6 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
7 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
8 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
9 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
10 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026