收藏本站
《中国矿业大学(北京)》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

基于认知的非结构化信息抽取关键技术与算法研究

穆一夫  
【摘要】:近年来,随着计算机技术的迅猛发展,信息抽取技术已经成为自然语言处理领域的热点研究问题之一,并且机器学习、文本挖掘和图算法等多个方面的技术也在信息抽取中得到了应用,然而信息抽取算法的性能仍然不能达到用户满意的标准,还有许多问题有待进一步研究。本文在分析现有文本表示模型不足的基础上,运用图模型、条件随机场模型、机器学习的相关理论来实现信息抽取算法的设计。为了提高信息抽取的性能,分别提出了基于规则的命名实体识别算法、改进的基于规则的人名识别与抽取算法、基于规则与条件随机场相结合的命名实体识别算法、基于规则的组织机构名称简称生成与识别算法、基于文本分类的人物关系识别与抽取算法。并且通过实验验证了所提出算法的有效性和高效性,为信息抽取技术的进一步发展提供了更为广阔的空间。
【学位授予单位】:中国矿业大学(北京)
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP391.1

免费申请
【引证文献】
中国硕士学位论文全文数据库 前1条
1 樊中奎;地质资料全文聚类分析及信息提取的研究[D];中国地质大学(北京);2014年
【参考文献】
中国期刊全文数据库 前10条
1 程泽凯,陆小艺;文本分类中的特征选择方法[J];安徽工业大学学报(自然科学版);2004年03期
2 申光;情景语义学概述[J];河南社会科学;2004年05期
3 彭述初;;机器翻译学科发展综述[J];华中科技大学学报(社会科学版);2006年02期
4 冯志伟;;当前自然语言处理发展的几个特点[J];暨南大学华文学院学报;2006年01期
5 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
6 陈雪天,李荣陆;使用最大熵模型进行文本分类[J];计算机工程与应用;2004年35期
7 周法国;王映龙;杨炳儒;宋泽锋;;非结构化信息抽取关键技术研究探讨[J];计算机工程与应用;2009年14期
8 肖人彬,王磊;人工免疫系统:原理、模型、分析及展望[J];计算机学报;2002年12期
9 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
10 王丹;樊兴华;;面向短文本的命名实体识别[J];计算机应用;2009年01期
中国博士学位论文全文数据库 前1条
1 詹卫东;面向中文信息处理的现代汉语短语结构规则研究[D];北京大学;1999年
中国硕士学位论文全文数据库 前3条
1 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
2 万如;中文机构名识别的研究[D];大连理工大学;2008年
3 张祝玉;基于条件随机场的中文命名实体识别[D];东北大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 丁俊苗;;不足与需要:论标点符号的语法功能[J];安徽大学学报(哲学社会科学版);2008年04期
2 袁健惠;;先秦汉语受事前置句类型及其句法语义分析[J];安徽大学学报(哲学社会科学版);2010年02期
3 杨增宏;;甲骨文会意字的象似性[J];安徽大学学报(哲学社会科学版);2010年05期
4 张德岁;;“V+Num+是+Num”构式初探[J];安徽大学学报(哲学社会科学版);2011年02期
5 尹峰,邓小鹏,许四毛;生物免疫机理在计算机安全领域的应用与发展[J];安徽电子信息职业技术学院学报;2004年Z1期
6 胡德明;;从反问句生成机制看“不是”的性质和语义[J];安徽师范大学学报(人文社会科学版);2008年03期
7 张孝荣;;汉语话题结构及其优选分析[J];安徽师范大学学报(人文社会科学版);2009年03期
8 熊仲儒;;外围格的论元地位[J];安徽师范大学学报(人文社会科学版);2009年05期
9 郑维;;英汉双宾语结构的对比分析[J];安徽工业大学学报(社会科学版);2008年01期
10 胡寒婕;;用“标记理论”来解释中国学生英语口语存在的问题[J];安徽文学(下半月);2008年05期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;First-Order Linear Linguistic Control System and Its Stability[A];第二十九届中国控制会议论文集[C];2010年
3 龚涛;杜常兴;;免疫计算研究的进展[A];中国自动化学会控制理论专业委员会A卷[C];2011年
4 莫红;王飞跃;;动态模糊规则下的语言动力系统研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
5 王映斐;程启明;程尹曼;胡晓青;;基于模糊控制器的异步电动机直接转矩控制[A];中国自动化学会控制理论专业委员会C卷[C];2011年
6 赛依旦·阿不力米提;吐尔根·依布拉音;;基于规则与统计的维吾尔族人名识别研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 王荀;李素建;宋涛;姜伯平;;服务于内容侧面发现的框架识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 刘建毅;王菁华;王枞;;领域语义语法的统计生成[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
9 王仁强;;汉英词典词类标注与译义的对称性研究——兼评《ABC 汉英大词典》的词类标注与译义[A];中国辞书学会双语词典专业委员会第6届年会暨学术研讨会论文专辑[C];2005年
10 李宏英;郭静;;任务反馈指向和启动效应对前瞻记忆的影响[A];经济发展方式转变与自主创新——第十二届中国科学技术协会年会(第三卷)[C];2010年
中国博士学位论文全文数据库 前10条
1 邱闯仙;现代汉语插入语研究[D];南开大学;2010年
2 陈佳;论英汉运动事件表达中“路径”单位的“空间界态”概念语义及其句法—语义接口功能[D];上海外国语大学;2010年
3 唐树华;有些隐喻为什么不可能[D];上海外国语大学;2010年
4 韩巍峰;主题与主题标记结构的语序类型学研究[D];上海外国语大学;2010年
5 吴善子;汉韩反诘语气副词对比研究[D];上海外国语大学;2010年
6 李红梅;韩国语范围表达研究[D];上海外国语大学;2010年
7 王大伟;基于免疫的入侵检测系统中检测器性能研究[D];哈尔滨理工大学;2010年
8 岑健;基于人工免疫系统的机组复合故障诊断技术研究[D];华南理工大学;2010年
9 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
10 李云靖;北京话音节发音的时间结构[D];南开大学;2010年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 蒋慧;改进的遗传算法在电力系统无功优化中的应用[D];安徽工程大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 陈丹;英汉远近指示语的对比研究[D];山东科技大学;2010年
5 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
6 苏珊珊;俄汉语直线型空间维度词的对比分析[D];哈尔滨师范大学;2010年
7 宋文平;现代汉语“A而不B”格式的多角度研究[D];哈尔滨师范大学;2010年
8 高健;与“半”相关格式的量范畴研究[D];哈尔滨师范大学;2010年
9 赵桂阳;现代汉语“不是X的X”结构考察[D];哈尔滨师范大学;2010年
10 刘敏;“难不成”的衍生过程[D];哈尔滨师范大学;2010年
【同被引文献】
中国期刊全文数据库 前7条
1 贾文珏;申世亮;周舟;;地质资料信息集群化共享服务平台构架设计[J];国土资源信息化;2011年06期
2 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
3 张启宇;朱玲;张雅萍;;中文分词算法研究综述[J];情报探索;2008年11期
4 付年钧;彭昌水;王慰;;中文分词技术及其实现[J];软件导刊;2011年01期
5 庞振山;颜世强;丁克永;章浩;茹湘兰;;全国地质资料馆地质资料服务现状综合分析——传统窗口借阅服务情况分析[J];中国矿业;2010年11期
6 王黔驹;颜世强;丁克永;陈培章;;推进地质资料信息服务集群化产业化的初步思路与构想[J];中国矿业;2011年12期
7 史梦洁;;文本聚类算法综述[J];现代计算机(专业版);2014年03期
中国博士学位论文全文数据库 前5条
1 王永生;地质资料信息服务集群化产业化政策研究[D];中国地质大学(北京);2011年
2 白亮;聚类学习的理论分析与高效算法研究[D];山西大学;2012年
3 白雪;聚类分析中的相似性度量及其应用研究[D];北京交通大学;2012年
4 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年
5 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 韩万衡;德国配价论主要学派在基本问题上的观点和分歧[J];国外语言学;1997年03期
2 李讷,石毓智;汉语动词拷贝结构的演化过程[J];国外语言学;1997年03期
3 樊兴华;王鹏;;基于两步策略的中文短文本分类研究[J];大连海事大学学报;2008年03期
4 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
5 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
6 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
7 宋东风;张志浩;;短文本数据的自动分类[J];电脑与信息技术;2007年01期
8 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
9 冯元勇;孙乐;张大鲲;李文波;;基于小规模尾字特征的中文命名实体识别研究[J];电子学报;2008年09期
10 宇缨;王晓龙;刘秉权;;一种基于SVM/RS的中文机构名称自动识别方法[J];电子与信息学报;2006年05期
中国重要会议论文全文数据库 前8条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 吴雪军;朱靖波;陈学耀;卓红霞;;基于统计和规则的人名识别方法[A];第一届学生计算语言学研讨会论文集[C];2002年
5 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 雷静;;汉语机构名的构成模式[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 史树敏;王志强;周浪;冯冲;黄河燕;;基于条件随机域的中文命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
8 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国硕士学位论文全文数据库 前3条
1 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
2 陈霄;基于支持向量机的中文组织机构名识别[D];上海交通大学;2007年
3 邱莎;基于统计的生物命名实体识别研究[D];四川大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 向晓雯,史晓东,曾华琳;一个统计与规则相结合的中文命名实体识别系统[J];计算机应用;2005年10期
2 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
3 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
4 赵军;;命名实体识别、排歧和跨语言关联[J];中文信息学报;2009年02期
5 郑强;刘齐军;王正华;朱云平;;生物医学命名实体识别的研究与进展[J];计算机应用研究;2010年03期
6 张向喆;王明辉;赵洪波;王起山;潘玉春;;生物医学文本中命名实体识别研究[J];上海交通大学学报(农业科学版);2010年02期
7 孙镇;王惠临;;命名实体识别研究进展综述[J];现代图书情报技术;2010年06期
8 滕青青;吉久明;郑荣廷;李楠;;基于文献的中文命名实体识别算法适用性分析研究[J];情报杂志;2010年09期
9 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
10 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
中国重要会议论文全文数据库 前10条
1 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
2 付瑞吉;车万翔;刘挺;;一种基于分类方法的音乐命名实体识别技术[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
3 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 刘非凡;赵军;吕碧波;于浩;夏迎炬;;面向商务信息抽取的产品命名实体识别研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 王浩畅;赵铁军;刘延力;于浩;;生物医学文本中命名实体识别的智能化方法[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
7 李治国;周俏丽;;在篇章中面向产品类的命名实体识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
8 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 徐薇;付滨;刘柳;苑春法;李文捷;;中文命名实体识别系统的领域扩展[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 王浩畅;赵铁军;李艳;;生物医学命名实体识别的特征选取与评价[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前7条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
3 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
4 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
5 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
6 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
7 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
中国硕士学位论文全文数据库 前10条
1 刘海鹏;面向手机短信的命名实体识别研究[D];北京邮电大学;2009年
2 邹涛;一种电子产品领域命名实体识别方法研究[D];西安电子科技大学;2010年
3 张学清;规则与统计相结合的音乐领域命名实体识别[D];电子科技大学;2010年
4 陈晖;半监督的命名实体识别[D];北京交通大学;2011年
5 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
6 付春元;汉语嵌套命名实体识别方法研究[D];黑龙江大学;2011年
7 夏涵;基于本体的医学命名实体识别技术研究[D];上海交通大学;2012年
8 范文婷;生物医学领域的命名实体识别和标准化[D];大连理工大学;2013年
9 荀晶;面向微博数据的命名实体识别研究与实现[D];东北大学;2013年
10 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026