收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向中文知识图谱的开放式文本信息抽取关键技术研究

徐菁  
【摘要】:随着大数据时代的到来,知识图谱正成为知识表示的重要形式。由于知识图谱能够为客观世界提供较完整的语义化描述,因而在语义搜索、机器阅读、智能问答和各种智能认知领域得到越来越广泛的应用,知识图谱的自动构建是知识图谱的核心技术,已经成为当前新一代人工智能领域的研究热点之一。面向海量网络文本数据的信息抽取作为知识图谱构建的基础性技术,是当前人工智能领域的重要研究课题。与限定语料领域和语义类别的传统的文本信息抽取技术不同,网络文本具有海量性、领域开放性和不规范性等特点。本文基于知识图谱的构成成分,针对开放式中文文本数据,重点围绕实体识别、实体消歧、关系抽取、属性抽取等关键技术进行研究,取得的主要成果有:1)提出了一种基于主题模型和语义分析的无监督的实体指称项识别方法针对基于启发式规则、词典匹配和有监督的机器学习模型等传统的实体识别方法所存在的任务依赖性强、自适应能力差、实体类别有限等局限,为满足大规模中文知识图谱自动构建的需求,本文在开放性中文文本数据中,提出了一种基于主题模型和语义分析的无监督的实体指称项识别方法,包括实体边界检测和实体指称项分类两部分。实体边界检测旨在检测出所有的命名性和名词性实体指称项,首先利用浅层和深层句法分析从文本中自动获取边界完整的名词词组作为实体指称项候选集,然后结合主题模型和统计算法,通过度量指称项对文档的重要程度,从候选集中过滤非实体指称项。实体指称项分类旨在识别实体指称项的实体类别和指称项类别。本文给出了一种基于分布语义的类别决策算法,通过度量实体指称项的上下文信息的语义相似度,来识别实体类别。此外,利用浅层的句法知识制定规则,对每种实体类别下的指称项,实现命名性和名词性类别的判定。在自然语言处理领域ACE和DEFT两个知名的公开数据集上进行实验,结果表明了该方法在实体指称项边界检测和分类方面的有效性。2)提出了一种基于知识驱动的无监督的实体链接消歧方法针对中文实体指称项可能存在的多样性和歧义性问题,本文提出了一种基于知识驱动与推理链接的消歧方法。该方法借助外部知识的驱动,通过将中文文本中实体指称项链接到本地知识库中正确实体,来达成实体消歧的目标。首先,引入增量证据挖掘思想,即利用外部知识源丰富和优化实体指称项和本地知识库的相关信息,有利于解决语境缺乏、描述不规范的问题,并降低了对本地知识库的依赖性。然后,依据实体多方面知识,提出了一种推理链接算法,该算法综合利用了实体名称、类别、语境信息、流行度、和实体之间的语义相关度等,以及实体在外部知识源和本地知识库中的关联关系,来提高实体链接的准确性和召回率,从而达到实体指称项精准消歧的目的。在自然语言处理领域NLPCC知名的公开数据集上进行实验,结果验证了该方法的可行性。3)提出了一种基于句法模式和机器学习的弱监督的开放式关系抽取方法针对传统的关系抽取方法存在训练语料领域限定和关系类别有限的问题,本文提出了一种弱监督的开放式关系抽取方法,其特点是利用文本字符串作为实体之间的关系指示词,将无结构化文本数据表示成结构化的实体1,关系指示词,实体2关系三元组数据格式输出,关系表示灵活且类别无数量限制。该方法的基本思路是,首先基于句法分析,从文本中自动获取关系三元组候选集并抽象为句法模式。然后,基于设计的正负例判别算法,利用词向量模型和同义词林,通过计算句法模式之间的语义相似度,对关系候选集中每个三元组进行正负例判断,给出相应标签,自动生成所需的训练语料。最后,融入浅层(如词性标签)和深层(如依存句法结构)等丰富的文本特征,训练分类器模型,实现对实体关系三元组的区分和辨别。在人民网、新浪网等真实新闻数据集和百度百科数据集上进行实验,结果表明了该方法的有效性。4)提出了一种基于双向长短期记忆网络的弱监督的实体属性值抽取方法传统的实体属性值抽取方法需要人工制定句法模式、标注训练语料以及定义文本特征,既增加了人工成本,又使得抽取性能严重依赖于模式、语料和特征的覆盖率。针对以上不足,本文提出了一种面向开放式中文网络文本数据的弱监督的实体属性值抽取方法。该方法综合利用句法分析、词向量模型和深度学习技术,将实体属性值抽取转化为关系分类问题。首先提出了一种基于类别映射的方法自动生成训练语料。该方法利用属性名信息获取属性值的类别映射,并结合句法知识和正则表达式识别实体属性值,同时抽取其与实体相关的文本片段作为训练语料,有助于去除语料中的噪音信息,降低学习模型对训练语料规模的依赖性。然后,利用词向量模型将训练语料表示为向量形式,同时融入简单有效的文本特征,来训练当前流行的深度学习模型——双向长短期记忆网络分类模型,用于实体、属性名和属性值之间的关系判定。在自然语言处理领域TAC知名的公开数据集上进行实验,结果表明了该方法的有效性,并明显优于其他传统的和基于深度学习技术的方法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;中文信息学报(双月刊)2016年第30卷总目次[J];中文信息学报;2016年06期
2 ;欢迎订阅《中文信息学报》[J];中文信息学报;2015年06期
3 刘少俊;;中文信息抽取研究的文献计量分析[J];情报探索;2016年09期
4 ;欢迎订阅《中文信息学报》[J];中文信息学报;2015年04期
5 卢传吉;;中文语言文化建设的内涵及发展状况[J];长江丛刊;2017年35期
6 ;《中文信息学报》征稿简则[J];中文信息学报;2007年01期
7 ;《中文信息学报》征稿简则[J];中文信息学报;2007年02期
8 ;《中文信息学报》征稿简则[J];中文信息学报;2006年06期
9 ;《中文信息学报》征稿简则[J];中文信息学报;2005年03期
10 ;《中文信息学报》征稿简则[J];中文信息学报;2004年01期
11 ;《中文信息学报》征稿简则[J];中文信息学报;2004年06期
12 张■;对开展图书馆海外中文信息服务的思考[J];图书馆界;1998年04期
13 雷润玲;;“北极星”:帮你寻找网上中文信息[J];当代图书馆;1998年02期
14 ;ChinaInfo(中国信息)系统开通巨量中文信息上网提供服务[J];管理科学文摘;1997年09期
15 杨应全;《中文信息》要充分发挥中国特色[J];中文信息;1997年03期
16 刘泽先;中文信息的发展方向[J];中文信息;1994年05期
17 真鸣;中文信息研究会少数民族专委会成立大会简况[J];计算机学报;1986年01期
18 刘凤翘;;微电子和计算机技术对中国的影响[J];科学对社会的影响;1988年02期
19 赵珀璋;;计算机中文信息处理系统代码系列设计[J];计算机研究与发展;1988年04期
20 海洋;海峡两岸共研中文信息标准化[J];语文建设;1989年03期
中国重要会议论文全文数据库 前7条
1 ;中文信息的智能处理[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
2 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
3 陈儒;张宇;刘挺;;面向网络实时数据流的中文信息多模式模糊匹配[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
4 陈尚平;王振群;董军;;地震文献信息之窗的建设[A];中国地震学会第七次学术大会论文摘要集[C];1998年
5 ;北京中易中标电子信息技术有限公司公司简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
6 陈豫;;WWW网上中文信息的全文检索技术开发[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
7 ;编辑说明[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前4条
1 周炫余;中文指代消解方法研究及在图像目标检测中的应用[D];武汉大学;2016年
2 徐菁;面向中文知识图谱的开放式文本信息抽取关键技术研究[D];国防科技大学;2018年
3 胡明;Web中文信息智能获取与分类研究[D];吉林大学;2005年
4 甘丽新;基于句法和语义分析的中文实体关系抽取[D];江西财经大学;2017年
中国硕士学位论文全文数据库 前10条
1 戴恺运;基于词典和机器学习的中文小说的情感研究[D];广西大学;2019年
2 卢欣;基于深度学习的中文反讽识别及其情感判别研究[D];山西大学;2019年
3 陈娜娜;中文信息层级的设计学研究[D];湖南师范大学;2017年
4 杨劲男;基于神经网络的中文语法纠错关键技术研究[D];云南大学;2018年
5 沈兰奔;结合注意力机制与长短期记忆网络的中文事件抽取方法研究[D];北京交通大学;2019年
6 刘新;基于深度学习的中文语音转录标点预测研究[D];安徽大学;2019年
7 黄山松;深度学习和迁移学习在中文情感分类中的研究[D];深圳大学;2018年
8 崔路路;中文交通面板识别及文字提取系统的研究与实现[D];北京邮电大学;2019年
9 王文超;面向大词汇量离线中文手写识别的简约建模方法研究[D];中国科学技术大学;2019年
10 周浩;多主题混合的中文评论情感分析研究[D];太原理工大学;2019年
中国重要报纸全文数据库 前10条
1 本报记者 詹媛;让机器“说”中文面临哪些新挑战[N];光明日报;2016年
2 本报记者 陈方;中文信息 期待精品[N];光明日报;2000年
3 记者 李琳;中国C网:誓做自主全中文信息网[N];厂长经理日报;2000年
4 本报记者 刘亚东;网络犯罪防不胜防吗?[N];科技日报;2000年
5 刘玉珠;开发中文信息资源 发展网络文化产业[N];人民日报;2003年
6 记者李行;海峡两岸共商中文信息技术合作大计[N];新疆日报(汉);2009年
7 罗敏;《中国C网中文信息应用网络系统》近日通过技术成果鉴定[N];中国高新技术产业导报;2001年
8 徐 风;汉信码精彩演绎中文信息[N];中国质量报;2005年
9 记者贾君;9款产品容易出错字[N];中国消费者报;2009年
10 老翁;经济型P4电脑推荐[N];中国电脑教育报;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978