收藏本站
《重庆大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

领域知识图谱的自动化构建

彭乾慧  
【摘要】:随着Google公司于2012年发布Google Knowledge Graph,国内外开始对知识图谱的研究升温,相关研究不断地涌现。这其中,通用知识图谱的构建和应用得到了长足的发展,WordNet、DBpedia、Freebase、WikiData等大型通用知识图谱相继发布。但由于需要领域专家的大量人工干预,因此基于特定领域的知识库的构建,进展却一直十分缓慢。基于此,本文从工程角度提出了一个面向领域知识图谱的自动化构建方案,并以此方案开发出了WAKA-KG框架用于辅助构建特定领域的知识图谱,有效地降低领域知识图谱的构建成本。WAKA-KG可以在用户提供的特定领域模型基础之上,通过对海量Web文档的筛选,自动从领域相关文档中抽取出实体及实体关系集,然后通过知识融合以及链接预测技术,增量迭代出该领域知识库。WAKA-KG构建出的知识库是“扁平”的,不包含本体及分类信息,因此不需要过多的人工干预。基于应用的需要,领域专家可以选择在WAKA-KG生成的知识库的基础之上,再去做知识清洗以及本体定义。本文研究的主要内容包括:(1)通过分析观察,发现谓词的词法功能在语句中通常是固定不变的,另外特定于某一谓词,实体之间在依存关系一般存在着依赖链。基于这两个词法特征,本文使用斯坦福自然语言处理工具包开发了一个三元组(知识)抽取组件,接受文本文档做为输入,输出特定形式的三元组;(2)参考韩先陪等人的“集体实体链接”[16]概念实现了一个三元组链接器,通过该组件可以将抽取的三元组消歧后链接到知识图谱中;(3)通过实体及实体关系自动抽取所获得的三元组一般都会存在大量的噪声,为了保证知识库的构建质量,系统必须要有一定的策略来消除噪声。为此,本文在三元组上引入置信度属性,并且根据推荐系统的基本原理基于贝叶斯个性化排序算法(BPR)训练了一个置信度评估模型,使用该模型,本文在WAKA-KG框架上实现了一个三元组筛选器,对待选三元组进行置信度评估,利用评估结果消除噪声。在WAKA-KG中,本文解决了以下研究挑战:1)三元组抽取。三元组抽取实际上包含了Web文档或数据爬取、实体及实体关系抽取两部分。为了避免爬虫成为系统瓶颈,本文对Java网络爬虫工具WebMagic进行了深度定制,优化了其网络和分布式组件,将其整体效率提升了近2倍。另外,通过分析语句的词法特征,并结合使用斯坦福自然语言处理工具包,本文开发实现了实体关系的自动抽取。2)实体消歧。抽取到的三元组需要通过实体链接技术链接到现有图谱中,以便实现对知识图谱的扩充。这其中最重要的也是最困难的部分就是要对实体进行消歧,也就是解决命名指称与实体对齐的问题。针对这一难点,本文参考了韩先陪等人的“集体实体链接”[16]概念,开发实现了一个实体消歧组件,在一定程度上解决了消歧问题。3)三元组筛选。WAKA-KG的三元组抽取器是一个完全自动化的组件,它从文本流中抽取的实体关系必然不可避免的包含着各种噪声,为了一定程度上解决这个问题,本文引入了三元组筛选器模块,该模块借用推荐系统的用户-项目评分矩阵概念,实现了一个基于BPR的三元组置信度评估算法,通过该算法,置信度不够的三元组会被筛选出来,从而保证知识图谱的构建质量。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:G254;TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 杨莹,李应潭;基于意象知识的消歧体系[J];中文信息学报;1993年01期
2 杨宪泽;谈文蓉;刘莉;;句型转换的消歧与译文生成处理研究[J];计算机工程与科学;2007年04期
3 冯素琴;陈惠明;;一种基于搭配信息的汉语组合型消歧方法[J];山西大学学报(自然科学版);2008年02期
4 刘鹏远;赵铁军;杨沐昀;李壮;;基于等价伪译词模型的无指导译文消歧研究[J];电子与信息学报;2008年07期
5 何文垒;刘功申;;基于语义密度的名词消歧算法[J];计算机科学;2012年06期
6 肖晶;梁冰;张晓丹;吕世炅;;一种面向篇级数据的作者名消歧规则和算法[J];现代图书情报技术;2012年05期
7 郭舒;;文献数据库中作者名消歧算法研究[J];现代图书情报技术;2013年Z1期
8 郭舒;;文献数据库中作者名自动化消歧方法应用研究[J];情报杂志;2013年09期
9 朱靖波,姚天顺;词义自动消歧概率模型[J];东北大学学报;2000年05期
10 冯素琴,刘丽萍;组合歧义消歧方法的深入研究[J];忻州师范学院学报;2003年05期
中国重要会议论文全文数据库 前10条
1 周晓;李超;胡明涵;王会珍;;基于人物互斥属性的中文人名消歧[A];第六届全国信息检索学术会议论文集[C];2010年
2 方向红;宋春阳;;介连兼类词“以”的句法语义区别特征及消歧策略[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 陈建美;林鸿飞;杨志豪;;基于贝叶斯模型的词汇情感消歧[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 周云;王挺;易绵竹;王之元;;全词消歧的序列标注方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 李丽;孙甲申;王小捷;李江;宋占江;;基于属性信息的中文人名消歧[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 丁海波;肖桐;朱靖波;;基于多阶段的中文人名消歧聚类技术的研究[A];第六届全国信息检索学术会议论文集[C];2010年
7 车万翔;刘挺;李生;;实体关系自动抽取[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 时迎超;王会珍;肖桐;胡明涵;;面向人名消歧任务的人名识别系统[A];第六届全国信息检索学术会议论文集[C];2010年
9 庄成龙;钱龙华;周国栋;;基于树核函数的实体关系抽取方法研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
10 蒋小应;陶继忠;欧阳宁;;零件组工艺知识获取系统[A];中国工程物理研究院科技年报(2001)[C];2001年
中国博士学位论文全文数据库 前10条
1 刘鹏远;基于知识自动获取的无指导译文消歧方法研究[D];哈尔滨工业大学;2008年
2 陈忱;面向Web的实体关系查询与分析关键技术研究[D];东北大学;2013年
3 郭喜跃;面向开放领域文本的实体关系抽取[D];华中师范大学;2016年
4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
5 顾静航;面向生物医学领域的实体关系抽取研究[D];苏州大学;2017年
6 郭宇航;基于上下文的实体链指技术研究[D];哈尔滨工业大学;2014年
7 张宏涛;面向生物文本的实体关系自动抽取问题研究[D];清华大学;2012年
8 王智昊;面向知识库问答的自然语言语义特征表示研究[D];山东师范大学;2017年
9 宋博;基于情境感知的工程经验知识获取和主动供应[D];上海交通大学;2015年
10 盖印;面向生产现场问题的知识获取与分析方法研究[D];大连理工大学;2016年
中国硕士学位论文全文数据库 前10条
1 彭乾慧;领域知识图谱的自动化构建[D];重庆大学;2017年
2 张东旭;结合知识库的实体关系抽取[D];北京邮电大学;2017年
3 江瑾;融合社会关系的属性图聚类专家消歧方法[D];昆明理工大学;2015年
4 姜新民;基于汉藏平行语料的藏文词义自动消歧方法研究[D];中央民族大学;2015年
5 杨光;基于图方法的命名实体消歧研究[D];哈尔滨工业大学;2015年
6 林翠萍;中文人名消歧算法研究[D];华侨大学;2015年
7 吴艳艳;统计和语义结合的中文介词消歧研究及其在机械产品设计中的应用[D];西安电子科技大学;2014年
8 雷晨曦;基于方式信息的自然语言篇章消歧方法及其在智能仪器设计中的应用[D];西安电子科技大学;2014年
9 相晓敏;中文组织机构名识别和消歧技术研究与应用[D];华东师范大学;2016年
10 赵毅;基于句义结构和人物隐含关系的中文人名消歧研究[D];华东交通大学;2016年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026