基于框架的事件抽取关键技术研究
【摘要】:
随着计算机的普及与互联网的高速发展,越来越多的信息充斥在网络中,如何将大量无序的信息准确及时的提取、整理并组织成便于检索的形式,是急待解决的问题,信息抽取技术就是围绕这个目的展开的。其中事件抽取是信息抽取的重要组成部分,事件抽取就是从非结构化文档中抽取出用户感兴趣的事件,同时用结构化形式描述,供用户查询及进一步分析。
本文以自然灾害类事件作为实验对象,研究该类事件领域的信息特点,实现自然灾害类事件信息的抽取与合成。本文首先对实验语料进行预处理,去除文档的高频词和低频词,再利用文档聚类的方法实现了同一类事件侧面特征词的收集,经过一定的人工处理,最终建立了自然灾害事件的框架结构,通过框架结构指导事件的抽取。在事件信息的具体抽取过程中,先建立相关事件的抽取模板,即一组抽取规则,使用这些规则对测试语料进行模板匹配与信息抽取。实现了对自然灾害类事件的事件发生时间、事件发生地点、事件伤亡结果等侧面信息的抽取,并根据时空的一致性原则对同一事件进行了合并。
实验结果表明,本文提出的基于框架的事件抽取方法是切实可行的,对于自然灾害事件的信息抽取得到了较为理想的测试结果。