收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文事件抽取关键技术研究

谭红叶  
【摘要】: 信息抽取是从文本中自动获取信息的一种主要手段。针对自由文本的信息抽取一般包括实体及其关系的抽取。但真实世界不断发生变化,实体的关系和状态也随之发生变化。而事件反映了实体参与者之间的关系和状态的变化。因此要想捕捉到实体之间状态的变化,必须针对事件进行相关信息的抽取。 目前事件的检测与识别(Event detection and recognition,VDR,又称事件抽取)已被ACE(Automatic content extraction)评测会议定义为一项基本任务。ACE2005将该项任务定义为:识别特定类型的事件,并进行相关信息的确定和抽取,主要的相关信息包括:事件的类型和子类型、事件论元角色等。根据这个定义,可将事件抽取的任务分成两大核心子任务:(1)事件的检测和类型识别;(2)事件论元角色的抽取。除此以外,由于绝大部分的论元角色都是实体,因此实体的识别也是事件抽取的一项基本任务。本文从事件的检测和类型识别,事件论元角色的识别,事件触发词的识别以及实体的识别几个方面对信息抽取进行了研究,最后还针对事件抽取探讨了可信度估计的方法。 具体来讲,本文主要从以下几方面作了研究: (1)研究了扩展名实体的识别。 尝试利用半监督学习方法获取模式来缓解缺少大规模的扩展名实体的标注语料的局限性。具体采用了Bootstrapping这种自训练方法来自动获取模式;在迭代过程中利用准确率较高的词典资源评价模式的可信度,进而通过模式的可信度来评价实例的可信度,从而避免了叠代过程中的错误放大问题。在此基础上,研究了模式的泛化方法,提出了软模式和特征向量两种模式泛化的形式,并通过联合概率、二元同现概率和相似度的计算实现了模糊匹配,有效地提升了模式的覆盖能力和系统的性能。 (2)对事件的检测和分类,以及事件触发词的识别进行了相关研究。 针对ACE语料中存在着规模小,类别不平衡等问题,尝试利用好的特征选择策略来克服一般分类器在小类别和难识别类别上性能不佳的弊端。提出了一种基于局部特征选择和正负特征相结合的特征选择策略,充分保证了分类器在每个类别(尤其是小类别和难识别类别)上的识别效果。除此以外,研究了在事件类别已知的情况下事件触发词的识别,提出充分利用正反例特征,和《同义词词林》、Hownet等语义词典扩展特征的基础上进行触发词的识别策略。 (3)研究了事件论元角色的识别。 为了充分利用词法、句法等不同层级的语言信息,提出利用多层级模式的方法来进行事件论元角色的识别。每一级模式都包含不同层级的语言信息,既充分利用了准确率高的浅层词法信息,也考虑到了更能反应语言意义的依存句法信息;同时在更深层次的模式中引入软匹配部分,使模式更灵活,实现了模式的模糊匹配。接着,又探讨了基于CRF模型的事件角色识别方法,同时在特征选择中,将模式及其相似度作为特征,不仅扩大了分类器中使用的特征范围,而且使用的特征更加细致和全面,获得了较好的事件角色识别效果。 (4)探讨了事件抽取可信度估计的方法。 针对事件抽取存在精确率不完美的问题,探讨了两种可信度估计方法,一种是利用源系统输出概率进行直接的可信度估计;另一种是独立的基于ME的可信度估计方法。并利用ROC方法对可信度估计进行了评价。结果表明,独立的可信度估计策略比直接利用源系统的输出进行可信度估计显示出了更好的估计能力,为系统的实际使用奠定了基础。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈慧炜;;公安领域案件文本信息抽取研究综述[J];文教资料;2010年18期
2 刘进,张天序;车号定位识别与可信度估计[J];红外与激光工程;2002年03期
3 许荣华;吴刚;李培峰;朱巧明;;基于指代消解的中文事件融合方法[J];计算机应用;2009年08期
4 付剑锋;刘宗田;刘炜;单建芳;;基于特征加权的事件要素识别[J];计算机科学;2010年03期
5 许君宁;董萍;刘怀亮;;基于知网的中文事件抽取研究[J];情报杂志;2009年S2期
6 孙中友;李培峰;朱巧明;;事件信息抽取中的数据预处理方法研究[J];计算机应用与软件;2011年08期
7 赵健,王晓龙,关毅;中文名实体识别中的特征组合与特征融合的比较[J];计算机应用;2005年11期
8 徐蔚然,郭军;手写金融汉字识别中的可信度估计[J];电子学报;2005年10期
9 谭红叶;赵铁军;王浩畅;;基于向量相似度计算的半监督的名实体识别[J];计算机工程与设计;2008年19期
10 许旭阳;韩永峰;宋文政;;事件抽取技术的回顾与展望[J];信息工程大学学报;2011年01期
11 许红磊;陈锦秀;周昌乐;林如琦;杨肖方;;自动识别事件类别的中文事件抽取技术研究[J];心智与计算;2010年01期
12 丁效;宋凡;秦兵;刘挺;;音乐领域典型事件抽取方法研究[J];中文信息学报;2011年02期
13 刘澎;姚钦;;可信度估计在目标识别融合系统中的应用[J];探测与控制学报;2007年01期
14 吴刚;许荣华;朱巧明;李培峰;钱培德;;一种基于角色匹配的事件抽取方法[J];微计算机信息;2010年09期
15 赵妍妍;秦兵;车万翔;刘挺;;中文事件抽取技术研究[J];中文信息学报;2008年01期
16 郑逢强;林磊;刘秉权;孙承杰;;《知网》在命名实体识别中的应用研究[J];中文信息学报;2008年05期
17 许旭阳;李弼程;张先飞;韩永峰;;基于事件实例驱动的新闻文本事件抽取[J];计算机科学;2011年08期
18 袁毓林;用动词的论元结构跟事件模板相匹配——一种由动词驱动的信息抽取方法[J];中文信息学报;2005年05期
19 赵小明;朱洪波;陈黎;王亚强;秦湘清;于中华;;基于多分类器的金融领域多元关系信息抽取算法[J];计算机工程与设计;2011年07期
20 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
中国重要会议论文全文数据库 前8条
1 赵妍妍;秦兵;车万翔;刘挺;;中文事件抽取技术研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
3 王晶;郑德权;赵铁军;王忠建;;基于TBL的日文名实体识别后处理技术[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
4 曾青青;杨尔弘;朱丹青;;基于信息结构的突发事件文本事件信息自动抽取策略研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 丁效;宋凡;秦兵;刘挺;;音乐领域典型事件抽取方法研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 尹晶杰;杨云辉;;一种基于盲数理论的费用估算专家预测方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
7 冀铁亮;孙薇薇;穗志方;;语言学与统计方法结合建立汉语动词子类框架类型集[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 孟雷;丁效;秦兵;刘挺;;基于依存句法和短语结构句法结合的金融领域事件元素抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前6条
1 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
2 孙承杰;基于判别式模型的生物医学文本挖掘相关问题研究[D];哈尔滨工业大学;2008年
3 付岩;英汉中动构式的句法语义对比研究[D];复旦大学;2012年
4 宋雪松;英语句子论元结构的构式语法研究[D];西南大学;2009年
5 李金兰;现代汉语身体动词的认知研究[D];华东师范大学;2006年
6 史成周;汉语叙事性语篇和描述性语篇中的信息包装[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 邱海生;汉语动结构式的构式语法分析[D];重庆大学;2009年
2 唐一萍;汉语带宾语动结式的研究[D];湖南师范大学;2007年
3 吴刚;基于主题的中文事件抽取技术研究及应用[D];苏州大学;2009年
4 陈小陆;人物言论抽取与跟踪技术研究[D];哈尔滨工业大学;2008年
5 赵妍妍;中文事件抽取的相关技术研究[D];哈尔滨工业大学;2007年
6 冯二波;领域实体属性及事件抽取技术研究[D];哈尔滨工业大学;2008年
7 刘利刚;中文名实体识别与新词发现技术研究[D];哈尔滨工业大学;2007年
8 刘嵩;网络中文事件自动检测技术研究[D];解放军信息工程大学;2010年
9 张剑峰;微博主观性发现关键技术研究[D];苏州大学;2012年
10 张晓;英汉带宾语动结构式的对比研究[D];湖南师范大学;2009年
中国重要报纸全文数据库 前1条
1 记者 于德福;定量预测资源量有了统一技术标准[N];地质勘查导报;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978