收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

突发事件信息提取研究

杨尔弘  
【摘要】:随着Internet的飞速发展,我们被包围在信息的汪洋大海之中。准确、有效地从信息海 洋中提取有用的信息,正是信息提取任务要解决的问题。信息提取(Information Extraction,简 称IE)是指从大量的文本中提取出特定的感兴趣的信息,并以结构化的形式表现出来。其 基本目标是提高信息处理的速度和质量,把人们从大量、低效的文本阅读劳动中解放出来。 信息提取与信息检索、文本摘要等同属于文本信息处理的范畴,是自然语言处理的一个 研究领域。20世纪80年代末以来,信息提取一直是该领域的热点研究问题。美国、欧洲都 制定了相应的文本处理计划,信息提取技术及评测是其中一项重要的研究内容。有关汉语的 信息提取研究起步较晚,尚处在探索阶段。 近年来,各种突发事件频繁地发生,突发事件的应对已经成为考验政府执政能力的一个 重要方面。应对突发事件是一个系统工程,其中一个重要环节就是信息的收集、整理、加工 和发布。及时、客观、准确地收集信息,快速、高效地提取有用信息,为分析形势、制定策 略提供翔实可靠的参考数据,已经成为提高突发事件应对能力的一个重要方面,也是衡量突 发事件应对能力的一个重要指标。 本文在对突发事件新闻报道特点广泛分析的基础上,以同一突发事件的多个新闻报道 (同事件多文本)为处理对象,进行突发事件的信息提取研究。主要内容包括:同事件多文 本的数据分析,从中获取支持突发事件信息提取的有关特征:基于多特征融合的命名实体识 别(Named entity recognition)方法研究与分析;特定信息的模式自动获取(automatic pattern acquisition)方法研究;突发事件信息提取的模型研究,在此基础上获得突发事件的信息结构 及特定信息。 信息提取是一个有机融合多种资源和技术、面向实际应用的研究。我们的研究是在对文 本进行分词和词性标注的基础上进行的,与英语信息提取相比,在文本处理深度、知识资源 支持等方面都有较大的差距。因此,在研究过程中,对于每一项研究内容,我们都分析了现 有资源和文本加工深度对信息提取任务的支持和制约,探索性地研究了具有一定鲁棒性的突 发事件信息提取方法,以期为进一步的研究奠定基础、找到突破口。 本文的研究特色主要包括: 1. 提出了一个突发事件信息提取模型; 在充分分析待处理数据特点的基础上,利用同事件多文本表现出来的相关信息的优势, 根据突发事件的发展变化特点,探索了突发事件信息提取的一种模型。该模型在进行文本词 语分析的基础上,通过句子聚类的方法,自动地获取事件的信息结构,在此基础上,通过特 征的价值计算,获得特定信息的特征表达。该方法具有较强的鲁棒性,可用于任何突发事件 的文本集合。 2. 实现了一种具有较强适应性的无指导的模式获取方法; 该方法利用相关句的性质,采用简单的词语串搭配信息,获得关于特定信息的模式结构, 通过模式匹配进一步获得突发事件某个方面的具体信息。并通过模式的组合来完成动态信息 的发现; 3. 分析、论述了现有资源和基础加工对信息提取任务的支持和制约,探讨了在弱知识 条件下信息提取技术的发展空间。 本文研究的信息提取与传统的信息提取任务有些区别,它介于传统的信息提取与文本自 动摘要之间,信息提取的结果也可以更直接地服务于文本摘要和问答系统。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 赵君喆;何婷婷;李晶;;一种无指导命名实体关系抽取研究[J];咸宁学院学报;2009年06期
2 庄明,老松杨,吴玲达;一种统计和词性相结合的命名实体发现方法[J];计算机应用;2004年01期
3 乐小虬,杨崇俊,刘冬林;空间命名实体的识别[J];计算机工程;2005年20期
4 何婷婷;徐超;李晶;赵君喆;;基于种子自扩展的命名实体关系抽取方法[J];计算机工程;2006年21期
5 蒋龙;周明;简立峰;;利用音译和网络挖掘翻译命名实体[J];中文信息学报;2007年01期
6 陈怀兴;尹存燕;陈家骏;;一种命名实体翻译等价对的抽取方法[J];中文信息学报;2008年04期
7 翟海军;郭勇;郭嘉丰;程学旗;;基于转移学习的命名实体挖掘技术[J];上海交通大学学报;2011年02期
8 邢富坤;;基于隶属度的命名实体自动获取研究[J];计算机应用与软件;2012年08期
9 彭庆喜;陈军威;;互联网命名实体抽取及关联关系挖掘研究[J];软件导刊;2013年03期
10 王睿,张洁,张由仪,于禛,姚天昉;基于混合模型的中文命名实体抽取系统[J];清华大学学报(自然科学版);2005年S1期
11 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
12 刘高军;马砚忠;段建勇;;基于维基百科的中文命名实体关联度计算[J];北方工业大学学报;2012年01期
13 刘路;李弼程;张先飞;;基于向量相似度修正策略的命名实体关联分析[J];计算机工程与应用;2008年02期
14 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[J];中文信息学报;2010年01期
15 伍大勇;刘挺;;基于随机游走模型的查询日志中命名实体挖掘[J];智能计算机与应用;2012年04期
16 陈永超;刘贵全;;一种基于命名实体的搜索结果聚类算法[J];计算机工程;2009年07期
17 李治国;蔡东风;周俏丽;杨者青;;在篇章中利用互信息识别命名实体的研究[J];沈阳航空工业学院学报;2007年01期
18 王达;张坤;;隐马尔可夫模型在命名实体中的应用[J];黑龙江科技信息;2007年23期
19 李妩可;郭赛球;尹艳;;命名实体关系抽取算法的改进[J];计算机工程;2010年24期
20 张磊;王斌;靖红芳;吴丽辉;;中文网页搜索日志中的特殊命名实体挖掘[J];哈尔滨工业大学学报;2011年05期
中国重要会议论文全文数据库 前10条
1 庞薇;徐波;;基于双语平行语料的分层次命名实体抽取[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
2 翟海军;郭勇;郭嘉丰;程学旗;;基于转移学习的命名实体挖掘技术[A];第五届全国信息检索学术会议论文集[C];2009年
3 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 罗维;吉宗诚;吕雅娟;刘群;;一种改进词语对齐的新方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 张磊;王斌;靖红芳;吴丽辉;;中文网页搜索日志中的特殊命名实体挖掘[A];第五届全国信息检索学术会议论文集[C];2009年
6 郭志立;;使用互信息辅助在篇章范围内识别命名实体[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 王浩畅;赵铁军;于浩;;基于文本的生物信息获取[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 薛征;廖闻剑;;基于位置权重和实体识别的关键词提取[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
9 王松;杨沐昀;赵铁军;;基于统计的命名实体翻译[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
10 赵明明;洪宇;姚建民;朱巧明;;基于音译和网络的命名实体翻译方法研究[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前6条
1 伍大勇;搜索引擎中命名实体查询处理相关技术研究[D];哈尔滨工业大学;2012年
2 刘晓江;基于统计滚雪球模型的知识挖掘理论与方法[D];中国科学技术大学;2011年
3 郑志诚;用户查询歧义性分析研究[D];清华大学;2013年
4 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
5 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
6 怀宝兴;基于概率主题模型的情境建模方法研究[D];中国科学技术大学;2014年
中国硕士学位论文全文数据库 前10条
1 李晶;基于网络抱团发现的命名实体关系抽取[D];华中师范大学;2006年
2 周荣鹏;生物医学文献中命名实体的识别[D];大连理工大学;2009年
3 林声;可比语料中命名实体翻译等价对抽取方法研究[D];大连理工大学;2009年
4 徐超;基于种子自扩展的命名实体关系抽取方法的研究[D];华中师范大学;2006年
5 杜俊武;基于点击数据和搜索结果片断的命名实体挖掘[D];北京理工大学;2011年
6 王鹏;从可比较语料中抽取中英命名实体等价对[D];大连理工大学;2011年
7 于凌;基于本体的命名实体检索的研究与实现[D];东北大学;2010年
8 茹旷;日汉双语命名实体对获取方法及其应用研究[D];北京交通大学;2014年
9 张静;基于英汉平行语料库的命名实体对自动获取方法研究[D];北京交通大学;2014年
10 周磊;基于混合方法的复杂命名实体抽取研究[D];上海交通大学;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978