收藏本站
收藏 | 论文排版

基于领域知识模型的突发事件智能信息检索系统研究

杨月华  
【摘要】:近年来,突发事件频繁发生,已经引起社会的广泛关注。网上关于突发事件的信息迅速增多,人们对突发事件信息的检索需求越来越高。将本体引入信息检索系统中,一方面为改进信息检索系统的性能提供了组织形式和语义上的保证;另一方面提供了对推理的支持,能够通过概念之间存在的逻辑关系和设计的推理规则实现推理,因此研究基于本体知识模型的智能信息检索系统具有重要的理论意义和应用价值。本文面向突发事件领域,对基于本体知识模型的智能信息检索系统涉及的一些关键理论和技术进行了深入的研究,包括如何对检索系统需要的突发事件知识进行组织和表示,如何自动地获取领域概念和概念间的关系以扩展本体,如何从语义上理解和处理用户的查询请求实现语义检索等。论文的主要贡献和创新点如下: (1)目前国内外针对突发事件领域知识建模进行的研究较少,尚没有针对突发事件领域知识进行组织和表示的方法。本文对突发事件领域知识进行了分析,确定了突发事件领域概念和概念之间的关系,在此基础上建立了突发事件本体模型。提出了基于OWL的突发事件领域知识表示方法,用于对突发事件知识进行组织和表示,使得突发事件知识能被共享。通过OntoQA方法对突发事件本体进行了定量评价,评价结果表明本文所建立的突发事件本体能够表达较多的知识,并且包含较多的突发事件实例。 (2)已有的领域概念自动抽取方法无法获取到复合的中文领域概念,没有考虑到语义因素。本文提出了一种基于Bootstrapping的领域概念自动抽取算法(BCAE算法)。给出了考虑互信息和信息熵的复合词语判定条件,用于进行复合词语的提取;给出了考虑“共现句频”和支持度的候选概念判定条件,可以避免出现频率低的复合领域概念被过滤掉;引入了语义因素,根据上下文信息的概率分布与重要领域概念进行语义相似度的计算,使出现频率低但是语义相似的领域概念也能被提取出来。对比实验结果表明本文提出的BCAE算法的概念抽取召回率和准确率比基于领域相关度和一致度的领域概念自动抽取算法(FCRC算法)最多提高了17%和20%,比基于Bootstrapping的领域词汇自动获取算法(FWB算法)最多提高了11%和17%。 (3)已有的领域概念间关系抽取方法能够获取的关系类型较少,有的无法确定关系类型。本文提出了一种混合的领域概念间关系自动抽取算法(HRAE算法),将领域概念间的关系分成关系类型未知和已知两种情况,并分别进行处理。对于类型未知的关系,提出了基于关联规则和不同句型的方法进行抽取,以避免一些未出现在概念对之间,但能表示概念间关系的动词被遗漏;对于类型已知的关系,提出了关系抽取规则的构造和扩展方法,采用概念间关系抽取规则进行抽取。与基于关联规则的关系抽取方法(ARRE算法)、关系学习方法(NTRL算法)以及基于图的关系抽取方法(GRAONTO算法)进行的对比实验结果表明本文提出的HRAE算法能够获取领域的核心语义关系,并且性能较好,准确率-召回率、F1和Fo.5评估值比ARRE算法、NTRL算法和GRAONTO算法中的最优值分别提高了6%、6%、4%。 (4)目前已有的相似度计算方法未能全面考虑影响概念间相似度的因素,没有充分利用本体语义知识。本文首先分析了语义距离、层次因素和上下位概念重合度对概念间相似度的影响,在此基础上建立了基于本体的语义相似度计算模型(OSSC模型)。其中上下位概念重合度的计算利用了概念间的语义知识,在语义距离和概念层次两个因素间建立了关联,减少了用于调节影响因素贡献率的参数个数,因而不需要占用更多的时间来确定合适的参数取值。与D.Sanchez, Petrakis, RodriguezEgenhofer, LeacockChodorow, Li, WuPalmer, HistSt-Onge, Resnik, Lin, JiangConrath近年来分别提出的10种方法进行了对比实验,实验中采用相关系数评估方法,相关系数值越大,表明模型的准确度越高。实验结果表明采用本文建立的OSSC模型在Miller-Charles和Rubenstein-Goodenough两个标准数据集上进行概念间相似度计算,得到的结果与基准值间的相关系数平均值达到了0.85,超出了以上研究者提出的10种方法中的最优值0.83,说明了本文建立的OSSC模型准确度较高。 (5)实现了基于突发事件本体的突发事件智能信息检索原型系统(EIIRS)。EIIRS采用突发事件主题爬虫实现了突发事件文本信息的采集。建立了突发事件本体扩展框架,通过本文所提出的领域概念自动抽取算法(BCAE算法)和概念间关系自动抽取算法(HRAE算法)来对突发事件本体不断进行扩展,目前已扩展至51个类,75个属性和4234个实例。根据突发事件本体的语义关系设计了33条推理规则,采用Jena推理引擎实现了简单的突发事件本体推理。为了实现对突发事件的语义检索,建立了基于突发事件本体的语义检索模型(EOBSR模型)。在EOBSR模型中,为了避免扩展结果同质化和检索结果主题偏移,提出了根据本体中存在的多种语义关系和语义相似度计算模型进行语义查询扩展和排序的方法。突发事件语义检索实验结果表明,采用本文所建立的EOBSR模型不仅能扩展出和查询词有特定语义关系的概念,而且能够使更多相关的检索结果排在前面,重新定义的查准率比Lucene检索的查准率平均提高了33.9%。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 顾榕,王小平,曹立明;一种基于潜在语义分析的查询扩展算法[J];计算机工程与应用;2004年18期
2 聂卉;龙朝晖;;结合语义相似度与相关度的概念扩展[J];情报学报;2007年05期
3 王惠敏;聂规划;付魁;;领域本体中基于多维特征的语义相似度算法研究[J];情报杂志;2008年10期
4 申改英;李建华;;基于语义的Web服务自动组合算法[J];计算机工程;2009年16期
5 黄宏斌;刘志忠;张维明;邓苏;马丽丽;;基于层次本体模型(HOM)的语义相似度计算方法[J];系统工程与电子技术;2009年07期
6 吴飞珍;马文丽;王旺迪;陈启龙;郑文岭;;一种新的基因注释语义相似度计算方法[J];生物信息学;2010年01期
7 骆正华,樊孝忠,夏天;基于结构化问句实例的自动问答系统[J];微电子学与计算机;2005年07期
8 张承立;陈剑波;齐开悦;;基于语义网的语义相似度算法改进[J];计算机工程与应用;2006年17期
9 徐德智;C.Onyango;王怀民;;上位本体中语义相似度的计算及其实现[J];计算技术与自动化;2007年02期
10 张晓孪;王西锋;;FCA中的概念语义相似度计算[J];现代图书情报技术;2007年03期
11 路松峰;冯玲;刘芳;胡和平;;SSW:一种语义相关的P2P网络资源检索机制[J];小型微型计算机系统;2008年08期
12 周粉;夏幼明;;一种改进的基于知网的语义相似度计算方法[J];云南大学学报(自然科学版);2008年S2期
13 史斌;闫健卓;王普;方丽英;;基于本体的概念语义相似度度量[J];计算机工程;2009年19期
14 刘卫;刘金岭;;基于《知网》的词语语义相似度改进及应用[J];福建电脑;2010年05期
15 刘景方;邹平;张朋柱;齐峰;;一种改进的本体概念语义相似度算法研究[J];武汉理工大学学报;2010年20期
16 刘紫玉;黄磊;;基于领域本体模型的概念语义相似度计算研究[J];铁道学报;2011年01期
17 陈琨;张蕾;;基于知识图的领域本体构建方法[J];计算机应用;2011年06期
18 柳巧玲;尚艳艳;;基于领域本体的语义知识检索研究[J];图书情报工作;2011年06期
19 徐德智;郑春卉;K. Passi;;基于SUMO的概念语义相似度研究[J];计算机应用;2006年01期
20 郑丽萍;李光耀;梁永全;沙静;;本体中概念相似度的计算[J];计算机工程与应用;2006年30期
中国重要会议论文全文数据库 前10条
1 殷雅平;;领导应急处置突发事件的对策研究[A];提高领导科学发展能力暨纪念新中国成立60周年理论研讨会论文集[C];2009年
2 吴会军;;论水污染突发事件应急机制[A];水污染防治立法和循环经济立法研究——2005年全国环境资源法学研讨会论文集(第一册)[C];2005年
3 伏军贤;李景梦;刘雅东;刘丹平;;综合医院应对危机和突发公共卫生事件的探讨[A];第四届全国灾害医学学术会议暨第二届“华森杯”灾害医学优秀学术论文评审会学术论文集[C];2007年
4 战俊红;;论突发事件中公共信息管理的效用及实现方法——以美国突发事件中的公共信息管理为例[A];“构建和谐社会与深化行政管理体制改革”研讨会暨中国行政管理学会2007年年会论文集[C];2007年
5 ;毛群安:应该重新认识我们所面对的媒体[A];2007中国医院院长高层论坛论文集[C];2007年
6 疏学明;郑魁;张辉;袁宏永;;突发事件中网络舆情信息管理方式探讨[A];中国突发事件防范与快速处置优秀成果选编[C];2009年
7 张玉波;;突发事件中的谣言应对——从杭州“5·7”交通肇事案谈起[A];公共管理与地方政府创新研讨会论文[C];2009年
8 张玉波;;突发事件中的谣言应对——从杭州“5·7”交通肇事案谈起[A];“中国特色社会主义行政管理体制”研讨会暨中国行政管理学会第20届年会论文集[C];2010年
9 李铭禄;陈安;;“城市公众恐慌”的度量模型及其应用研究[A];第十一届全国心理学学术会议论文摘要集[C];2007年
10 李田田;赵淑红;;多阶段应急管理过程中的公众心理变化分析[A];第十一届全国心理学学术会议论文摘要集[C];2007年
中国博士学位论文全文数据库 前10条
1 杨月华;基于领域知识模型的突发事件智能信息检索系统研究[D];北京邮电大学;2013年
2 刘宏哲;文本语义相似度计算方法研究[D];北京交通大学;2012年
3 宋玲;语义相似度计算及其应用研究[D];山东大学;2009年
4 马慧敏;基于免疫理论的非常规突发事件应急管理主动免疫系统研究[D];武汉理工大学;2010年
5 廖洁明;突发事件应急管理绩效评估研究[D];暨南大学;2009年
6 刘樑;非常规突发事件的关键在线信息挖掘与预警研究[D];电子科技大学;2013年
7 胡晓;支持机械产品概念设计的功能知识聚类方法研究[D];上海交通大学;2011年
8 高杨;突发事件应急管理中的多核应急协同决策方法研究[D];天津大学;2012年
9 汪志红;突发事件应急管理中的关键统计技术研究[D];暨南大学;2011年
10 盛方正;供应突发事件的应对策略研究[D];上海交通大学;2008年
中国硕士学位论文全文数据库 前10条
1 郑丽萍;本体映射的研究[D];山东科技大学;2005年
2 张红宇;数据集成中本体映射的研究[D];中南大学;2005年
3 常晓环;基于概念图的语义检索方法研究[D];吉林大学;2009年
4 任波;基于语义的Web服务发现研究[D];浙江工业大学;2005年
5 秦鹏;基于WordNet的本体匹配关键技术研究与实现[D];华东师范大学;2010年
6 郭嘉琦;领域本体的构建及其在信息检索中的应用研究[D];北京邮电大学;2007年
7 陈爱明;本体复合映射发现技术研究[D];中南大学;2008年
8 赵大明;基于本体的专业搜索引擎的研究与设计[D];西北大学;2009年
9 关淞元;本体匹配算法的研究[D];吉林大学;2009年
10 尹睿;基于语义相似度的论文文本聚类算法研究[D];大连理工大学;2009年
中国重要报纸全文数据库 前10条
1 记者 潘晓华实习生 丁丹璐;提高防范意识 强化处置能力[N];绍兴日报;2008年
2 ;突发事件应对媒体不应“缺位”[N];第一财经日报;2006年
3 王凯山;国家和大众共同努力[N];中华合作时报;2007年
4 紫燕;我州金融部门设置“防火墙”[N];伊犁日报(汉);2007年
5 马志强;我市召开贯彻实施《突发事件应对法》电视电话会议[N];新乡日报;2007年
6 左 同;建立突发事件监测预警机制[N];证券日报;2004年
7 本报记者 唐冬梅;“内容管理”:突发事件应急处理的保障[N];中国改革报;2003年
8 唐云峰 林明;传媒切莫“猎奇”[N];广安日报;2006年
9 韩雪;别让这种规定成为媒体的“紧箍咒”[N];检察日报;2006年
10 楼晓明;《突发事件》:两个基层干部新形象[N];中国电影报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978