收藏本站
《大连海事大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

开放式环境中的本体演化及其在信息抽取的应用研究

刘亚清  
【摘要】:语义Web系统的核心是本体。大家公认在语义Web领域本体和信息抽取(IE)的组合构成了一个知识处理循环:本体在合适的上下文为IE提供文本解释,使其更准确更有效,而IE可以提取新知识,与已有本体集成。近年来两者方方面面的研究工作已经投入了巨大的努力。然而,本体往往要改变,随时间而演进,本体演化既费时费力,又容易出错,依赖于用户的知识表示能力及其大量输入和判断,这在开放式环境中更是如此。例如,问题会存在于IE系统对信息项分布变化的适应性,本体变化及其副作用,本体版本之间的语义差异计算等。在综述本体演化和IE研究现状的基础上,本论文就是探讨这些问题在开放式环境中的解决办法。 针对开放式环境中并行修改本体的特点,本文提出了开放式环境中本体变化分析与处理的基本框架。首先指出了本体变化序列间存在依赖、直接冲突、间接冲突以及相容四种关系类型;然后基于本体变化序列的冲突关系,将本体变更划分为三个阶段:在初始的本体变化序列集合中搜索所有相互冲突的本体变化序列集合,即冲突集;根据冲突集,将初始的本体变化序列集合划分为多个极大可顺序执行本体变化序列子集;根据本体变化序列的依赖关系,对于当前本体执行每个极大可顺序执行本体变化序列子集中的本体变化序列。最后通过两个具体的案例,诠释了这一方法的应用价值。 针对当前本体版本差异检测算法执行效率低下的问题,本文提出一种基于概念格模型的本体版本差异检测算法。首先将本体版本映射为形式对象,本体的概念分类关系映射为形式属性,将本体版本空间表示为概念格模型。然后在概念格模型的支持下,针对有参差异检测和无参差异检测的具体问题提出相应的检测算法。在证明算法正确性的同时,也分析了算法高效的执行效率。 针对IE领域中存在的“信息项缺失”、“信息项多属性值”以及“信息项无序”问题,本文提出一种基于本体的Web信息抽取方法。首先将Web文档解析为一棵扩展的DOM树,将信息项在扩展DOM树中的位置特征映射为层次抽取模型中的相关参数,然后使用归纳学习的方法来构造基于隐马尔可夫模型的层次抽取模型,并在本体的指导下进一步修正层次抽取模型,最终实现Web信息抽取。实验结果证明了该方法可以获得更高的准确率。 最后使用Java语言实现了一个面向交通运输领域的本体演化及信息抽取的原型系统。
【学位授予单位】:大连海事大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 彭静;罗伟;;一种从自然语言文本到本体模型的转换方法[J];电大理工;2011年02期
2 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
3 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
4 赵静;鄢萍;陈国荣;胡林桥;;基于本体的机电设备故障诊断知识表示方法研究[J];制造业自动化;2011年15期
5 毕强;鲍玉来;;数字图书馆知识组织体系构建的发展路径——概念格与本体的互补融合[J];华中师范大学学报(人文社会科学版);2011年05期
6 孙全红;张贞贞;;基于树结构的Web表格信息抽取方法[J];华北水利水电学院学报;2011年03期
7 张永兴;孙四明;张峰;;基于本体的信息检索系统研究[J];微计算机信息;2011年07期
8 崔晓晖;印桂生;;基于匹配算法的服务发现本体模型[J];计算机应用研究;2011年08期
9 舒毅;杨凡;;基于语义相似度的Web服务匹配研究[J];计算机应用与软件;2011年08期
10 钱程;阳小兰;;HTML到XML转换研究[J];计算机与现代化;2011年08期
中国重要会议论文全文数据库 前10条
1 陈静;朱巧明;贡正仙;李培锋;;特定本体指导的信息抽取技术研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 徐立恒;刘洋;来斯惟;刘康;田野;王渝丽;赵军;;基于多特征表示的本体概念挂载[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 缪嘉嘉;李爱平;刘志忠;吴泉源;贾焰;;一种面向语义信息集成的本体扩展方法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
7 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
9 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
10 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 汪学群;乾嘉汉学家对理的新诠释[N];中国社会科学院院报;2008年
5 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
6 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
7 董振东;到用户中去[N];中国计算机报;2003年
8 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年
9 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
10 马志彦;悄然而至的EIP[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 米杨;基于顶级本体整合的医学领域语义标注研究[D];吉林大学;2012年
3 姜赢;维度本体及其应用[D];武汉大学;2009年
4 云红艳;设备功能视点下的海洋生态本体构建及应用研究[D];中国海洋大学;2012年
5 杨志和;教育资源云服务本体与技术规范研究[D];华东师范大学;2012年
6 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
7 冯莎莎;本体逻辑差的研究[D];吉林大学;2011年
8 陈雯;基于本体框架的交通出行语义轨迹建模、标记及数据库研究[D];华东师范大学;2011年
9 饶国政;基于语义WIKI的本体知识库研究[D];天津大学;2009年
10 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
2 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
3 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
4 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
5 郭力;Web正文信息抽取与面向层次结构的分类技术研究[D];华南理工大学;2011年
6 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
7 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
8 张静;面向OA期刊检索结果页面的信息抽取方法研究[D];燕山大学;2010年
9 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
10 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026