收藏本站
《广西师范大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于本体的旅游领域Web信息抽取

陈立娜  
【摘要】: 随着Internet和Web技术的发展,WWW已经成为一个巨大的信息资源库,然而使用传统的搜索引擎,用户要精确地找到所需信息往往十分困难。Web信息抽取技术正是在这样的背景下出现的。 目前,关于Web信息抽取方面的研究有很多。Web信息抽取的方法主要有基于自然语言处理的、基于包装器归纳的、基于HTML结构的和基于本体的。基于本体的信息抽取方法主要是利用了对数据本身的描述信息,对网页的依赖少,而且本体可提供机器可识别的领域概念知识及其关系,具有简单的推理能力。此外,在信息抽取中使用本体有许多优点。首先,本体提供了一个丰富的、预定义的词汇库,可作为与数据源的稳定的概念接口,并且独立于数据模式。第二,本体表示的知识足够支持所有相关信息源的转换。第三,本体支持一致的管理和非一致数据的识别等。 由上述的分析并结合项目实际的需要,本文提出了一种基于本体的旅游领域Web信息抽取方法,并设计实现了一个广西旅游信息抽取原型系统。本文主要工作和创新点: (1)分析比较了几类主要的本体构建的方法。综合各方面,本文采用Mike Uschold Micheal Gruninger提出的方法构建旅游领域本体。在构建过程中,本文分析研究了本体概念之间的关系、概念的层次结构、概念的等价性、属性约束以及实例的等价性。 (2)介绍了Pellet推理机,阐述了SHOIQ(D)-Tableaux推理算法,研究利用该推理算法对旅游领域本体的推理,包括本体一致性检测、概念的包含关系检测、概念的可满足性检测、属性约束以及实例检测。最后阐述了利用Jena对本体的解析,分析出本体的概念、关键词、关系和实例等信息,存入数据库。 (3)在本体推理解析的基础上,首先根据网页转换为DOM树结构,阐述了利用旅游本体关键词定位页面正文进行页面正文提取的算法。接着阐述利用ICTCLAS分词工具和旅游领域词汇相结合进行的中文分词处理,停用词过滤的分析。最后阐述了抽取规则。在抽取规则的构建中,我们利用了属性的语义特点和三元组相结合的方法。 最后,根据研究的关键技术,本文实现了一个广西旅游信息抽取原型平台—Tourism_IESystem,并以旅游网站的Web页面为实验对象,验证信息抽取系统的性能。表明了本文方法的技术可行性,具有实际应用前景和现实的价值意义。
【学位授予单位】:广西师范大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.11

【相似文献】
中国期刊全文数据库 前10条
1 孙玉娣;裴勇;;专业教学资源库本体模型构建[J];软件;2011年04期
2 赵静;鄢萍;陈国荣;胡林桥;;基于本体的机电设备故障诊断知识表示方法研究[J];制造业自动化;2011年15期
3 安晶;阳程;李青祝;;一种基于本体的PDM产品结构管理系统的构建[J];铁路计算机应用;2011年06期
4 王涛;;基于语义网格的税务信息系统的体系结构设计[J];计算机系统应用;2011年08期
5 毕强;鲍玉来;;数字图书馆知识组织体系构建的发展路径——概念格与本体的互补融合[J];华中师范大学学报(人文社会科学版);2011年05期
6 张永兴;孙四明;张峰;;基于本体的信息检索系统研究[J];微计算机信息;2011年07期
7 崔晓晖;印桂生;;基于匹配算法的服务发现本体模型[J];计算机应用研究;2011年08期
8 舒毅;杨凡;;基于语义相似度的Web服务匹配研究[J];计算机应用与软件;2011年08期
9 彭志平;李晓明;柯文德;;基于本体概念群组划分的语义距离计算方法[J];模式识别与人工智能;2011年02期
10 齐玉东;谢晓方;;基于用例的领域业务服务本体建模[J];微计算机信息;2011年07期
中国重要会议论文全文数据库 前10条
1 许勇;王智学;李宗勇;;基于图形化的本体一致性检查[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
2 冯兰萍;朱礼军;张继国;;一种基于Web应用的领域本体构造方法研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 徐立恒;刘洋;来斯惟;刘康;田野;王渝丽;赵军;;基于多特征表示的本体概念挂载[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 缪嘉嘉;李爱平;刘志忠;吴泉源;贾焰;;一种面向语义信息集成的本体扩展方法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
5 沈国华;黄志球;朱小栋;孔红云;;数据集成中关系数据库到OWL语义映射[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
6 张德政;刘洁卉;;基于图分析的领域知识获取技术[A];着力提高高等教育质量,努力增强高校创新与服务能力——北京市高等教育学会2007年学术年会论文集(上册)[C];2008年
7 曹居易;石玲;宫学庆;周傲英;;基于OWL的软件工程数据建模[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 李剑;景博;杨义先;;一种基于OWL的网络安全信息描述机制[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
9 李宏伟;吴国荣;袁永华;;基于本体的Web服务自动组合方法研究[A];第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C];2006年
10 李帆;夏士雄;张磊;王志愿;;基于语义划分的多层关联规则冗余处理方法[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
中国重要报纸全文数据库 前7条
1 本报记者 张欣;无线光传输 走向商用[N];计算机世界;2002年
2 汪学群;乾嘉汉学家对理的新诠释[N];中国社会科学院院报;2008年
3 李勇;实践别样无线[N];中国计算机报;2002年
4 本报记者 刘兵;动力来自中国[N];计算机世界;2001年
5 孙永娟;试论成就报道应该“刷新”[N];鄂尔多斯日报;2005年
6 韩震;应加强对西方历史哲学的研究[N];光明日报;2000年
7 雷达;第四种新命运观[N];兰州日报;2005年
中国博士学位论文全文数据库 前10条
1 米杨;基于顶级本体整合的医学领域语义标注研究[D];吉林大学;2012年
2 姜赢;维度本体及其应用[D];武汉大学;2009年
3 云红艳;设备功能视点下的海洋生态本体构建及应用研究[D];中国海洋大学;2012年
4 杨志和;教育资源云服务本体与技术规范研究[D];华东师范大学;2012年
5 冯莎莎;本体逻辑差的研究[D];吉林大学;2011年
6 杜文华;本体的构建及其在数字图书馆中的应用研究[D];武汉大学;2005年
7 陈雯;基于本体框架的交通出行语义轨迹建模、标记及数据库研究[D];华东师范大学;2011年
8 饶国政;基于语义WIKI的本体知识库研究[D];天津大学;2009年
9 陈立;物流信息语义匹配研究[D];北京交通大学;2011年
10 钟美;基于Web的空间本体构建方法研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 赵久艳;基于本体的教学管理系统语义检索研究[D];哈尔滨工程大学;2007年
2 王娜;基于Silverlight技术的本体编辑器的设计与实现[D];中国海洋大学;2010年
3 朱颖;本体技术在陶瓷产品配置系统中的研究与应用[D];景德镇陶瓷学院;2010年
4 任雨;基于本体的信息检索研究[D];南京理工大学;2009年
5 范轶;基于本体推理的心电图辅助诊断系统研究[D];吉林大学;2010年
6 徐济成;面向农业领域的本体学习建模研究[D];安徽农业大学;2010年
7 夏秋香;基于OWL的本体整合系统关键技术的研究[D];天津理工大学;2012年
8 李琼;基于机器学习的本体概念映射研究[D];西安工业大学;2010年
9 王刚;本体构建研究及其在火车订票系统中的应用[D];江苏科技大学;2010年
10 王江松;基于数据库和推理机的OWL本体查询技术的研究[D];东北大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026