收藏本站
《长春工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于概念树的Web信息抽取技术研究

谷文  
【摘要】:由于互联网的迅速发展,人们生活在数据信息的世界中。每天都会有大量的Web信息在互联网上发布转载,每天都会有大量的信息资料在互联网上上传下载。互联网上的信息犹如大海一般无边无际。人们越来越需要一种技术和工具来帮助他们快速的找到自己所需的信息。人们希望这种方法和工具能够具有准确率高、效率快和人工智能的特点。Web信息抽取技术成为关注的焦点。 目前,已经研究出多种Web信息抽取技术和系统,在信息抽取领域也取得了重要的成就,但是他们之间也表现出一些差异和不足。其主要是抽取机制的不同和最终抽取结果形式的差异。根据采用的原理可以将Web信息抽取分为六种方式,例如基于包装器语言的信息抽取、基于HTML结构的信息抽取、基于自然语言处理方式的信息抽取等等。在建立抽取模板方面,一部分系统只能生成单槽抽取规则,这样导致结果非常单一,而且效果不理想;还有一些是多槽抽取规则,但是需要专业人员人工编制,这样需要对相关抽取内容非常熟悉,实施起来相对复杂一些;另外一些系统对抽取对象内容非常苛刻,只适用某一种类型的或某一内容的文本进行抽取,这样就减弱了信息抽取的适用性。 针对上述问题,本文采用基于概念扩充的方式建立信息抽取模板和基于概念的抽取规则。本文研究目的就是要研究一种有效的学习算法来自动生成抽取规则,这样即使是非专业人士也能顺利的指导抽取规则的生成并从相似结构的网页中抽取到自己需要的信息。本文采用基于语义概念扩充的机制,通过适当的人为设置,提高系统的稳定性和有效性。语义概念扩充采用的是概念树机制,本文主要针对概念树的建立和概念树的编码进行研究。信息抽取过程中充分利用了概念扩充机制,从抽取模板的建立,到抽取文本的信息过滤和信息映射机制,到最后的文本数据库的查询机制都体现了概念扩充的作用。当然,信息抽取中抽取文本的处理也很重要,本文针对三个主要问题进行研究讨论,分别是命名实体的识别,指代的消解和时间信息的处理。 本文研究的基于概念的Web信息抽取技术与以往的技术相比较,形成了多槽模板,扩大了抽取结果的范围;在抽取规则中应用了概念机制,也体现了人工智能的特点,更加体现了人性化的抽取信息。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前6条
1 刘爽;;信息抽取技术及其在数字图书馆中的应用前景分析[J];现代情报;2006年11期
2 黄晨;;语义关系抽取发展现状及抽取方法的研究[J];福建电脑;2009年06期
3 崔春;龚捷;;Web信息抽取研究综述[J];电脑知识与技术;2011年10期
4 龙丽;庞弘燊;;国外Web信息抽取研究综述[J];图书馆学刊;2008年05期
5 朱晴;姜利群;张言辉;;半结构化的Deep Web信息抽取技术[J];电脑知识与技术;2010年15期
6 田学东;李树成;;WEB主题检索的性能优化设计[J];计算机工程与应用;2006年04期
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978