收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

表格信息抽取引擎的设计与实现

田红  
【摘要】:随着Internet应用的逐渐普及,WWW已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。但因Internmet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需信息。如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰网络用户的一大难题。 文中将网络数据挖掘和信息抽取(Information extraction)的思想引入WWW信息处理领域来解决网上信息有效获取的问题。研究和讨论针对Web表格的信息抽取,即怎样从表格中大量的文本数据中抽取出用户所关心的信息。其目的是提供一种以web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具。 本文首先对信息抽取技术的发展情况进行了概述,然后重点讨论针对表格的信息抽取。分析并给出了表格信息抽取引擎的系统结构,以及实现该系统所涉及的关键技术和数据模型,介绍了系统中两个主要工具,即二叉树构造工具和信息抽取工具的设计和实现方法。最后总结了完成的工作,以及有待进一步改进和完善的地方。 经测试表明,系统能够较好地解决WWW上的表格信息抽取问题。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 侯锟;罗海龙;;Web页面表格信息的自主抽取[J];科技广场;2006年04期
2 翟东升,余旸;国际贸易技术壁垒信息采集系统设计与实现[J];情报杂志;2005年08期
3 蔺聪;;用C#进行Word信息抽取[J];现代计算机(专业版);2010年04期
4 侯锟;刘斌;;Web页面信息抽取技术的研究[J];荆楚理工学院学报;2009年11期
5 毕蕾;沈洁;徐法艳;魏榴花;朱燕;孙荣霜;;领域本体指导的Web商品信息抽取[J];计算机工程与设计;2008年24期
6 化柏林;郭江;;基于规则的高校实验室Web信息抽取的系统设计与实现[J];现代图书情报技术;2009年10期
7 朱树春,韩非,张凡,张亚南;一种适用于办公室自动化的语言—MAPFAST汉字数据库表格系统[J];计算机工程与应用;1986年02期
8 郑小平,梅莉;科技论文表格语言的编辑审读[J];编辑学报;1992年01期
9 金蓓弘;ACCELL/4GL与C函数结合处理通用凭单的方法[J];软件世界;1994年05期
10 田晓明;自动建立和打印教学进度表格专用程序的研究[J];湛江师范学院学报(自然科学版);1994年02期
11 鲍永刚;中文表格自动生成[J];中文信息;1994年06期
12 林永兴,刘运忠;数据库中绘制不占行列的表格线[J];电脑;1995年08期
13 孙洪锋 ,袁渊;Visual FoxPro中的数据辞典[J];计算机周刊;1997年20期
14 王晓阳;用中文之星制作“轻松表格”[J];电脑爱好者;1997年11期
15 赵卫权,杨滨;浅谈运用BD排版语言合理编排图表[J];编辑学报;1998年S1期
16 向勇;二、Excel中表格转换的应用[J];防灾技术高等专科学校学报;1999年04期
17 黎婉玲,阎书凤;浅议医学期刊表格量与单位及有关问题[J];中山大学学报论丛;2000年01期
18 杨启凌;;使用Informix数据库经验谈[J];金融电子化;2000年05期
19 朱运喜;WPS2000表格精确套打法[J];电子与电脑;2001年05期
20 陆科进,李新颖;基于Ontology的文本信息抽取[J];计算机应用研究;2003年07期
中国重要会议论文全文数据库 前10条
1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
6 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
7 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 孙岩;邓晓群;沈志超;;医学论文编辑中怎样明确表格的自明性[A];学报编辑论丛(第十三集)[C];2005年
9 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
10 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
5 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
6 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
7 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
8 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
9 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
10 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
2 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
3 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
4 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
5 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
6 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
7 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
8 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
9 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
10 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
中国重要报纸全文数据库 前10条
1 王相伟;小表格引发大变化[N];人民政协报;2008年
2 喻鸿武;用金山表格2002实现表格套打[N];电脑报;2003年
3 小易;将CCED表格巧转换为WORD表格[N];人民政协报;2000年
4 关维;在记事本中快速制作表格[N];电脑报;2003年
5 王宇翔;用CSS打造韩式风格网站[N];电脑报;2003年
6 吴新年;在Word中排序非表格文本[N];中国电脑教育报;2002年
7 一江春水;在WPS Office中实现表格文字竖排[N];中国电脑教育报;2004年
8 王志军;在WPS Office中实现表格文字竖排[N];中国电脑教育报;2004年
9 福建 林荣坤;FrontPage做靓丽表格[N];电脑报;2002年
10 中国软件评测中心测试工程师 杨海峰;习惯轻松制表[N];中国计算机报;2000年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978