收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于XML的WEB信息抽取系统研究与实现

田宇  
【摘要】:随着计算机科学技术与互联网的不断发展,在我们的工作和生活中web已变得必不可少。web上信息资源呈几何级数量增长,web已经成为一个巨大的信息资源库,要想准确有效地获取一条想要的信息变得越来越难,如何从web信息资源库中抽取出有用的信息已经成为众多科研工作者研究的课题,web信息抽取技术应运而生。 本文在研究现有的web信息抽取技术基础上,结合标准的XML技术,提出了基于XML的web信息抽取技术。本文主要工作有以下几点: 1.在研究前人技术成果基础之上,对现有信息抽取技术加以整合和扩展,设计了基于XML的Web信息抽取系统框架模型。 2.研究了信息抽取关键技术,阐述了信息抽取工作流程,设计了抽取规则和抽取配置文件的生成方法。最终,实现了Web信息抽取系统的主要功能。 3.本文对抽取结果进行分类,采用了朴素贝叶斯理论,设计了一个中文Web文本分类系统模型,该模型隶属于整个信息抽取系统框架模型。 4.系统抽取结果是XML数据文档类型,在分析当前数据库存储技术基础上,探讨了将抽取结果经分类后存储到数据库的不同方法。 本文设计的基于XML的Web信息抽取系统能够较好的解决web信息抽取问题,实验结果表明,该系统具有较高的召回率和准确率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 于成龙;;中文网页信息抽取技术及分类算法研究[J];山东理工大学学报(自然科学版);2011年03期
2 杜志强;董方;;基于XML的网络课程资源元数据共享研究[J];天中学刊;2011年02期
3 马欢;;XML在电子商务中的应用[J];China's Foreign Trade;2011年14期
4 李恒;;元数据管理系统的研究与实现[J];电脑知识与技术;2011年13期
5 谢峰;;双XML模式在异构数据交换中的应用研究[J];黑龙江科技信息;2011年21期
6 顾锦江;;基于AS技术的计算机网络虚拟实验的开发[J];计算机应用与软件;2011年07期
7 周强;;XML在动态网页中的应用[J];科技传播;2011年15期
8 周长敏;唐型基;;XML技术在考试系统中的应用研究[J];电脑知识与技术;2011年23期
9 陈爱华;;基于XML和Web Service的异构数据库数据交换[J];武汉船舶职业技术学院学报;2011年04期
10 黎娜;张庆吉;;移动数据库同步技术及其应用[J];现代计算机(专业版);2011年10期
11 刘智琦;徐奕奕;;XML在电子商务中的应用[J];黑龙江科技信息;2011年20期
12 朱兴统;许波;;一种基于粗糙集理论的XML数据挖掘模型[J];科学技术与工程;2011年20期
13 张宗平;张咏;秦慧;;基于Web Services的数据交换平台的应用研究[J];现代计算机;2011年07期
14 李传良;;XML数据访问与数据传输优化[J];科学之友;2011年16期
15 朱兴统;;基于DOM的XML文档到关系数据库的数据转换方法[J];电脑知识与技术;2011年13期
16 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
17 曹风华;;比较分析XML与HTML[J];电脑与信息技术;2011年04期
18 晏立;沈锐;;Java序列化技术的探讨[J];红河学院学报;2011年04期
19 查文利;;基于XML的教学课件系统设计和实现[J];硅谷;2011年13期
20 兰慧红;邓欢;;基于XML的网络课件动态目录树的设计与实现[J];广西教育学院学报;2011年03期
中国重要会议论文全文数据库 前10条
1 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
4 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
9 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 肖冰;廖湖声;郑玉明;;数据集成系统中的XML延迟处理技术[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
4 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
5 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
6 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
7 张晨静;XML关键字过滤技术[D];复旦大学;2011年
8 胡文生;XML数据流上基于窗口的查询处理方法研究[D];武汉大学;2012年
9 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
10 汪源;XML事务模型及并发控制研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 火善栋;基于XML的Deep Web信息抽取系统的研究与初步实现[D];昆明理工大学;2006年
2 宋艳娟;基于XML的HTML和PDF信息抽取技术的研究[D];福州大学;2006年
3 刘洋;Web教学资源抽取技术及其应用研究[D];东北师范大学;2007年
4 余淼;主题搜索引擎的信息抽取和索引的研究[D];重庆大学;2007年
5 朱南丽;基于DOM的网页主体信息块抽取[D];昆明理工大学;2006年
6 史西兵;基于XML的Web信息抽取技术研究[D];西北大学;2008年
7 任军;基于网页结构特征的垂直搜索引擎研究与实现[D];上海交通大学;2008年
8 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年
9 卢睿;基于XML的Web信息抽取研究[D];大连海事大学;2005年
10 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
3 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
4 ;分化并不能阻止XML发展[N];中国计算机报;2000年
5 ;为XML标准定标准[N];中国计算机报;2001年
6 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
7 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
8 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
9 彭芳;搜索也专业[N];中国计算机报;2004年
10 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978