收藏本站
收藏 | 论文排版

基于主题和结构的XML网页的数据抽取

朱杰  
【摘要】:近年来互联网正强有力的改变着世界。信息革命不仅极大地改变了人们的生活方式,而且带来了巨大的社会变革。互联网成了一个巨大的信息源,如何在庞杂的数据中准确地抽取出用户想要的信息成为一个非常重要的课题。 随着Web的应用越来越广泛和深入,人们渐渐觉得HTML始终无法满足不断增长的需求,所以制订出了一种新的Web标记语言:XML。随着XML技术的不断发展,Web上出现了一些XML网页。本文针对XML网页,提出了一种基于树结构的Web数据抽取方法。 本文重点研究如何从同一主题的XML网页中抽取出该类主题网页的一般模式,核心技术是通过解析XML文档,按用户主题对解析后的样本XML文档进行模式抽取以及按照模式信息对目标XML文档进行数据抽取。在这里,模式信息实际上就是根据样本文档中符合用户主题的语义块,得到样本页包含相关信息的结构模式,样本页中的所有用户兴趣区域构成一组语义块,通过对语义块的比较和归纳学习,得到我们所需的该类主题的模式信息。然后根据得到的规则,从目标XML文档中寻找与之匹配的信息,抽取出来提交给用户。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李远方;贾时银;邓世昆;韩月阳;;基于树结构的MapReduce模型[J];计算机技术与发展;2011年08期
2 卢晓蓉,陈传波,李兵;基于XML的多数据库系统集成数据模型[J];华中科技大学学报(自然科学版);2002年08期
3 孟小峰;Web数据管理研究综述[J];计算机研究与发展;2001年04期
4 孙霞;程宏斌;;基于节点相对路径的XML模式抽取算法[J];湖州师范学院学报;2009年01期
5 洪欣;陈维斌;蹇崇军;;XML数据到关系数据的映射[J];华侨大学学报(自然科学版);2011年01期
6 雷庆;熊汉琛;;基于标记二叉树的XML数据模式提取算法[J];计算机工程与设计;2009年13期
7 文燕平,周宁;WWW中的XML数据管理研究[J];情报科学;2002年06期
8 杨成;;基于XML的网页信息提取系统的研究与设计[J];电脑知识与技术;2009年26期
9 靳茜;JAVA和XML之间的关系和作用[J];计算机系统应用;2001年06期
10 马稳,欧阳军,沈均毅,张禄林;WWW中XML与CORBA集成技术研究[J];计算机工程;2002年10期
11 吴永明,郭林海;XML在CORBA中的应用探索[J];计算机应用与软件;2002年12期
12 余溥澜,刘丽;树型控件与XML和ADO.NET技术在B/S中的应用[J];计算机应用;2002年10期
13 陈智俊;;Android系统上的解析XML技术浅析[J];科教新报(教育科研);2011年09期
14 孙霞;程宏斌;;基于加权层次结构的XML文档相似度算法[J];武汉理工大学学报;2009年18期
15 刘平兰;基于DOM的数字图书馆Web资源信息提取服务模型之研究[J];情报杂志;2002年11期
16 贾艳宇;;XML在信息系统开发中的应用[J];电脑学习;2009年02期
17 刘必雄;许榕生;;基于XML的综合日志预处理模型设计[J];莆田学院学报;2007年05期
18 沈剑沧;鲍培明;;XML查询方法的设计与研究[J];计算机工程;2007年21期
19 龚安;刘华山;;基于编辑距离的XML文档结构聚类的改进算法[J];微计算机应用;2008年02期
20 吴於茜;在平面设计软件中实现SVG格式文档输出[J];计算机工程与应用;2001年09期
中国重要会议论文全文数据库 前10条
1 陈波;洪晓光;;基于改进树状结构的XML文档简单路径查询多线程实现[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
5 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
9 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
10 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 丘宏俊;基于知识的飞机装配工艺设计关键技术研究[D];西北工业大学;2006年
2 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
3 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
4 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
5 张晨静;XML关键字过滤技术[D];复旦大学;2011年
6 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
7 汪源;XML事务模型及并发控制研究[D];浙江大学;2006年
8 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
9 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
10 李荷华;面向智能体的化工过程运行系统信息集成模型研究[D];华南理工大学;2003年
中国硕士学位论文全文数据库 前10条
1 朱杰;基于主题和结构的XML网页的数据抽取[D];华侨大学;2005年
2 黄务兰;基于Web Services的产生式专家系统和推理机研究[D];湖南师范大学;2005年
3 刘靖超;面向数据采集的信息集成系统设计与实现[D];河北工业大学;2005年
4 王旭磊;基于CBR的电子商务网站智能设计系统的研究[D];青岛大学;2005年
5 李志明;基于Web服务的在线考试系统应用研究与实现[D];广东工业大学;2005年
6 江静;基于XML的公文管理系统设计与应用研究[D];南京理工大学;2005年
7 陈美云;基于XML的柔性信息集成技术研究[D];山东科技大学;2005年
8 朱瑜;工作流引擎研究与实现[D];电子科技大学;2005年
9 谢红;XML技术和B/S模式在职业教育与培训管理信息系统中的应用研究[D];重庆大学;2005年
10 郦金花;基于XML的MARC发布系统的设计与实现[D];苏州大学;2005年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 哈尔滨工业大学 慈轶为;远程XML编辑器的设计[N];计算机世界;2002年
6 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
7 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
8 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
9 武汉大学国家文化创新研究中心 傅才武;将“树结构”转变为“果结构”[N];社会科学报;2010年
10 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978