收藏本站
《电子科技大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于神经网络的Web信息抽取系统的研究与实现

明廷波  
【摘要】: 随着Internet的迅猛发展,Web已成为最重要的知识库之一。对这些知识进行高效快速的抽取并加以利用,具有良好的应用前景和应用价值。Web信息抽取的目标是从多个异构的Web站点中定位和识别感兴趣的信息,并将抽取结果以统一的结构化形式表示。Internet上的Web页面固有的数量巨大、异构且动态变化的特点,给Web信息抽取带来了复杂性、可扩展性和适应性等问题。 本文在分析半结构化文档特点的基础上,提出基于BP神经网络的Web信息抽取系统框架结构。系统采用XML作为Web页面的表示模型,利用BP神经网络进行规则学习。系统包括几个知识库以及网页预处理、规则学习和信息抽取三个子模块,分别从语义内容表示、逻辑结构、规则生成以及抽取结果四个层面对Web页面进行描述。 本文的工作重点是基于BP神经网络的规则学习方法,规则的表示结合网页的路径特征、左右边界特征和语义特征来定义。神经网络将样本集中过滤后的DOM树的标签元素作为网络的输入,标注抽取结果作为理想输出,通过反向传播学习算法对网络进行训练。训练结束后,根据规则学习算法学习生成简单、健壮的规则库,以供信息抽取模块使用。 实验表明,系统可以对感兴趣领域进行抽取规则学习,具有良好的可扩展性和适应性。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP311.52

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 马欢;;XML在电子商务中的应用[J];China's Foreign Trade;2011年14期
2 李恒;;元数据管理系统的研究与实现[J];电脑知识与技术;2011年13期
3 谢峰;;双XML模式在异构数据交换中的应用研究[J];黑龙江科技信息;2011年21期
4 顾锦江;;基于AS技术的计算机网络虚拟实验的开发[J];计算机应用与软件;2011年07期
5 周强;;XML在动态网页中的应用[J];科技传播;2011年15期
6 周长敏;唐型基;;XML技术在考试系统中的应用研究[J];电脑知识与技术;2011年23期
7 陈爱华;;基于XML和Web Service的异构数据库数据交换[J];武汉船舶职业技术学院学报;2011年04期
8 黎娜;张庆吉;;移动数据库同步技术及其应用[J];现代计算机(专业版);2011年10期
9 刘智琦;徐奕奕;;XML在电子商务中的应用[J];黑龙江科技信息;2011年20期
10 朱兴统;许波;;一种基于粗糙集理论的XML数据挖掘模型[J];科学技术与工程;2011年20期
中国重要会议论文全文数据库 前10条
1 廉成洋;毛宇光;;一种基于二叉树的HTML到XML的转换方法研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
2 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
5 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
9 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
10 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
6 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
7 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
8 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
9 侯青;国际电子商务XML/EDI特点及现状[N];国际商报;2001年
10 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
中国博士学位论文全文数据库 前10条
1 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
2 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
3 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
4 张晨静;XML关键字过滤技术[D];复旦大学;2011年
5 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
6 汪源;XML事务模型及并发控制研究[D];浙江大学;2006年
7 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
8 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
9 李荷华;面向智能体的化工过程运行系统信息集成模型研究[D];华南理工大学;2003年
10 朱晓冬;数字博物馆关键技术研究[D];西北大学;2004年
中国硕士学位论文全文数据库 前10条
1 石宇;基于XML的Web信息抽取与集成技术的研究[D];大连海事大学;2006年
2 程书红;基于XML的Web信息抽取设计与实现[D];重庆大学;2007年
3 明廷波;基于神经网络的Web信息抽取系统的研究与实现[D];电子科技大学;2006年
4 陈龙;基于WEB信息抽取的企业竞争情报系统研究[D];合肥工业大学;2007年
5 肖烽;基于XML和XSLT的Web信息抽取研究与设计[D];电子科技大学;2008年
6 轩艳艳;基于XML的Web信息抽取研究与实现[D];武汉理工大学;2008年
7 刘玲;一种通用Web信息抽取系统的研究与实现[D];西南石油大学;2007年
8 王旭东;基于Web的信息抽取技术研究[D];西南交通大学;2008年
9 秦磊;基于XML的信息抽取和集成模型的研究与设计[D];南昌大学;2007年
10 邱亚娜;信息化教育领域的Web信息抽取技术研究[D];天津师范大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026