收藏本站
《厦门大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于树形结构的Web信息抽取技术研究

任仲晟  
【摘要】: 随着Internet的快速发展,Web已经发展成为一个巨大的、分布式的和共享的信息资源。目前Web数据大都以HTML页面的形式出现。由于HTML描述的数据是一种半结构化的数据,这使得由HTML描述的Web页面只适合人类的浏览,应用程序无法直接解析并利用Web上的丰富信息。为了增强Web数据的可用性,提供更多的增值服务,出现了Web信息抽取技术。它通过包装(wrapper)现有的Web信息源,将网页上的信息以结构化的方式抽取出来,为应用程序利用Web中的数据提供了可能,因此有着广阔的前景,是当今数据库领域的研究热点之一。 本文首先对Web信息抽取的一些基本概念做了简要介绍,并简述了Web信息抽取技术的产生和发展。在此基础上,给出了适用于本文算法的Web页面的定义。 其次详细介绍了当前Web信息抽取技术的一些常用方法,并对这些方法进行分类,进而对这些方法进行对比分析,指出各种方法的优缺点。在分析了多种方法的基础上,讨论了未来Web信息抽取技术研究发展的方向。 最后,提出了一种基于树形结构的Web结构化数据抽取算法。该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法,以及数据记录模式生成算法。本算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取。通过理论分析和实验表明,该方法可以有效地实现Web结构化数据抽取。
【学位授予单位】:厦门大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.1

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前3条
1 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
2 李慧艳;树形导航结构编辑器的设计与实现[D];长安大学;2011年
3 连璐;WEB主题信息采集系统的设计与实现[D];电子科技大学;2011年
【参考文献】
中国期刊全文数据库 前1条
1 李庆华,刘昊;用待确定的上下文无关文法分析半结构化数据[J];华中理工大学学报;1999年05期
【共引文献】
中国期刊全文数据库 前10条
1 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
2 范进;;产业结构对产业集群影响力的实证分析[J];安徽广播电视大学学报;2006年04期
3 于立红;杜芸;;数据挖掘中数据预处理方法与技术[J];安徽电子信息职业技术学院学报;2009年04期
4 舒坚;郑诚;陈振;;基于关联分类方法的Web使用挖掘研究[J];安徽大学学报(自然科学版);2006年02期
5 唐超礼;魏圆圆;;基于数据挖掘的植保预测系统[J];安徽农业科学;2008年12期
6 刘秋生;吴小倩;;基于数据挖掘的固定资产投资效益评价[J];安徽农业科学;2011年11期
7 张友志;钱萌;程玉胜;;基于关联规则web日志挖掘方法的研究[J];安庆师范学院学报(自然科学版);2006年01期
8 吴焕瑞,张红霞;数据库技术的新发展与新特点[J];保定师范专科学校学报;2004年02期
9 高洪歌;赵会群;;关联规则挖掘在乒乓球比赛技战术分析中的应用[J];北方工业大学学报;2006年01期
10 贺巍巍;郑力;高本河;;供应商选择多层次熵权综合评价法研究[J];北京交通大学学报(社会科学版);2007年03期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 杨青;刘晔;张东旭;刘畅;;快速查找最优初始聚类数K的改进K-means算法[A];中国自动化学会控制理论专业委员会A卷[C];2011年
3 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
4 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
5 杨雯怡;郑康锋;杨义先;;一种自适应的网络安全防护方案[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
6 张宇;;基于XML的Web数据自动挖掘[A];科技创新与节能减排——吉林省第五届科学技术学术年会论文集(上册)[C];2008年
7 张秋彤;;数据挖掘与高校图书馆个性化信息服务[A];第九届中国不确定系统年会、第五届中国智能计算大会、第十三届中国青年信息与管理学者大会论文集[C];2011年
8 丁信宙;仇环;苏晓庆;;基于云理论的缺损数据推理和预测[A];山东省测绘学术年会论文集[C];2006年
9 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
10 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
中国博士学位论文全文数据库 前10条
1 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
4 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
5 郜峦;基于文献分析的“肺与大肠相表里”证治规律及其关系研究[D];北京中医药大学;2011年
6 卢又燃;放射科随访数据库建立与粗糙集方法辅助诊断胶质瘤分级的应用分析[D];复旦大学;2009年
7 金海浩;五行相生间接补法古代应用规律研究[D];南京中医药大学;2011年
8 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
9 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
10 韩建光;企业财务困境预测动态建模研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 张进;我国施工劳动生产率管理研究[D];大连理工大学;2010年
5 李仁良;决策树算法在临床诊断中的应用研究[D];辽宁工程技术大学;2009年
6 刘芳;改进的蚁群聚类算法在森林火灾预测中的应用研究[D];辽宁工程技术大学;2009年
7 刘晓英;知识关联及其应用研究[D];湘潭大学;2010年
8 刘巍;基于聚类的孤立点发现技术研究及其在审计中的应用[D];中国海洋大学;2010年
9 韩成勇;高校学评教决策支持系统设计与实现[D];苏州大学;2010年
10 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 杨树林;;正则表达式在网络教学系统中的应用[J];北京印刷学院学报;2005年04期
2 王丽;唐建雄;;基于DOM和网页模板的Web信息抽取[J];电脑知识与技术(学术交流);2007年18期
3 陈林凯;;Web数据挖掘技术及其应用[J];福建电脑;2008年11期
4 李彦刚;魏海平;侯兴华;;基于HTMLParser的Web信息抽取系统的设计与实现[J];辽宁石油化工大学学报;2006年02期
5 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
6 陈少飞,郝亚南,李天柱,徐林昊,杨文柱;Web信息抽取技术研究进展[J];河北大学学报(自然科学版);2003年01期
7 杨敬伟;杨文柱;高悦;;基于DOM的Web信息抽取规则的构造与实现[J];河北大学学报(自然科学版);2007年02期
8 杨喜权;孔德冉;施华;孙娜;张野;;基于领域本体的Web信息抽取[J];信息技术;2009年09期
9 欧建雄,张礼平;HTML数据内容的抽取与集成[J];华东理工大学学报;2003年06期
10 白红哲,马立勇;基于正则表达式的话务报告处理软件的实现[J];通信管理与技术;2005年02期
中国重要会议论文全文数据库 前3条
1 唐晓雯;刘燕;;多媒体技术应用于课堂教学的一些思考[A];北京力学会第11届学术年会论文摘要集[C];2005年
2 赵军武;;关于运用多媒体技术进行高校教学改革的思考[A];北京市高等教育学会技术物资研究会第十届学术年会论文集[C];2008年
3 赵新彦;;多媒体教学的实践与探讨[A];电子高等教育学会2005年学术年会论文集[C];2005年
中国博士学位论文全文数据库 前1条
1 胡明;Web中文信息智能获取与分类研究[D];吉林大学;2005年
中国硕士学位论文全文数据库 前10条
1 王寒光;基于WEB课件发布平台的研究与实践[D];北京化工大学;2003年
2 向欣;学习资源元数据的存储和搜索[D];清华大学;2004年
3 贺智平;Web信息自动抽取技术研究[D];西安电子科技大学;2006年
4 吴治宗;基于XML的文档处理技术的研究与实现[D];大连理工大学;2006年
5 李石;Web课件制作系统的研究[D];大连海事大学;2007年
6 冯礼;基于事件框架的突发事件信息抽取[D];上海交通大学;2008年
7 周娜琴;基于构件的软件可靠性分析[D];湖南师范大学;2008年
8 袁敏;软件测试技术及软件构件验证的研究[D];湖南师范大学;2008年
9 陈川波;基于半结构化文本信息抽取的简历识别系统[D];北京邮电大学;2008年
10 高迪;基于构件的资产信息管理系统软件产品线技术的研究与实现[D];北京化工大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 黄晨;;语义关系抽取发展现状及抽取方法的研究[J];福建电脑;2009年06期
2 崔春;龚捷;;Web信息抽取研究综述[J];电脑知识与技术;2011年10期
3 龙丽;庞弘燊;;国外Web信息抽取研究综述[J];图书馆学刊;2008年05期
4 朱晴;姜利群;张言辉;;半结构化的Deep Web信息抽取技术[J];电脑知识与技术;2010年15期
5 田学东;李树成;;WEB主题检索的性能优化设计[J];计算机工程与应用;2006年04期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026