收藏本站
《长春工业大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web数据集成关键技术研究

刘凯  
【摘要】:随着互联网动态网页技术的飞速发展,越来越多的信息被存储在Web后台在线数据库中,这些信息不能被传统的网络爬虫所抓取,而只能通过在Web页面上提供的查询接口来访问,因此传统搜索引擎无法对它们进行索引,这就使得大量有用的信息不能够方便、快捷的被用户使用,而这部分信息就被称为Deep Web信息。 Deep Web具有信息量大、质量高、内容专题性强等特点,因此对Deep Web信息集成技术的研究也越来越多的受到了国内外科研人员的重视。本文对Deep Web信息集成过程中的Deep Web入口发现、Deep Web查询转换和Deep Web结果抽取三个关键技术进行了深入研究,具体研究内容和工作包括以下几点: (1)领域本体 本体作为知识的一种表示形式以应用到各大研究领域,本文利用领域本体增加入口发现、查询转换的准确性。而对于领域本体的建立,利用手工收集的Deep Web入口页面作为样本,用这些查询页面的属性信息来建立领域本体,因此本文所建立的领域本体能够直接反映Deep Web查询接口的属性信息,但由于缺少领域专家的支持,领域本体建立的并不全面,因此本文会在领域本体使用的过程中对领域本体自动的扩充。 (2) Deep Web入口发现 本文在研究Deep Web入口页面的基础上,提出了一个新的入口发现方法,该方法在主题爬虫中加入Form表单发现模块和入口发现模块,对于主题爬虫选用贝叶斯分类器让爬虫始终抓取与主题相关的页面,而对于Form表单发现模块,即在爬虫对页面抓取的过程中判断页面是否存在Form表单,如存在则送到入口发现模块,利用领域本体来检查此页面Form表单的属性信息。 (3) Deep Web查询转换 对查询转换的研究,文中提出属性匹配表来加快属性间信息匹配,即对于查询信息会先在属性匹配表中进行匹配,如成功则直接转到本地查询接口,不成功再让属性和本体进行匹配,以此来简化查询转换的过程。 (4) Deep Web结果抽取 在对Deep Web结果抽取的研究中,本文利用DOM树和页面信息模块比对技术来抽取页面上的结果信息,根据观察发现,分页显示的结果页面的布局的页面的头部、底部和边上的内容都是相同或相似的,且只有页面上的结果信息在变化,而形式却没有变化,因此可以对页面建立DOM树,并利用页面信息模块比对技术对DOM树中且有相同信息的枝节进行删减.最终获取结果信息。
【学位授予单位】:长春工业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 林超;赵朋朋;崔志明;;Deep Web数据源聚焦爬虫[J];计算机工程;2008年07期
3 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
4 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
5 姜芳艽;孟小峰;贾琳琳;;Deep Web集成服务的不确定模式匹配[J];计算机学报;2008年08期
6 徐和祥;张永忠;胡运发;;一种安全验证模式下Deep Web爬虫的研究[J];计算机应用与软件;2010年05期
7 刘伟;孟小峰;凌妍妍;;一种基于图模型的Web数据库采样方法[J];软件学报;2008年02期
8 杨少华;林海略;韩燕波;;针对模板生成网页的一种数据自动抽取方法(英文)[J];软件学报;2008年02期
9 袁柳;李战怀;陈世亮;;基于本体的Deep Web数据标注[J];软件学报;2008年02期
10 王辉;刘艳威;左万利;;使用分类器自动发现特定领域的深度网入口(英文)[J];软件学报;2008年02期
【共引文献】
中国期刊全文数据库 前10条
1 梁峰;金莹;;基于Agent技术的语义网服务模型[J];安徽广播电视大学学报;2008年01期
2 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
3 陶皖,李平,廖述梅;当前基于本体的语义标注工具的分析[J];安徽工程科技学院学报(自然科学版);2005年02期
4 赵秀芳;;基于本体的农业信息检索[J];安徽农业科学;2006年10期
5 蔡曈;徐惠;吴群;;土壤质量聚类分析——以封丘县为例[J];安徽农业科学;2008年25期
6 薛荟;谭三清;;林业应用系统本体知识模型的构建方法研究[J];现代农业科技;2011年07期
7 赵靖;王侨文;管马周;单传佳;;自动提取布局结构相似网页的结构化信息[J];安徽科技学院学报;2010年06期
8 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
9 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
10 李善飞;鲁延京;杨克巍;谭跃进;;武器装备体系能力形式化描述研究[J];兵工自动化;2010年02期
中国重要会议论文全文数据库 前10条
1 李贵;张兆鑫;李征宇;韩子洋;;WEB环境下基于领域本体的语义匹配技术研究[A];科学发展与社会责任(A卷)——第五届沈阳科学学术年会文集[C];2008年
2 李伟刚;张克亮;王慧兰;;基于航空领域本体知识库的语义检索研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王建州;李廉;汪映海;;面向Ontology的电力信息系统的研究[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
4 郑笈;李思昆;陆筱霞;;大规模场景绘制的存储数据调度组织研究[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年
5 杨昆;王军;彭双云;;基于Ontology的空间信息互操作初步研究[A];中国地理信息系统协会第八届年会论文集[C];2004年
6 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
7 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
8 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
9 范志煜;肖兵;沈薇薇;;基于概率本体的态势估计应用研究[A];中国自动化学会中南六省(区)2010年第28届年会·论文集[C];2010年
10 贾凌燕;陆一平;;浅谈ontology方法及其发展[A];全国先进制造技术高层论坛暨制造业自动化、信息化技术研讨会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 卜志国;海洋生态环境监测系统数据集成与应用研究[D];中国海洋大学;2010年
2 熊晶;海洋生态本体的建模方法研究及应用[D];中国海洋大学;2010年
3 张俐;面向概念设计方案选择的协同决策方法研究[D];华中科技大学;2010年
4 韩赟;高技术虚拟企业(HTVE)知识管理模式研究[D];哈尔滨理工大学;2009年
5 王亚萍;需求驱动的个性化产品配置设计方法研究[D];哈尔滨理工大学;2010年
6 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
7 游颖;客车信息集成控制系统配置设计中的分解技术研究[D];武汉理工大学;2010年
8 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
9 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
10 连莉;本体中非分类关系的理论体系研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 厉颖;基于本体的服装领域知识表示的建模研究[D];山东科技大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 商翠珍;数据资源汇聚的可视化建模技术研究与应用[D];山东科技大学;2010年
5 朱静;数据资源汇聚中嵌套表格模型的研究与应用[D];山东科技大学;2010年
6 吕媛媛;基于本体的物流信息集成系统的研究[D];山东科技大学;2010年
7 夏怀楠;支持跨域数据汇聚的关系数据访问服务研究[D];山东科技大学;2010年
8 许坤;基于本体的应急信息管理系统的研究与设计[D];郑州大学;2010年
9 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
10 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前4条
1 封化民,刘飚,刘艳敏,方勇,宋国森;含有位置坐标树的Web页面分析和内容提取框架[J];清华大学学报(自然科学版);2005年S1期
2 凌妍妍;孟小峰;刘伟;;基于属性相关度的Web数据库大小估算方法[J];软件学报;2008年02期
3 徐和祥;王鑫印;王述云;胡运发;;基于知识的Deep Web集成环境变化处理的研究[J];软件学报;2008年02期
4 高岭;赵朋朋;崔志明;;Deep Web查询接口的自动判定[J];计算机技术与发展;2007年05期
【相似文献】
中国期刊全文数据库 前10条
1 张蒲生,苏运霖;基于政务数据仓库的数据集成及关键技术[J];计算机工程;2003年09期
2 吴健鸣;;利用Java实现Lotus Domino和数据库系统的数据集成[J];上海电机学院学报;2006年03期
3 范志勇;肖冬荣;张群;;基于PDM框架下的CAPP与PDM的数据集成[J];微计算机信息;2007年04期
4 武树东;赵全明;索依娜;;物流信息系统中的数据集成技术[J];商场现代化;2007年10期
5 张恩;刘春红;段德全;;基于XML/Web Services的异构数据集成研究[J];广西师范大学学报(自然科学版);2008年03期
6 刘高嵩;龙军;;基于CORBA和Web Services的异构数据源集成研究[J];计算机系统应用;2009年07期
7 刘春玲;;基于虚拟视图的教务管理数据集成方式研究[J];电脑知识与技术;2010年19期
8 连云峰;卢昱;陈立云;马懿;;军械装备保障模拟训练系统数据集成研究[J];信息技术;2011年05期
9 王艳君,王运格,吴丽红;异构数据库间数据集成的方法[J];烟台师范学院学报(自然科学版);1999年04期
10 李军怀,张景,周明全,耿国华;基于XML的企业异构数据集成方法研究[J];计算机工程;2002年09期
中国重要会议论文全文数据库 前10条
1 曹禹;申德荣;于戈;余恩运;周文生;寇月;;数据网格内一种基于本体的数据集成处理机制[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
2 祝晓红;刘炜;李俊丽;;用WPF进行复杂数据集成的方法研究[A];第二十七届中国控制会议论文集[C];2008年
3 王帅;缪嘉嘉;李爱平;韩伟红;贾焰;;一种基于构件技术和消息代理模式的数据集成方法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 姜芸;吴学伟;;面向服务的地理数据集成中间件的设计与实现[A];第二届“测绘科学前沿技术论坛”论文精选[C];2010年
5 胥永康;吴志杰;席传裕;岳筱玲;;基于数据拆分的数据集成技术研究[A];2005全国计算机程序设计类课程教学研讨会论文集[C];2005年
6 杨雪梅;李灿东;周任材;林端宜;;中医症状术语体系库的建立[A];中国中西医结合学会诊断专业委员会2009’年会论文集[C];2009年
7 许桂芝;翟秉仁;陈丕富;蔡鸿;张爽;;采油厂生产管理信息系统的数据库集成[A];1996中国控制与决策学术年会论文集[C];1996年
8 苏春燕;刘国华;;基于域语义约束的MiniCon算法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
9 张捷;苑洪亮;张瞩熹;宫海林;;基于文件模型的存取导航服务的研究与实现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
10 李明歆;马世龙;许可;;航天器测试数据资源集成的研究[A];2007中国控制与决策学术年会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 于翔;谁碾碎了数据?[N];网络世界;2007年
2 ;SaaS需要数据集成[N];网络世界;2007年
3 陈友梅;数据集成 永中Office之本[N];中国计算机报;2002年
4 邹大斌;发挥数据的最大价值[N];计算机世界;2007年
5 姜学军(山东省医药卫生科技信息研究所) 程永(浪潮商用系统公司;山东省地税系统的数据集成[N];电脑商报;2005年
6 李稚;“集成”的困惑[N];计算机世界;2002年
7 于翔 王翔;收复数据孤岛[N];网络世界;2007年
8 刘学纲;互联互通平台的数据集成[N];中国计算机报;2003年
9 朱文;CIO希望攻克数据质量关[N];计算机世界;2008年
10 本报记者 邹大斌;Informatica:从数据中淘金[N];计算机世界;2008年
中国博士学位论文全文数据库 前10条
1 王欣;数据集成技术若干问题的研究[D];上海交通大学;2010年
2 张文江;地质灾害数据集成关键技术研究[D];成都理工大学;2013年
3 蒋永国;面向传感网的海洋观测数据集成关键技术研究[D];中国海洋大学;2010年
4 卜志国;海洋生态环境监测系统数据集成与应用研究[D];中国海洋大学;2010年
5 李鹏;面向地质勘查的多源异构数据集成关键技术研究[D];中国地质大学;2013年
6 周春英;超数据集成挖掘方法与技术研究[D];浙江大学;2012年
7 陈义;面向数据集成的数据复制和查询优化[D];中国科学院研究生院(软件研究所);2004年
8 李雁妮;深网数据集成与挖掘关键问题的建模及算法研究[D];西安电子科技大学;2013年
9 张永新;面向Web数据集成的数据融合问题研究[D];山东大学;2012年
10 殷晓冬;声学测深数据处理与海陆数据集成方法研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 张红宇;数据集成中本体映射的研究[D];中南大学;2005年
2 缪建明;集散控制系统的数据集成的研究与应用[D];福州大学;2003年
3 刘军;分布式智能异构数据集成支持系统的原型实现[D];大连海事大学;2003年
4 李凯;面向SCM数据集成的DW解决方案研究[D];大连理工大学;2006年
5 文静;数据集成中数据冲突检测和解决方法研究[D];山东大学;2010年
6 张雪洁;基于XML的数据集成平台框架及关键技术研究[D];河海大学;2004年
7 周艳芳;基于XML的ERP和电子商务数据集成[D];四川大学;2004年
8 袁红;保险公司数据集成关键技术的研究及应用[D];重庆大学;2004年
9 常萍英;基于OPC的机器人焊接生产线监控系统的数据集成及软件开发[D];东南大学;2004年
10 王宇鸽;电子政务中异构数据资源集成技术的应用研究[D];北方工业大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026