收藏本站
《大连海事大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web集成查询系统预处理关键技术研究

张春丽  
【摘要】:随着信息化技术的发展,人们越来越倾向于从网络上获取资源。传统搜索引擎能够检索到的网络资源称为Surface Web,而Surface Web仅占整个Web资源的很少一部分。那些隐藏在Web数据库中,靠提交查询生成动态页面获取的资源称为Deep Web。Deep Web信息含量大,领域相关度强,如何高效的获取这些资源成为当前研究的关键问题。 Deep Web集成查询系统是由同领域的Deep Web入口集成的一个全局查询接口,通过对这个集成接口提交查询,可以同时检索到不同Web数据库中的资源。预处理阶段是系统集成过程中的初始阶段,它主要分三步进行:Web入口的发现、查询接口模式抽取、查询接口集成,其最终结果的好坏对后面查询处理和结果处理有着重要影响。因此上述预处理阶段各个步骤采用哪种技术能够获得更高的效率是本文研究的出发点。本文的主要研究工作如下: (1)分析了Deep Web查询表单的特征,针对现阶段Web入口发现技术的优缺点,提出将多分类器聚焦爬行技术应用到Web入口发现上,重点给出各分类器的实现方法,并介绍了种子URL的选取策略;根据查询表单分类过程的启发式规则提出采用基于决策树的表单分类方法,区分出那些非Web入口的查询表单。 (2)研究Web入口的模式特征,针对HTML页面的结构性特征提出基于DOM树和DWI对象模型的模式抽取方法,首先通过网页解析器将接口页面解析成DOM树结构,然后遍历DOM树找出属性元素及其对应的标签,最后用DWI对象模型将查询接口的模式信息表示出来。 (3)比较现有模式匹配技术的优劣势,针对查询接口属性元素的特点,提出基于语义的模式匹配方法,该方法从简单匹配和复杂匹配两个角度分别给出了属性相似度的计算公式,使得模式匹配具有更高的效率。 针对所提出的预处理阶段相关技术,本文分别设计了具体实验,用实验结果证明上述各个方法的有效性。
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.09;TP391.3

【相似文献】
中国期刊全文数据库 前10条
1 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期
2 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期
3 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期
4 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期
5 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期
6 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期
7 李晶,朱秋萍;Web页制作中的动态表现技术[J];计算机工程;2000年06期
8 刘波,代亚非,杜跃进;远程协同教学系统中课程搜索子系统设计[J];计算机应用;2000年06期
9 武庄,刘友丹;基于Web的企业内部质量审核系统设计与实现[J];计算机应用研究;2000年05期
10 梁开健,刘新民;基于ASP的图书馆Web数据库开发[J];高校图书馆工作;2000年04期
中国重要会议论文全文数据库 前10条
1 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
3 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
4 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
8 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
10 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
2 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
3 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
4 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
5 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
6 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
7 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
8 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
9 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
10 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
中国硕士学位论文全文数据库 前10条
1 陈洪平;面向Deep Web的数据抽取与语义标注技术研究[D];苏州大学;2010年
2 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
3 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
4 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
5 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年
6 温梨梨;基于零拷贝的Web服务器技术研究[D];中国海洋大学;2011年
7 焦燕廷;一种基于领域本体的语义Web服务匹配和组合方法[D];山东科技大学;2011年
8 黄亮;Web漏洞扫描系统中的智能爬虫技术研究[D];杭州电子科技大学;2012年
9 赵春娟;Web服务组合方法的研究与实现[D];天津理工大学;2011年
10 任强;基于谓词抽象与精化技术的Web服务验证研究[D];苏州大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026