收藏本站
《苏州大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web数据获取方法研究

蔡欣宝  
【摘要】: 随着互联网的飞速发展,Web中的信息规模日益扩大,为人们提供了各种各样可利用的信息。其中大量的信息是存储在Web数据库当中,只能通过网页中的查询接口才能访问。改变了通过链接来访问网页的方式,使得传统的搜索引擎无法获取,因而被称为Deep Web。高速增长的Deep Web信息已成为人们进行信息获取的一个重要来源,然而Deep Web数据的异构性和动态性,为大规模Deep Web数据集成带来巨大的挑战。通过获取Deep Web的数据,在本地集成Web数据库的重要性正在逐渐凸显。 本文针对Deep Web数据获取的相关技术进行深入研究,并提出了相应的算法和模型。本文的主要研究工作如下: (1)研究了Deep Web站点和查询接口的特点,在表单的属性选择方面,提出了一种基于属性相关度的属性组合有效性的计算方法。 (2)分析了查询接口中属性的特点,提出了通过机器学习的方法识别查询接口中每个特定的文本属性。 (3)通过对属性的分类,针对不同类型的属性采用不同方法产生查询词。对于普通的文本属性,提出了通过抽取查询结果页中的相应内容,并通过适应性策略来选取合适的关键词作为查询词的方法。对于特定的文本属性,使用人工建立知识库的方法。 (4)分析了Deep Web数据源中网页的更新特点,通过泊松模型对网页更新事件建立模型,增量获取Deep Web数据。并设计了增量获取Deep Web数据的爬虫系统结构。 此外,本文还对文中提出的方法和技术进行了实验,通过对实验结果的分析进一步验证了本文提出的方法是有效的。
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.09

【参考文献】
中国期刊全文数据库 前10条
1 林超;赵朋朋;崔志明;;Deep Web数据源聚焦爬虫[J];计算机工程;2008年07期
2 胡鹏昱;赵朋朋;方巍;崔志明;;深网数据源质量估计模型[J];计算机工程;2009年09期
3 苗忠义;胡鹏昱;崔志明;;用Capture-Recapture方法估计Web数据库大小[J];计算机应用研究;2009年05期
4 郑冬冬,赵朋朋,崔志明;Deep Web爬虫研究与设计[J];清华大学学报(自然科学版);2005年S1期
5 刘伟;孟小峰;凌妍妍;;一种基于图模型的Web数据库采样方法[J];软件学报;2008年02期
6 凌妍妍;孟小峰;刘伟;;基于属性相关度的Web数据库大小估算方法[J];软件学报;2008年02期
7 袁柳;李战怀;陈世亮;;基于本体的Deep Web数据标注[J];软件学报;2008年02期
8 高岭;赵朋朋;崔志明;;Deep Web查询接口的自动判定[J];计算机技术与发展;2007年05期
9 胡鹏昱;苗忠义;崔志明;方巍;;扩展的Deep Web质量估计模型研究[J];微电子学与计算机;2008年09期
10 赵朋朋;崔志明;高岭;仲华;;关于中国Deep Web的规模、分布和结构[J];小型微型计算机系统;2007年10期
中国硕士学位论文全文数据库 前1条
1 韩芸;基于查询接口特征的深度网络资源聚类分析[D];大连理工大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 赵靖;王侨文;管马周;单传佳;;自动提取布局结构相似网页的结构化信息[J];安徽科技学院学报;2010年06期
2 马安香;高克宁;张晓红;张斌;;基于CPN网络的Deep Web数据语义标注[J];东北大学学报(自然科学版);2009年06期
3 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期
4 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
5 张志平;张云坤;李文骏;;Deep web在个性化信息服务中的应用[J];电子商务;2010年08期
6 韩凌;丁其祥;;搜索引擎技术与高校图书馆建设[J];硅谷;2011年23期
7 邓松;万常选;刘喜平;;基于用户反馈的Web多媒体数据源的选取[J];管理学报;2011年12期
8 常勇;王亮;姚增利;袁方;;基于领域知识和决策树的Deep Web数据标注[J];广西师范大学学报(自然科学版);2009年01期
9 杨丽华;袁方;姚增利;王煜;;基于启发式规则的Deep Web接口发现[J];河北大学学报(自然科学版);2010年01期
10 刘芳;;查询自动生成器在Web数据库发现中的应用[J];信息技术;2009年06期
中国重要会议论文全文数据库 前7条
1 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
2 邓松;万常选;;基于用户反馈的Web多媒体数据源的选取[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
3 ;Organizing Structured Deep Web Sources with Semantic Inference[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
4 王宇;方滨兴;吴博;宋林海;郭岩;;结合属性分布特征的模式匹配算法[A];第五届全国信息检索学术会议论文集[C];2009年
5 王英;左万利;彭涛;赫枫龄;彭钊;;特定领域Deep Web查询接口的集成[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 林培光;赵琳;张燕;聂培尧;;基于WDB特征和用户查询请求的Web数据库选择[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 林培光;;基于Web数据库特征的Deep Web独立数据样本采样方法[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
中国博士学位论文全文数据库 前10条
1 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
2 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
3 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
4 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
5 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
6 张卓;基于形式概念分析的Web数据库抽取研究[D];武汉大学;2011年
7 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
8 孟祥福;Web数据库柔性查询关键技术研究[D];东北大学;2010年
9 聂铁铮;Deep Web中Web数据库集成关键技术的研究[D];东北大学;2009年
10 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 刘富江;网络数据源模式识别方法及策略研究[D];哈尔滨工程大学;2010年
3 彭媛媛;Deep Web数据清洗方法研究及应用[D];长春工业大学;2010年
4 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
5 檀康;基于深度网页爬虫搜索引擎原型的研究和实现[D];东华大学;2010年
6 张雯;基于多属性关联改进文本分类算法[D];山东师范大学;2011年
7 张爱琦;一种基于本体的Deep Web接口集成方法[D];吉林大学;2011年
8 毛桂春;Deep Web查询结果后处理[D];吉林大学;2011年
9 王鸿;Deep web中基于领域知识的接口集成[D];西南大学;2011年
10 朱洪涛;垂直门户网站产品搜索系统的设计与实现[D];北京邮电大学;2010年
【二级参考文献】
中国期刊全文数据库 前5条
1 闫宏飞,李晓明;关于中国Web的大小、形状和结构[J];计算机研究与发展;2002年08期
2 郑冬冬,赵朋朋,崔志明;Deep Web爬虫研究与设计[J];清华大学学报(自然科学版);2005年S1期
3 刘伟;孟小峰;凌妍妍;;一种基于图模型的Web数据库采样方法[J];软件学报;2008年02期
4 凌妍妍;孟小峰;刘伟;;基于属性相关度的Web数据库大小估算方法[J];软件学报;2008年02期
5 赵朋朋;崔志明;高岭;仲华;;关于中国Deep Web的规模、分布和结构[J];小型微型计算机系统;2007年10期
【相似文献】
中国期刊全文数据库 前10条
1 刘超;刘妍;;基于Deep Web数据查询接口的抽取与集成[J];硅谷;2008年23期
2 林培光;吕超;;领域Web数据库查询接口的自动发现[J];江西师范大学学报(自然科学版);2008年02期
3 王冉冉;王刚;黄青松;;基于Deep Web的信息采集系统[J];计算机技术与发展;2007年10期
4 周爱武;李玉梅;周闪闪;王宝铜;;基于返回结果的Deep Web查询接口识别[J];计算机技术与发展;2009年07期
5 王兵;王轲;;Deep Web数据源聚类与分类[J];计算机与现代化;2007年08期
6 段青玲;杨仁刚;华松青;;基于动态学习的Deep Web数据源选择算法[J];郑州大学学报(理学版);2010年01期
7 周旭;赵耀;刘海博;;Deep Web资源集成研究[J];科技信息(科学教研);2007年35期
8 董旻;方曙;;Deep Web信息抽取研究[J];图书情报工作;2007年10期
9 李石生;刘海博;赵耀;;基于DeepWeb的图书检索系统设计[J];河北大学成人教育学院学报;2008年01期
10 钟昕;伏玉琛;;书籍搜索领域Deep Web数据集成系统[J];计算机技术与发展;2008年09期
中国重要会议论文全文数据库 前10条
1 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 王英;左万利;彭涛;赫枫龄;彭钊;;特定领域Deep Web查询接口的集成[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
4 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
7 王英;左万利;王鑫;彭涛;;Deep Web查询转换研究[A];第六届全国信息检索学术会议论文集[C];2010年
8 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
9 姜芳艽;贾琳琳;孟小峰;;Deep Web数据集成中基于最小超集的查询转换[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
10 王英;左万利;彭涛;赫枫龄;彭钊;;应用领域本体知识库自动填充Deep Web入口表单[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国重要报纸全文数据库 前10条
1 李长安 郭向荣;构筑可视化的航材供应链[N];计算机世界;2005年
2 张鹏;韩国的GIS技术应用和测绘协会[N];中国测绘报;2007年
3 王奇;推动土地科学技术创新[N];中国国土资源报;2006年
4 李薇 周信炎;测绘科技:如何自主创新[N];中国测绘报;2006年
5 本报记者 孟晶;各方呼吁建立化学品数据共享平台[N];中国化工报;2008年
6 许泳;灾区上空的“天眼”[N];计算机世界;2008年
7 本报记者 黄穗诚;广东研究基础地理信息系统更新[N];广东建设报;2009年
8 许泳实习记者 李敬;GIS的应用瓶颈[N];计算机世界;2007年
9 南京邮电学院27# 李建忠;将ASP移植到ASP.Net[N];计算机世界;2001年
10 李包罗;区域卫生信息网络[N];中国计算机报;2007年
中国博士学位论文全文数据库 前10条
1 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
2 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
3 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
4 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
5 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
6 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
7 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
8 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
9 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
10 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
中国硕士学位论文全文数据库 前10条
1 蔡欣宝;Deep Web数据获取方法研究[D];苏州大学;2010年
2 杜鑫;Deep Web数据源发现与采样研究[D];山东大学;2011年
3 陈文;Deep Web入口识别和个性化搜索研究与设计[D];江苏大学;2010年
4 李秀兰;基于结果模式的Deep Web语义标注研究[D];兰州理工大学;2011年
5 岳亮;Deep Web接口集成及查询结果排序方法研究[D];苏州大学;2011年
6 马也;Deep Web环境下查询松弛技术的研究[D];东北大学;2008年
7 李三义;基于模型匹配的Deep Web数据库分类[D];吉林大学;2010年
8 张仲祥;基于领域本体的Deep Web数据源聚焦技术研究[D];广西师范大学;2011年
9 谢莹;Deep Web查询结果抽取及注释[D];吉林大学;2010年
10 韩亮;图书领域Deep Web查询接口集成研究[D];河北大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026