收藏本站
《山东大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web数据获取问题研究

闫中敏  
【摘要】:随着互联网技术的发展,Web成为一个拥有海量数据的信息源。DeepWeb主要由Web中可在线访问的数据库构成,信息更丰富、主题性更强、结构化更好。随着分析型应用如市场情报分析、舆情分析、电子商务等需求的增长,亟需对Deep Web数据进行集成,从中分析挖掘有用知识。但由于DeepWeb具有大规模性、数据海量性、实时动态变化、异构性以及分布性等特点,并且Deep Web数据只能通过向Web数据库的查询接口提交查询这一特殊方式获取,使得如何自动地从Deep Web数据源获取数据成为一项十分具有挑战性的工作。 作为集成工作的第一步,Deep Web数据获取为Deep Web数据集成奠定数据基础,是数据抽取和数据整合工作的前提。目前,Deep Web数据获取工作主要存在以下问题有待解决:(1)Deep Web网站的增长速度快、时刻动态变化,而分析挖掘需要全面的数据,因此面向分析的Deep Web数据获取需要自动发现尽可能多的Deep Web数据源。(2)Deep Web数据源质量良莠不齐、爬取过程繁杂并且爬取周期长,为了合理分配资源需要择优汰劣,分析挖掘需求要求对已发现的数据源进行评估,选择优质数据源以获得更多更全面的信息。(3)Deep Web数据源中的数据众多,数据爬取过程中提交不同的查询词返回的结果集合存在大量的数据重叠,为了全面高效获取Deep Web数据源中的数据,需要对提交的查询词进行选择。 本文以面向分析的Deep Web数据获取为目标,对Deep Web查询接口判定、Deep Web数据源采样、评估以及Deep Web数据爬取等多个具有挑战性的实际问题进行了系统和深入地研究,主要工作与贡献概括如下: 1.提出了一种基于集成学习的Deep Web查询接口判定方法,有效解决了大量Web页面中Deep Web查询接口识别问题,能够准确地将Deep Web查询接口与搜索引擎的查询接口区别开来,提高了Deep Web查询接口识别的准确率。 本文提出了一种使用决策树以及SVM进行集成学习的方法建立DeepWeb查询接口判定模型,达到更有效地识别Deep Web查询接口的目的。一方面针对Deep Web查询接口页面进行分析,提出了判断页面中是否含有查询接口的6条规则,利用简单高效的决策树对页面进行分类;另一方面针对Deep Web查询接口与搜索引擎的查询接口提交查询后获得的结果页面进行分析,主要利用结果页面的特征训练SVM对页面进行分类,采用重抽样思想得到训练数据集,有效减弱类别不平衡性对学习算法的影响;最后基于投票的方式对决策树和多个SVM进行集成。该方法可以将Web数据库的查询接口与搜索引擎的查询接口有效地区别开来,达到更准确地识别Deep Web查询接口的目的。实验表明该方法具有良好的可行性和运行效率,与使用简单机器学习的识别算法相比可以获得更高的查全率和查准率。 2.在随机漫步算法的基础上,提出了一种基于关键词选择模型的DeepWeb数据源采样方法,有效地从Deep Web数据源中获得近似随机的高质量样本,以供Deep Web数据源评估使用。 本文提出了一种针对关键词属性扩展随机漫步算法的Deep Web数据源采样方法,使采样过程不受查询接口中属性表达形式的限制。采样过程中,对于关键词属性构建选择模型,从目前的样本集中按照出现频率降序选择该属性的一个值,将其递交给查询接口;对于分类属性和范围属性采用随机漫步算法策略。该方法有效地从Deep Web数据源中获得近似随机的高质量样本,通过样本可以了解该数据源的领域相关性、准确性、完整性、数据规模等有用的特征,以供Deep Web数据源评估和选择使用。 3.提出了一种基于多目标决策理论的Deep Web数据源质量量化评估方法,有效解决了同一领域大规模Deep Web数据源质量评估问题。 本文提出基于多目标决策理论的Deep Web数据源质量量化评估方法,通过建立Deep Web数据源质量评估模型,对每一个Deep Web数据源进行量化评分,将评估问题映射到多目标决策领域进行求解,对Deep Web数据源排序,以选择优质数据源。针对分析型应用对Deep Web数据集成的需求,提出了Deep Web数据源质量评估体系,利用已获得的数据样本,从Web数据源质量、查询接口及结果返回质量、数据质量以及用户评价等4个维度对16个质量评估因素进行量化评分,将评分结果映射为多目标决策问题求解,对各质量评估因素计算权重,最终获得每一个Deep Web数据源的总评估值进而对Deep Web数据源排序,选择优质数据源,尽可能减少需要爬取的DeepWeb数据源的数量。 4.提出一种基于属性高频字覆盖率图模型的Deep Web数据爬取方法,有效解决了中文环境中的Deep Web数据页面的大规模获取问题。 本文提出一种基于属性高频字覆盖率图模型的Deep Web数据爬取方法。该方法针对某一特定领域统计汉字字频,获取一个面向领域的属性高频字列表;构建属性高频字覆盖率图模型用于估算候选汉字的新数据获取率,以较少次的数据库查询获得尽可能高的数据覆盖。该方法有效解决了中文环境中的Deep Web数据爬取问题,爬取过程中构建的属性高频字覆盖率图模型对同一领域的其他Deep Web数据源爬取具有很好的指导作用。实验结果验证了其可行性和有效性。
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP393.09

【相似文献】
中国期刊全文数据库 前10条
1 辛洁;崔志明;赵朋朋;张广铭;鲜学丰;;基于MapReduce虚拟机的Deep Web数据源发现方法[J];通信学报;2011年07期
2 谢振红;王忠礼;付博;;工程地质勘察的地理信息数据采集[J];吉林建筑工程学院学报;2011年04期
3 卓林;杨舟;岳亮;赵朋朋;崔志明;;Deep Web爬虫的一种增量式更新策略[J];苏州大学学报(工科版);2011年04期
4 李明;李秀兰;;基于结果模式的Deep Web数据标注方法[J];计算机应用;2011年07期
5 杨舟;岳亮;卓林;赵朋朋;崔志明;;一种基于领域本体的Deep Web数据自动标注方法[J];苏州大学学报(工科版);2011年04期
6 邵秀丽;孙杰;侯乐彩;;基于整体模式匹配的深度网集成系统的研究[J];计算机工程与设计;2011年08期
7 董永权;李庆忠;丁艳辉;张永新;;一种基于证据理论和任务分配的Deep Web查询接口匹配方法[J];模式识别与人工智能;2011年02期
8 于治楼;张云涛;张化祥;;基于JSON规范的服务器动态管理数据获取与分析框架[J];信息技术与信息化;2011年03期
9 倪文俭;过志峰;孙国清;黄华兵;;基于地基激光雷达数据的单木结构参数提取研究[J];高技术通讯;2010年02期
10 梁存任;曾琪明;崔喜爱;焦健;;Envisat ASAR ScanSAR-Stripmap干涉测量研究[J];遥感学报;2011年04期
中国重要会议论文全文数据库 前10条
1 初元萍;章红宇;赵京伟;叶梅;陶宁;朱科军;唐素秋;过雅南;;PowerPC对VME插件读出能力的评估[A];第11届全国计算机在现代科学技术领域应用学术会议论文集[C];2003年
2 安少辉;李澄;孙勇杰;邵明;杨一;;采用SCSI接口实现高速在线数据获取[A];第11届全国计算机在现代科学技术领域应用学术会议论文集[C];2003年
3 杨帆;戴玉成;;移动式三维激光数据获取及解算技术研究[A];中国地理学会百年庆典学术论文摘要集[C];2009年
4 缪嘉嘉;李爱平;贾焰;吴泉源;;信息集成中数据获取关键技术的研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 王博亮;张业;王嘉逊;谢杰镇;方青;吴世辉;;中国数字人虚拟眼的数据获取与研究进展[A];人体断面数据获取与图像处理研讨会论文汇编[C];2005年
6 赵平平;;校准刻度及逻辑控制插件[A];第十四届全国核电子学与核探测技术学术年会论文集(上册)[C];2008年
7 赵平平;;校准刻度及逻辑控制插件[A];第十四届全国核电子学与核探测技术学术年会论文集(1)[C];2008年
8 尹武良;托尼培东;;一种利用暂态响应分析提高电磁层析成像测量信号信噪比的新方法[A];2009安捷伦科技节论文集[C];2009年
9 敬文涛;;电磁脉冲效应试验数据获取、处理方法研究[A];第十届全国抗辐射电子学与电磁脉冲学术年会论文集[C];2009年
10 于传松;盛俊鹏;何其力;吴喜成;;一种死时间极小的多丝室读出系统[A];第8届全国核电子学与核探测技术学术年会论文集(一)[C];1996年
中国重要报纸全文数据库 前10条
1 李长安 郭向荣;构筑可视化的航材供应链[N];计算机世界;2005年
2 张鹏;韩国的GIS技术应用和测绘协会[N];中国测绘报;2007年
3 王奇;推动土地科学技术创新[N];中国国土资源报;2006年
4 本报记者 黄穗诚;广东研究基础地理信息系统更新[N];广东建设报;2009年
5 李薇 周信炎;测绘科技:如何自主创新[N];中国测绘报;2006年
6 许泳实习记者 李敬;GIS的应用瓶颈[N];计算机世界;2007年
7 本报记者 孟晶;各方呼吁建立化学品数据共享平台[N];中国化工报;2008年
8 许泳;灾区上空的“天眼”[N];计算机世界;2008年
9 记者 马国军;国家统计局局长马建堂来济调研[N];济南日报;2009年
10 ;昨日艳阳终未现 今晨阴云仍满天[N];电脑商报;2005年
中国博士学位论文全文数据库 前10条
1 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
2 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
3 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
4 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
5 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
6 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
7 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
8 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
9 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
10 赵朋朋;Deep Web信息集成若干关键技术研究[D];苏州大学;2008年
中国硕士学位论文全文数据库 前10条
1 蔡欣宝;Deep Web数据获取方法研究[D];苏州大学;2010年
2 杜鑫;Deep Web数据源发现与采样研究[D];山东大学;2011年
3 陈文;Deep Web入口识别和个性化搜索研究与设计[D];江苏大学;2010年
4 赵东旭;气体中子探测器数据获取与分析软件研制[D];长沙理工大学;2010年
5 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
6 李秀兰;基于结果模式的Deep Web语义标注研究[D];兰州理工大学;2011年
7 马也;Deep Web环境下查询松弛技术的研究[D];东北大学;2008年
8 张旭;面向Deep Web响应页面的模式识别的研究[D];东北大学;2008年
9 李三义;基于模型匹配的Deep Web数据库分类[D];吉林大学;2010年
10 谢莹;Deep Web查询结果抽取及注释[D];吉林大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026