收藏本站
《武汉大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

面向Web数据的高效查询调度与数据获取方法研究

江俊彦  
【摘要】:随着互联网技术的快速发展以及各种网络通讯设备的迅速普及,Web数据的规模呈指数级增长,Web服务已渗入人们的日常生活。与此同时,Web用户数量也在与日俱增,这些用户使用Web服务来便捷日常生活已成常态。Web数据和Web用户的快速增长,迫切需要我们设计高效的Web数据管理系统来满足用户日益增长的个性化需求。Web数据管理系统,通过获取Web数据源上的数据,来为用户提供高质量、带有附加值的数据服务。其中Web用户查询的高效调度和Web数据的高效获取,是用户满意和Web数据管理系统成功的关键。Web用户查询的高效调度是指对用户查询的执行设计排序策略,有效地提升系统的性能。高效的查询调度使得Web数据管理系统提供用户更好的服务体验,潜在增加系统管理者的经济收入。与此同时,用户查询的目标是为了获取高质量的数据进行决策支持,因此我们还需要从众多的Web数据源上获取数据。然而Web数据源的自治性、动态性、重叠性和海量性给我们快速获取时新、完整的Web数据带来重大挑战。因此为了能够提供Web用户高质量的数据服务,开展面向Web数据的高效查询调度和数据获取方法的研究具有重要的社会意义和经济价值。本研究以Web数据为对象,研究如何提高基于公共子表达式结果共享的查询调度的性能,如何提高在动态Web环境下基于top-k查询约束的深网增量爬取效率,以及如何提高从海量Web数据源中选择高相关、低重叠数据源集合的效率。具体而言,本文主要包括以下四个研究工作:(1)基于公共子表达式结果共享的查询调度用户在数据空间中注册个性化查询,进而在数据管理系统中找到满足需求的数据。然而Web数据的动态变化,需要系统有效调度查询,更快更多地“按需获取”Web数据源上的新数据。针对现有查询调度工作中未考虑查询相关性,导致冗余工作重复执行降低查询效率的问题,本文提出一种基于公共子表达式结果共享的查询调度方法,高效地调度用户查询,提高用户满意度。为了综合衡量调度的效率和效果,本文首先定义用户满意度为查询的收益率QHR(Query Harvest Rate),即查询结果中新元组数量和查询处理时间的比率。然后提出了基于查询表达式的查询划分策略,提取查询之间的公共子表达式,去除冗余的查询部分。最后,本文针对查询收益率设计了查询优先级,有效地共享公共子表达式结果,最大化总体QHR。基于TPC-H数据集上的实验结果表明,本文方法能够有效地优化QHR。(2)基于top-k查询约束的深网增量爬取在仅允许top-k查询的动态Web数据源中,爬虫获取变化元组时也会得到不变的元组,导致爬取效率低下。本文提出一种基于查询树自底向上的增量爬取方法,在查询类型约束(top-k查询)和查询资源约束下高效爬取已变化的元组。首先,本文基于top-k查询生成查询树,基于查询树获取有效的叶子查询集合,利用历史数据和领域知识估计这些叶子查询的变化规律和变化所需的查询代价;其次,基于估计的查询数据质量增益和查询代价,在深网数据源查询次数约束下,建模爬取问题为背包问题,并近似地选择最优的查询子集,获取时新的查询结果,最大化本地数据质量。基于Microsoft Academic Graph数据集上的实验结果表明,本文方法较好地提高动态深网数据源爬取的效率和本地数据质量。(3)基于分层抽样的重叠深网数据源选择针对海量深网数据源中查询在多个数据源上的结果重叠导致查询效率低下的问题,本文提出一种元组水平分层抽样的数据源选择方法,高效地选择高相关、低重叠的数据源集合。首先,本文设计了一种基于误差约束的分层抽样方法,利用样本精确估计查询在各数据源上的覆盖率;其次,本文提出一种基于部分样本数据的数据源重叠率精确估计方法,利用给定的样本和已查询数据源的结果来估计查询在数据源上的重叠;最后,本文基于估计的统计数据提出一种启发式的高效重叠数据源选择方法(类似KNN方法),选择高相关、低重叠的数据源集合。基于TPC-W合成数据集和Abebooks真实数据集上的实验结果表明,本文方法不仅能保证用户查询结果的精度,同时相比传统的方法能够显著提高效率。(4)T-Music:个性化Web音乐系统基于上述Web数据管理及其关键技术的研究成果,本文研发了 T-Music,一个以多媒体音乐数据服务和数据管理为核心的个性化Web音乐系统。T-Music以数据服务层、数据管理层以及数据获取层为基本的三层架构。为了提高系统的性能,T-Music在数据服务层通过查询调度来提高数据空间中用户的满意度,在数据管理层通过增量爬取提高top-k查询约束时获取时新数据的效率,在数据获取层通过数据源选择来提高多数据源选择的性能。开发完成的原型系统在实际中得到了应用,本文在Sogou音乐网上爬取到的音乐数据集上1进行了测试,实验结果证明了本文方法在Web数据管理方面的优越性。
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP393.09

【参考文献】
中国期刊全文数据库 前3条
1 万常选;邓松;刘喜平;廖国琼;刘德喜;江腾蛟;;Web数据源选择技术[J];软件学报;2013年04期
2 王晖;彭智勇;李蓉蓉;徐波;翟卫祥;;Web数据管理研究进展[J];小型微型计算机系统;2011年01期
3 李玉坤;孟小峰;张相於;;数据空间技术研究[J];软件学报;2008年08期
【共引文献】
中国期刊全文数据库 前10条
1 朝乐门;;数据连续性:未来跨学科研究的重要课题[J];情报学报;2016年03期
2 李亢;李新明;刘东;;多源异构装备数据集成研究综述[J];中国电子科学研究院学报;2015年02期
3 熊志正;官思发;朝乐门;;计算机辅助信息分析的技术框架及其发展趋势[J];图书情报工作;2015年03期
4 王继奎;李少波;;基于真值发现的冲突数据源质量评价算法[J];浙江大学学报(工学版);2015年02期
5 刘丽;;突发浪涌数据下差异云平台的弱关联数据调度[J];科技通报;2015年01期
6 姚瑶;王战红;石磊;;一种基于页面聚类的Web概念化建模新方法[J];微电子学与计算机;2015年01期
7 李玉坤;任标;赵喜燕;刘里;肖迎元;;个人数据管理技术研究[J];计算机科学与探索;2014年11期
8 姚瑶;王战红;石磊;;基于页面聚类的Web概念化模型研究[J];科学技术与工程;2014年25期
9 马朝阳;俞育新;陈豪东;;数据集成在企业信息化建设中的应用[J];计算机与数字工程;2014年07期
10 杨毅;;浅谈网站性能提升的途径[J];计算机光盘软件与应用;2014年14期
【二级参考文献】
中国期刊全文数据库 前6条
1 邓松;万常选;刘喜平;廖国琼;;基于用户反馈的深网数据源选择[J];小型微型计算机系统;2012年11期
2 朱冠胜;黄浩;杨卫东;;XML关键字检索系统的数据源选择[J];小型微型计算机系统;2012年06期
3 范举;周立柱;;基于关键词的深度万维网数据库选择[J];计算机学报;2011年10期
4 余伟;李石君;文利娟;田建伟;;基于数据质量的Deep Web数据源排序[J];小型微型计算机系统;2010年04期
5 段青玲;杨仁刚;华松青;;基于动态学习的Deep Web数据源选择算法[J];郑州大学学报(理学版);2010年01期
6 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
【相似文献】
中国期刊全文数据库 前10条
1 中国科学院成都文献情报中心信息科技战略情报团队;;欧盟发布下一代互联网项目研讨会报告[J];中国教育网络;2017年05期
2 贾云得;;微型数字存贮遥测装置数据预存贮方法[J];遥测遥控;1989年06期
3 李超,郝婕;在Bank Switch基础上实现大程序和数据空间[J];单片机与嵌入式系统应用;2005年07期
4 陈嘉;赵祖亮;郭鸿飞;赵广玉;马静丽;刘哲;;基于格网的多比例尺海量数据空间渲染方法[J];测绘通报;2016年11期
5 葛敬军;胡长军;刘歆;李扬;刘震宇;;面向领域科学数据的虚拟数据空间共享模型[J];小型微型计算机系统;2014年03期
6 黄毅芳;吴扬扬;;本体在个人数据空间中的应用研究[J];微计算机信息;2009年24期
7 邓悦君;;数据空间[J];东方艺术;2015年19期
8 曾坚永;钱锋;陆鑫;;基于数据空间的电网高级应用分析系统[J];供用电;2011年01期
9 朱林海;孙璐;;“BIM+”虚拟数据空间探索[J];建筑技艺;2017年09期
10 刘正涛;王建东;;Web数据空间技术研究[J];计算机工程与应用;2012年07期
中国重要会议论文全文数据库 前8条
1 王宇翔;杨锴;杨小椿;薛冬;施长明;;结构张量算法用于二维立体层析数据空间准备的初步实践[A];中国石油学会2015年物探技术研讨会论文集[C];2015年
2 聂时贵;金琳;;智慧江苏时空大数据的建设方案[A];地理信息与人工智能论坛暨江苏省测绘地理信息学会2017年学术年会论文集[C];2017年
3 季承;;Oracle利用HWM高水标记收缩数据空间方案[A];2013电力行业信息化年会论文集[C];2013年
4 高秉强;李向阳;袁野;丘志强;;面向电力应用的卫星大数据统一管理平台建设[A];数字中国 能源互联——2018电力行业信息化年会论文集[C];2018年
5 张亚维;朱智武;叶晓俊;;数据空间隐私保护平台的设计[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 王宇翔;杨锴;熊凯;汪小将;;基于运动学反偏移重建立体层析数据空间的理论与实践[A];中国石油学会2015年物探技术研讨会论文集[C];2015年
7 寇玉波;李玉坤;孟小峰;张相於;赵婧;;个人数据空间管理中的任务挖掘策略[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 董彦磊;申德荣;寇月;聂铁铮;;数据空间中数据组织模型以及关联关系发现模型的研究[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国重要报纸全文数据库 前10条
1 石纯民;数字化时代,亟须捍卫“数据主权”[N];中国国防报;2018年
2 中国工程院院士 李伯虎;智慧城市的大数据研究与实践[N];中国信息化周报;2016年
3 中国人民大学信息学院 李玉坤;云计算与数据空间[N];中国计算机报;2008年
4 欧阳倩;掘金“大数据”[N];湖南日报;2018年
5 田娟娟;大数据空间无限[N];中国新闻出版广电报;2015年
6 牛泽亚;用户如何在数据空间里“被遗忘”?[N];人民邮电;2014年
7 冒蕞 刘笑雪 张福芳;2018年大数据空间信息应用博览会在长沙开幕[N];湖南日报;2018年
8 本报记者 张薇 廖黎明;以大数据为引领 建“多规合一”共享平台[N];贵阳日报;2018年
9 本报通讯员 秦梦;大数据潮涌湘江[N];中国测绘报;2018年
10 李毅 陈海强;戴士剑:寻觅“逝去”的数据空间[N];解放军报;2006年
中国博士学位论文全文数据库 前10条
1 齐富民;基于机器学习的软件工作量数据干涸关键技术研究[D];武汉大学;2018年
2 江俊彦;面向Web数据的高效查询调度与数据获取方法研究[D];武汉大学;2017年
3 王涛;分布式存储数据布局优化理论与方法研究[D];武汉大学;2015年
4 韩煜星;面向移动轨迹大数据的查询检索和挖掘算法的研究[D];华东师范大学;2018年
5 章志刚;面向轨迹大数据的管理及查询研究[D];华东师范大学;2018年
6 王晓蕊;华北克拉通地球化学科学数据的管理及应用研究[D];中国地质大学;2008年
7 祝官文;数据空间集成与查询关键技术研究[D];哈尔滨工程大学;2016年
8 杨丹;数据空间中基于语义的实体搜索关键技术研究[D];东北大学;2012年
9 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
10 Gile Narcisse FANZOU TCHUISSANG;预测数据空间检索使用概率的隐藏的信息[D];北京交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 郭屹桐;基于微博数据的居民时空行为特征分析[D];兰州交通大学;2018年
2 严蓉;刑事电子数据取证规范性研究[D];南京师范大学;2017年
3 郝玉杰;基于CDH的数据可视化平台的设计[D];成都理工大学;2018年
4 杨婉婷;论大数据在中国司法领域的建立和应用[D];华东政法大学;2018年
5 单聚良;不完整信息下的配网设备状态评价关键技术研究[D];华北电力大学(北京);2018年
6 王玉林;基于GPS数据的地图拓扑提取的关键技术与应用研究[D];西安理工大学;2018年
7 于维贺;个人数据空间中关联关系可视化技术的研究与实现[D];东北大学;2010年
8 王东宇;面向数据空间的倒排列表并行化查询方法研究[D];哈尔滨工程大学;2015年
9 虞连飞;面向数据空间的多格式信息可视化方法研究[D];哈尔滨工程大学;2014年
10 刘丹;一种面向数据空间的预取方法[D];哈尔滨工程大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026