收藏本站
《武汉大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web的空间数据爬取与度量研究

王明军  
【摘要】:Web技术的飞速发展,为人们提供了丰富的信息,同时带来大量的信息冗余。如何快速定位用户需求,是目前网络检索中常见的问题之一。尤其在空间信息领域,空间数据涉及几何与属性两种信息,这种信息的独特性,在网络环境下只能通过文字描述信息与几何图形信息两方面分别表现。当前,对于空间信息的检索,主要集中在文字描述匹配方面,针对空间几何信息检索研究相对较少。 本文在分析当前网络环境下空间信息检索存在问题的基础上,探讨了解决空间信息检索所涉及的主要研究领域,以及这些领域国内外的研究进展。论文从网络信息爬取入手,讨论空间信息在网络化环境下的主要特征与分类体系,探讨不同类型空间数据的解析与识别方法,针对不同数据类型与对应页面,阐述数据置信度度量基本方法,同时扩展空间数据分类体系,提出爬取空间数据分类标签体系思想,基于此体系,实现空间数据存储管理与后期应用,最后通过实例模型验证了空间数据爬取的某些过程,并做了相应质量评价与分析。 论文针对不同空间数据类型,深入探讨了基于空间信息敏感爬虫爬取数据的基本原理与方法。首先引入空间敏感爬虫概念,介绍其与传统爬虫的异同与工作流程,以及空间敏感页面和网页链接空间信息与空间检索词的相似度度量。其次重点论述了不同类型空间数据发现机制,即空间数据服务、栅格、矢量及其他数据的发现方法,针对不同类型,讨论其在网页中的表现形式,解析的基本过程,其中对涉及主要算法与模型,给出了必要说明与阐述。 论文提出了Web空间数据的置信度度量方法。Web空间数据由于描述信息缺乏,其数据质量很难准确衡量,后期数据检索与应用相对困难。结合空间数据质量的一些基本方法,综合考虑空间数据文本描述与数据本身信息,提出了定性度量矢量、栅格数据的方法。其次,对不同空间数据类型置信度做了分析比较,对链接到同一空间敏感页面的不同资源,选取较大置信度对整个页面最佳匹配。 论文结合元数据模型与目前空间数据分类体系,提出了Web空间数据的分类标签思想。Web环境下空间数据由于表达尺度、范围、要素等等差异,很难采用传统的分类体系对其划分,必须采用新的方式记录其数据描述信息,借助元数据模型及数据应用相关的分类体系,提出了分类标签体系模型。在此基础上,对Web数据获取后,数据的存储管理,后期数据检索与应用做了简单说明。 通过实例模型,对整个空间敏感爬虫从页面过滤,到信息提取,再到质量的基本评价,进行了必要的验证。分析、总结了相关理论与实践之间存在的不一致性问题,表明了网络空间数据爬取问题的复杂性,为后续研究奠定一定的理论与实践基础。 最后论文对基于空间信息爬取基本整体流程的各个环节进行了总结,提出了下一步研究的几个方向。
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:P208

【参考文献】
中国期刊全文数据库 前10条
1 聂青;战守义;;基于区域特征的图像分类技术[J];北京理工大学学报;2008年10期
2 王卉,王家耀;无缝GIS发展的两个关键技术[J];测绘通报;2002年04期
3 李清泉,谢智颖,左小清,王冲;基于SVG的空间信息描述与可视化表达[J];测绘学报;2005年01期
4 韩李涛,赵军;空间数据质量相关问题探讨[J];东北测绘;2003年01期
5 蒋玲;龚健雅;;基于OWL-S的地理信息服务描述和发现[J];测绘与空间地理信息;2007年05期
6 廖顺宝;蒋林;;地球系统科学数据分类体系研究[J];地理科学进展;2005年06期
7 刘三民;王杰文;;空间数据存储管理研究综述[J];电脑与信息技术;2006年03期
8 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
9 张征杰;王自强;;文本分类及算法综述[J];电脑知识与技术;2012年04期
10 张春菊;张雪英;朱少楠;徐希涛;;基于网络爬虫的地名数据库维护方法[J];地球信息科学学报;2011年04期
中国博士学位论文全文数据库 前3条
1 傅明;基于Web的空间数据挖掘研究[D];中南大学;2004年
2 王建涛;基于Web的地理信息服务的研究与实践[D];中国人民解放军信息工程大学;2005年
3 张霞;地理信息服务组合与空间分析服务研究[D];武汉大学;2004年
中国硕士学位论文全文数据库 前10条
1 王佳;支持Ajax技术的主题网络爬虫系统研究与实现[D];北京交通大学;2011年
2 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年
3 张媚;Ajax友好的网络爬虫设计与实现[D];暨南大学;2011年
4 黄海英;基于概念空间的文本分类的应用研究[D];广西师范大学;2002年
5 周钦强;基于人工智能技术Naive Bayes文本自动分类系统研究[D];广东工业大学;2005年
6 朱霞;文图挂接的空间元数据目录服务系统的设计与实现[D];武汉大学;2005年
7 朱大龙;基于结构相似性的图像质量评价方法的研究[D];安徽大学;2006年
8 孟庆崧;基于Web Service的空间信息服务描述和发现机制研究[D];国防科学技术大学;2006年
9 唐永鹤;基于特征点的图像匹配算法研究[D];国防科学技术大学;2007年
10 王翔;基于BP神经网络的遥感影像模式识别方法研究[D];太原科技大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 余娟;王皓;;基于SVG的变电站嵌入式设备图形界面的开发[J];安徽电力;2012年01期
2 傅晓珊;;地理信息系统的发展现状及趋势[J];安徽工程科技学院学报(自然科学版);2010年04期
3 黄贝;;基于SVG的变电站嵌入式设备图形界面的开发[J];安徽科技;2011年10期
4 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
5 张蓬涛;周雁;刘晓庄;秦岭;;人工神经网络在农业自然资源研究中的应用[J];安徽农业科学;2007年27期
6 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
7 楼锡锦;彭毅;闫斌建;吴宇哲;;浙西山地丘陵地区土地利用地域分区研究——以丽水市为例[J];安徽农业科学;2010年10期
8 宋春桥;柯灵红;刘喆惠;游松财;;基于ArcGIS Server的藏北草地资源信息共享平台的设计与实现[J];安徽农业科学;2010年17期
9 彭强勇;;面向GIS的空间数据质量评价研究[J];安徽农业科学;2011年02期
10 贾宝红;吕雄杰;耿百强;李凤菊;;基于中间件技术的农业地理信息平台开发与集成技术研究[J];现代农业科技;2010年21期
中国博士学位论文全文数据库 前10条
1 宁安良;面向3G终端的移动地理信息服务研究[D];中国海洋大学;2010年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 王强;空间信息服务聚合的关键技术研究[D];解放军信息工程大学;2010年
5 谢超;自适应地图可视化关键技术研究[D];解放军信息工程大学;2009年
6 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
7 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
8 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
9 郑伟;联邦式图书馆资源管理模型研究[D];吉林大学;2011年
10 钟海东;基于地理本体的移动GIS空间信息服务研究[D];华东师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 曾传华;基于颜色和纹理特征的竹条分级方法研究[D];华中农业大学;2010年
2 陈晓慧;空间信息服务管理平台的设计与实现[D];山东科技大学;2010年
3 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
4 王军;网络环境下面向服务的地理信息共享技术研究[D];哈尔滨师范大学;2010年
5 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
6 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
7 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
8 刘富江;网络数据源模式识别方法及策略研究[D];哈尔滨工程大学;2010年
9 李维玲;基于三维GIS的大连地质旅游规划研究[D];辽宁师范大学;2010年
10 李大帅;基于OGC的地图服务的研究与实现[D];辽宁工程技术大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 梁伍七,寿志勤;基于Web服务的分布式应用集成模型及其实现[J];安徽教育学院学报;2003年06期
2 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
3 徐铭杰,赵永江;空间数据挖掘研究[J];安阳师范学院学报;2002年02期
4 高峰;《北京电信地理信息系统》多源数据融合问题的研究[J];北京电信科技;2000年02期
5 朱凌;ArcGIS9的特点及其ArcObjects Controls版的使用体会[J];北京测绘;2004年01期
6 张保钢;杨伯钢;孔俊元;;北京市地名数据库的维护更新[J];北京测绘;2010年03期
7 杨超伟,李琦;Web空间信息发布研究[J];北京大学学报(自然科学版);2001年03期
8 王浒,李琦,承继成;数字城市元数据服务体系的研究和实践[J];北京大学学报(自然科学版);2004年01期
9 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
10 崔航,马殿富,王勇,杜宗霞;组合Web服务建模工具的设计与实现[J];北京航空航天大学学报;2003年10期
中国博士学位论文全文数据库 前4条
1 王兴玲;基于XML的地理信息Web服务研究[D];中国科学院研究生院(遥感应用研究所);2002年
2 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
3 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年
4 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
中国硕士学位论文全文数据库 前10条
1 简广林;基于元数据体系的分布式空间数据模型的研究及其在WebGIS中的应用[D];华北电力大学(北京);2003年
2 朱秀峰;基于B/S模式的数字地质图元数据信息系统设计与实现[D];长安大学;2003年
3 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
4 骆昌日;基于统计方法的中文文本自动分类研究[D];华中师范大学;2004年
5 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
6 邹丹;基于Web的中文文本分类的研究与实现[D];中国地质大学(北京);2006年
7 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
8 王志强;基于条件随机域的中文命名实体识别研究[D];南京理工大学;2006年
9 蒋科;基于领域概念定制的主题爬虫系统的设计与实现[D];西安电子科技大学;2007年
10 罗兵;支持AJAX的互联网搜索引擎爬虫设计与实现[D];浙江大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 王兴玲,杨崇俊;基于.Net平台的地理信息Web服务研究与应用[J];计算机工程与应用;2002年22期
2 毕方明;浅析基于Web的地理信息系统GIS——WebGIS系统[J];现代计算机;2001年04期
3 汪璟玢;GIS数据集成初探[J];福州大学学报(自然科学版);2001年S1期
4 文斌,马新辉;基于WebGIS的流域环境信息系统设计与开发——以江苏省为例[J];西北大学学报(自然科学版);2002年03期
5 赵耀龙,赵俊三,董菲;GIS空间数据质量控制与模糊信息处理[J];地矿测绘;2002年01期
6 张恒;刘群;;CAD与GIS空间数据转换方法研究[J];城市勘测;2009年04期
7 王莹,史浩山,范磊;GIS中基于Web的图形查询系统[J];计算机应用研究;2001年03期
8 景贵飞;当前网络空间信息技术发展的战略需求分析和建议[J];地理信息世界;2003年06期
9 胡圣武;;空间数据融合的研究现状及其问题分析[J];测绘通报;2008年02期
10 谢东晓;;地理信息系统在危旧房改造项目管理中的应用[J];办公自动化;2005年04期
中国重要会议论文全文数据库 前10条
1 禄丰年;程勉志;;论“数字郑州”空间信息基础设施建设[A];地理空间信息技术与应用——中国科协2002年学术年会测绘论文集[C];2002年
2 叶科峰;;我国空间数据共享与网络化服务[A];中国测绘学会九届三次理事会暨2007年“信息化测绘论坛”学术年会论文集[C];2007年
3 陈珺;杨冬青;唐世渭;;空间信息共享平台SISP中的数据库模式[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
4 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
6 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
7 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
9 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
10 谢跟踪;;生态环境空间数据可视化研究[A];全国地图学与GIS学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 王明军;基于Web的空间数据爬取与度量研究[D];武汉大学;2013年
2 高惠君;城市规划空间数据的多尺度处理与表达研究[D];中国矿业大学(北京);2012年
3 车森;空间数据跨媒介可视化输出研究[D];解放军信息工程大学;2010年
4 杨晋强;空间数据集群服务体系结构与算法研究[D];解放军信息工程大学;2010年
5 郭武斌;车辆导航中空间数据多尺度模型及算法的研究[D];大连理工大学;2009年
6 李玉堂;森林资源空间数据集成管理技术的研究与应用[D];东北林业大学;2011年
7 李圣文;面向空间信息的Web协同关键技术研究[D];中国地质大学;2010年
8 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
9 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
10 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 郭伟娜;基于Web Service的综合地质数据库管理系统的研究与实现[D];中南大学;2010年
2 温玉维;空间信息Web服务共享平台研究与实践[D];中南大学;2009年
3 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
4 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
5 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
6 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年
7 温梨梨;基于零拷贝的Web服务器技术研究[D];中国海洋大学;2011年
8 焦燕廷;一种基于领域本体的语义Web服务匹配和组合方法[D];山东科技大学;2011年
9 黄亮;Web漏洞扫描系统中的智能爬虫技术研究[D];杭州电子科技大学;2012年
10 赵春娟;Web服务组合方法的研究与实现[D];天津理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026