收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web数据集成关键技术及其在农业领域的应用

吴春明  
【摘要】:随着互联网的高速发展,大量信息资源由于被存储在Web数据库中而逐渐被深化,形成海量的Deep Web资源。由于Deep Web特殊的数据提供和访问方式,使目前已有的通用搜索引擎难以对其进行有效的索引,这为人们高效获取和利用这些数据带来了困难。Deep Web数据集成正是基于这一背景而提出的崭新的研究课题。 集成查询接口构建是实现Deep Web数据集成的重要组成部分,其中涉及众多关键技术,虽然目前学者们提出了许多解决方案,但总体上仍还处于探讨阶段,尚存在很多不足,如在Deep Web查询接口自动识别研究中,目前广泛采用了基于规则的判断方法,该方法缺乏动态适应性,且无法有效区分简单查询接口和通用搜索引擎表单;在基于文本的Deep Web分类研究中,有关特征项的选择目前尚无科学的量化标准,在特征项权重的计算上,已有方法由于没有深入考虑特征项对于分类作用的差异,导致构建的接口向量模型不够准确,一定程度上影响了分类精度;在查询接口模式抽取研究中,已有工作均没有充分利用接口表单的视觉布局信息;在接口属性间的模式匹配研究中,目前方法大多仅考查了语义相似度,而没有充分利用属性的类型、值域等其他元信息,且匹配精度还有待进一步提高。因此,无论是从研究思路还是在研究方法上都还需要更具创新性的深入探讨。 本文对以上几个关键技术展开研究,在对国内外已有成果进行归纳和总结的基础上,对每个问题都进行了深入、细致的分析,针对已有工作的不足,提出了相应的解决方案或改进措施,通过理论分析和一系列实验验证,表明本文所提方法具有较高的准确性和较强的可行性,有一定的实用价值。最后,以土壤数据为例,编制了土壤信息综合查询的Deep Web数据集成实验原型系统,探讨了这些技术在农业领域中的应用。主要研究工作如下: (1) Deep Web入口自动识别研究 Deep Web入口识别是进行Deep Web数据集成的基础。不同于以往的基于规则的判定方法,本文采用机器学习的思路,提出了一种利用神经网络进行Deep Web入口识别的方法。首先综合考虑了表单控件、控件属性、属性值以及部分关键词等影响因子,构建了入口自动识别模型;接下来,利用统计方法明确了Deep Web入口与非Deep Web入口之间的可区分特征;最后利用神经网络的自主学习机制来自动调整各影响因子的相关参数,避免了传统的基于规则的主观性和缺乏动态适应性等不足。实验证明了该方法的有效性,而且在简单DeepWeb入口与通用搜索引擎之间的可区分上也取得了较为满意的效果。 (2) Deep Web领域分类研究 对Deep Web进行领域分类可以实现对资源更有效的组织和管理。本文借鉴传统的文本分类算法思想,结合Deep Web查询接口的特点,提出了一种基于领域特征文本的Deep Web分类方法:1)给出了一种基于领域本体的语义抽象方法,对表达同一语义的不同词汇进行了概念抽象,有效增强了特征文本对领域的表征能力,同时达到了有效降维的目的:2)提出了一种“领域相关度”的评价方法,用于特征文本选择的量化标准,避免了传统的人工选择特征项所带来的主观性;3)在接口向量模型构建中,对传统的TFIDF方法进行了改进,提出了一种新的特征项权重计算方法W-TFIDF,更能体现不同特征文本对于分类所起作用的差异。实验证明,本文提出的特征文本选择方法是准确而有效的;相比传统的TF、TFIDF方法,W-TFIDF权重计算方法更为准确,能显著提高分类精度;综合利用本文选出的特征文本及W-TFIDF权重计算方法,能在K-NN分类算法中表现出较好的稳定性。 (3) Deep Web接口元素与标签匹配研究 Deep Web接口元素与标签匹配是查询接口理解和模式抽取的重要前提和基础。本文提出了一种基于视觉的元素—标签匹配方法,主要工作包括:1)提出了一种基于表格的表单重构方法—TBIExp,能通过对查询接口HTML源代码的分析,自动还原出该接口的视觉布局信息,且易于被程序处理;2)基于统计和观察,较为全面地总结了表单元素及其语义标签的位置关系和视觉特征,并依此构建了一套完整的启发式规则;3)提出了一种R3LEX匹配算法,依次进行了基于label标记的匹配、基于语义的匹配和基于位置的匹配,由于考虑的匹配因子较为全面,因此算法具有较高的匹配精度。实验证明了所提方法的有效性。 (4) Deep Web查询接口模式抽取研究 查询接口模式抽取是后继进行接口属性间模式匹配以及集成查询接口构建的重要基础和前提。本文将接口属性域间的关系看作是树形结构,并以前面提出的TBIExp表单重构方法为基础,提出了一种自底向上的层次聚类方法,主要工作包括:1)全面考查了影响属性分组的因素,提出了7条属性分组模式,并按分组模式的影响范围对其进行了重要性排序,为后继的属性聚类提供了依据;2)提出了一种基于TBIExp的模式树层次构造算法—BUCluster,由于TBIExp本身已包含了查询接口的视觉信息,因此相比以前的工作,该方法更为直观准确;3)基于查询接口模式树,提出了一种基于启发式规则的属性标签抽取和匹配方法AttrLEX。实验表明,以上模式抽取方法较已有工作的准确率得到了全面提升。 (5) Deep Web接口属性间的模式匹配研究 模式匹配是Deep Web数据集成中一个基础而又困难的关键技术。本文针对在集成查询接口构建中各接口属性间的模式匹配问题进行了研究,有效解决了属性间1:1简单匹配和1:m复杂匹配的问题。主要工作包括:1)提出了一种利用领域词汇表和领域本体来对接口文本进行规范化的方法,使语义相似度的计算更为科学准确;2)在进行属性相似度评价时,充分考虑了属性元信息之间的语义相似度、领域相似度以及值域相似度,避免了传统的单纯利用语义信息或统计信息进行模式匹配的不足;3)给出了对各类相似度进行量化计算的公式和方法;4)提出了一种利用神经网络来实现属性间1:1的模式匹配方法,有效解决了人为指定相应参数带来的不确定性;5)在1:1匹配结果的基础上,提出了一种基于查询接口模式树进行1:m匹配的方法,该方法不仅简单直观,而且能获得令人满意的匹配精度。实验证明了以上工作的合理性和有效性。 (6) Deep Web集成技术在农业领域的应用研究 以全国第二次土壤普查中江津地区的土壤数据为例,编制了“江津土壤信息综合查询”的Deep Web数据集成实验原型系统,能针对给定的查询条件,实现同时对多个Web数据库进行查询的功能,一方面综合检验了本文所提技术的合理性,另一方面探讨了相关技术在农业领域的应用问题。 综上所述,本文系统地对Deep Web集成接口构建所涉及的几个关键技术展开了研究,针对目前Deep Web入口识别中基于规则方法的不足,采用机器学习的思路,提出利用神经网络进行接口识别的方法,避免了基于规则方法缺乏动态适应性的不足,而且能有效区分简单查询接口与通用搜索引擎表单;针对目前基于文本的Deep Web分类中存在的不足,定义了具体的量化标准用于领域特征文本的选择,避免了人工选取带来的主观性和不确定性,此外,给出了一种改进的特征项权重计算方法,使构建的接口向量模型更为科学准确,能显著提高分类精度;针对目前查询接口模式抽取中没有充分利用视觉信息的不足,提出了一种基于视觉的标签抽取和匹配方法,给出了一种基于表格的接口重构技术,进一步提高了后继模式抽取以及模式匹配的准确率;针对目前Deep Web集成技术在农业领域应用的欠缺,编制了土壤信息综合查询的Deep Web实验集成系统,从技术角度为实现农业信息资源的有效获取和深层次利用进行了有益的探索和尝试。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张蒲生,苏运霖;基于政务数据仓库的数据集成及关键技术[J];计算机工程;2003年09期
2 吴健鸣;;利用Java实现Lotus Domino和数据库系统的数据集成[J];上海电机学院学报;2006年03期
3 范志勇;肖冬荣;张群;;基于PDM框架下的CAPP与PDM的数据集成[J];微计算机信息;2007年04期
4 武树东;赵全明;索依娜;;物流信息系统中的数据集成技术[J];商场现代化;2007年10期
5 张恩;刘春红;段德全;;基于XML/Web Services的异构数据集成研究[J];广西师范大学学报(自然科学版);2008年03期
6 刘高嵩;龙军;;基于CORBA和Web Services的异构数据源集成研究[J];计算机系统应用;2009年07期
7 刘春玲;;基于虚拟视图的教务管理数据集成方式研究[J];电脑知识与技术;2010年19期
8 连云峰;卢昱;陈立云;马懿;;军械装备保障模拟训练系统数据集成研究[J];信息技术;2011年05期
9 王艳君,王运格,吴丽红;异构数据库间数据集成的方法[J];烟台师范学院学报(自然科学版);1999年04期
10 李军怀,张景,周明全,耿国华;基于XML的企业异构数据集成方法研究[J];计算机工程;2002年09期
11 李宝林,王秀峰,兰芸,段菲;CBRDI:一种基于范例推理的数据集成方法[J];计算机工程与应用;2003年16期
12 石金峰,綦瑞萍,余小军,李海军;基于GIS的城市地下综合管网系统的建立[J];辽宁工程技术大学学报;2005年04期
13 赵赛;陈松乔;邓莎莎;;基于规则树的Web数据集成包装器的设计与实现[J];计算机技术与发展;2006年06期
14 秦学勇;;数据仓库中数据集成的研究[J];农业网络信息;2006年08期
15 杨宏英;林长松;;异构数据集成系统的应用模式与技术实现[J];微电子学与计算机;2006年08期
16 杨威;;基于XML的异构数据集成研究[J];科技信息(学术版);2006年10期
17 李润洲;宋彩利;;校园网格数据集成中间件体系结构研究[J];西安科技大学学报;2006年04期
18 倪志刚;洪玫;刘佳;;基于服务数据对象的异构系统数据集成方案研究[J];计算机应用;2007年S1期
19 张晓星;唐朝晖;;企业多源异构数据库数据集成的研究[J];可编程控制器与工厂自动化;2007年03期
20 田源;;数据仓库技术在数据服务平台中的应用[J];福建电脑;2008年06期
中国重要会议论文全文数据库 前10条
1 曹禹;申德荣;于戈;余恩运;周文生;寇月;;数据网格内一种基于本体的数据集成处理机制[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
2 祝晓红;刘炜;李俊丽;;用WPF进行复杂数据集成的方法研究[A];第二十七届中国控制会议论文集[C];2008年
3 王帅;缪嘉嘉;李爱平;韩伟红;贾焰;;一种基于构件技术和消息代理模式的数据集成方法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 姜芸;吴学伟;;面向服务的地理数据集成中间件的设计与实现[A];第二届“测绘科学前沿技术论坛”论文精选[C];2010年
5 胥永康;吴志杰;席传裕;岳筱玲;;基于数据拆分的数据集成技术研究[A];2005全国计算机程序设计类课程教学研讨会论文集[C];2005年
6 李明歆;马世龙;许可;;航天器测试数据资源集成的研究[A];2007中国控制与决策学术年会论文集[C];2007年
7 杨军生;;基于GIS的城市规划数据的特征分析及集成方法的研究[A];2007'全国测绘科技信息交流会暨信息网成立30周年庆典论文集[C];2007年
8 杨雪梅;李灿东;周任材;林端宜;;中医症状术语体系库的建立[A];中国中西医结合学会诊断专业委员会2009’年会论文集[C];2009年
9 许桂芝;翟秉仁;陈丕富;蔡鸿;张爽;;采油厂生产管理信息系统的数据库集成[A];1996中国控制与决策学术年会论文集[C];1996年
10 苏春燕;刘国华;;基于域语义约束的MiniCon算法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
中国博士学位论文全文数据库 前10条
1 王欣;数据集成技术若干问题的研究[D];上海交通大学;2010年
2 张文江;地质灾害数据集成关键技术研究[D];成都理工大学;2013年
3 蒋永国;面向传感网的海洋观测数据集成关键技术研究[D];中国海洋大学;2010年
4 卜志国;海洋生态环境监测系统数据集成与应用研究[D];中国海洋大学;2010年
5 李鹏;面向地质勘查的多源异构数据集成关键技术研究[D];中国地质大学;2013年
6 周春英;超数据集成挖掘方法与技术研究[D];浙江大学;2012年
7 陈义;面向数据集成的数据复制和查询优化[D];中国科学院研究生院(软件研究所);2004年
8 李雁妮;深网数据集成与挖掘关键问题的建模及算法研究[D];西安电子科技大学;2013年
9 张永新;面向Web数据集成的数据融合问题研究[D];山东大学;2012年
10 殷晓冬;声学测深数据处理与海陆数据集成方法研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 张红宇;数据集成中本体映射的研究[D];中南大学;2005年
2 缪建明;集散控制系统的数据集成的研究与应用[D];福州大学;2003年
3 刘军;分布式智能异构数据集成支持系统的原型实现[D];大连海事大学;2003年
4 李凯;面向SCM数据集成的DW解决方案研究[D];大连理工大学;2006年
5 文静;数据集成中数据冲突检测和解决方法研究[D];山东大学;2010年
6 张雪洁;基于XML的数据集成平台框架及关键技术研究[D];河海大学;2004年
7 周艳芳;基于XML的ERP和电子商务数据集成[D];四川大学;2004年
8 袁红;保险公司数据集成关键技术的研究及应用[D];重庆大学;2004年
9 常萍英;基于OPC的机器人焊接生产线监控系统的数据集成及软件开发[D];东南大学;2004年
10 王宇鸽;电子政务中异构数据资源集成技术的应用研究[D];北方工业大学;2006年
中国重要报纸全文数据库 前10条
1 于翔;谁碾碎了数据?[N];网络世界;2007年
2 ;SaaS需要数据集成[N];网络世界;2007年
3 陈友梅;数据集成 永中Office之本[N];中国计算机报;2002年
4 邹大斌;发挥数据的最大价值[N];计算机世界;2007年
5 姜学军(山东省医药卫生科技信息研究所) 程永(浪潮商用系统公司;山东省地税系统的数据集成[N];电脑商报;2005年
6 李稚;“集成”的困惑[N];计算机世界;2002年
7 于翔 王翔;收复数据孤岛[N];网络世界;2007年
8 刘学纲;互联互通平台的数据集成[N];中国计算机报;2003年
9 朱文;CIO希望攻克数据质量关[N];计算机世界;2008年
10 本报记者 邹大斌;Informatica:从数据中淘金[N];计算机世界;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978