收藏本站
《山东大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web查询中的不确定性问题研究

潘鹏  
【摘要】:由于Deep Web数据规模巨大,数据质量高而且Web数据库数量和规模增长迅速,人们从中获取信息的需求日益强烈。然而Web数据库动态性高,异构性强,及隐藏于网页后的特点为人们从中获取信息带来了巨大挑战。 由于Deep Web的数据隐藏在Web数据库提供的查询接口后面,为了实现对Deep Web的查询,需要通过向Web数据库提供的查询接口提交查询请求然后浏览结果页面来实现。对于领域内大量Deep Web的访问,通常采用集成的方式,即在建立集成的查询接口及其与Web数据库接口间的映射后,向集成接口提交查询请求并转换为到Web数据库上的查询。 Deep Web规模巨大,来源广泛,异构性强,动态性高的特点使得集成过程采用人工方式变得不现实,但是在采用自动方式进行集成的过程中,会导致诸如抽取,接口集成,标注,重复记录检测等过程产生随机性,即多种结果会出现的可能性的特性和模糊性,即由于数据所属集合的内涵,外延的不确定性,导致难以判断数据的归属的特性。上述的随机性和模糊性,在已有文献中被称作不确定性。对于这些不确定性,如果仍然采用传统的“去除不确定性”的方法来进行回避,会使得最终获得的数据因为质量低下而降低使用价值,因而如何有效解决这些不确定性问题,成为Deep Web中提高用户查询满意度的一个挑战。 在Deep Web中查询的研究中,随着各种随机性,模糊性频繁在数据本身或集成过程中体现出来,对于提高用户查询的满意度出现了许多新的挑战性问题,使得不能利用已有的工作有效地进行解决。存在以下问题需要解决: 1作为查询和集成的基础,需要充分考虑接口集成和接口映射过程中的随机性,建立高质量的集成接口和准确完备的接口映射。2接口间对查询的表达能力差异,需要在局部接口上找到最接近集成接口查询能力的接口表达形式,从而最终满足用户的查询请求。 3 Deep Web集成中查询结果中重复记录的检测和合并过程中出现的模糊性,会大大影响数据的质量,需要构建合适的关于重复记录模糊性处理的过程和数据表达。 4如何提供高效的方法,把满足用户偏好的数据呈现给用户,是评估查询质量的标准。 本文以在Deep Web中为用户提供满意的查询为目标,对Deep Web中的查询过程进行了研究,并对其中所涉及的随机性和模糊性进行了解决,具体在四个方面展开研究:集成接口的形成和概率映射的生成,概率映射下的查询转换,具有隶属模糊性的重复记录处理的过程,具有概率的重复记录集上基于用户偏好的查询。 本文主要工作和贡献如下: 1针对Deep Web中集成接口与接口映射在利用自动方式均产生随机性的问题,提出了利用聚类集成在多个可能集成接口上生成单一集成接口的方法,并采用二分图的带权最佳匹配思想求解概率映射,有效提高了接口集成和映射的质量。 2针对查询转换低效的问题,通过扩展物化结果的适用范围,设计高效的求解最小谓词的算法和查找最佳谓词组合的重写算法,有效提高了查询转换的效率。 3针对重复Web记录处理过程的模糊性,把重复Web记录的检测和合并过程统一考虑,并提供了对重复记录集的表示形式,在此之上,又提出了适用于Deep Web大规模重复记录的处理方法,有效提高了重复记录检测和合并的质量。 4针对在概率数据上按照用户偏好的查询,对基于global top-k查询语义的算法进行了改进,并提出了一种在概率数据上的top-k skyline方法,为用户提供了满足其查询偏好的高效的算法。
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前6条
1 姜芳艽;孟小峰;贾琳琳;;Deep Web集成服务的不确定模式匹配[J];计算机学报;2008年08期
2 姜芳艽;孟小峰;;Deep Web数据集成中查询处理的研究与进展[J];计算机科学与探索;2009年02期
3 李德毅,刘常昱,杜鹢,韩旭;不确定性人工智能[J];软件学报;2004年11期
4 寇月;申德荣;李冬;聂铁铮;;一种基于语义及统计分析的Deep Web实体识别机制[J];软件学报;2008年02期
5 ;Query Translation on the Fly in Deep Web Integration[J];Wuhan University Journal of Natural Sciences;2007年05期
6 黄健斌;姬红兵;孙鹤立;;近似重复记录的自适应距离度量检测[J];西安电子科技大学学报;2007年02期
【共引文献】
中国期刊全文数据库 前10条
1 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
2 陈祥松,邓苏,黄宏斌;GLAV集成方法中的模式匹配研究[J];安徽工程科技学院学报(自然科学版);2004年04期
3 张小平,马垣;KDD中的数据清理技术研究[J];鞍山科技大学学报;2003年02期
4 王宏鼎;谭少华;唐世渭;杨冬青;童云海;;基于模式元素语义关系的模式合并方法研究[J];北京大学学报(自然科学版)网络版(预印本);2006年04期
5 王宏鼎;谭少华;唐世渭;杨冬青;童云海;;基于模式元素语义关系的模式合并方法研究[J];北京大学学报(自然科学版);2007年03期
6 张光卫;康建初;李鹤松;李德毅;;基于云模型的全局最优化算法[J];北京航空航天大学学报;2007年04期
7 张维蔚;李超;曾骁;熊璋;;一种多策略GML应用模式匹配方法[J];北京航空航天大学学报;2008年05期
8 刘禹;李德毅;;正态云模型雾化性质统计分析[J];北京航空航天大学学报;2010年11期
9 宋瀚涛;异构信息源集成技术[J];北京理工大学学报;2002年05期
10 赵文峰;孟祥武;陈俊亮;;信息提供类Web服务与RDF数据源的集成[J];北京邮电大学学报;2008年06期
中国重要会议论文全文数据库 前10条
1 ;Discovering Complex Matches Between Database Schemas[A];第二十七届中国控制会议论文集[C];2008年
2 孙科武;许斌;罗森;;属性驱动的Web服务分类方法[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
3 王育红;陈军;;GIS客户数据库更新自动化实施算法研究[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
4 王育红;蒋捷;;基础地理信息的客户更新服务问题[A];中国地理信息系统协会第八届年会论文集[C];2004年
5 秦昆;孔令桥;许凯;;智能空间信息处理课程体系研究[A];2009`中国地理信息产业论坛暨第二届教育论坛就业洽谈会论文集[C];2009年
6 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
7 夏冰;夏敏捷;徐飞;郑秋生;;一种分布式安全评估主控中心的研究与设计[A];计算机研究新进展(2010)——河南省计算机学会2010年学术年会论文集[C];2010年
8 佟冰;张忠平;宋丽;;一种改进的多源模式匹配算法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
9 刘通;刘国华;刘欣;王聪;;ISMD:一种基于副本的完整模式匹配算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
10 郜时红;刘国华;沈兵红;宋金玲;;基于渐近概率的视图安全判定算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
2 窦亚玲;基于直觉模糊集的多约束网络路由决策方法研究[D];华中科技大学;2010年
3 宋雅娟;Web服务组合方法研究[D];吉林大学;2011年
4 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
5 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年
6 张晓辉;云理论和数据挖掘在水上安全分析中的应用[D];大连海事大学;2011年
7 曾水玲;训练模式的不确定性对模糊系统的影响[D];南京理工大学;2011年
8 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
9 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
10 王尚广;基于QoS度量的Web服务选择关键技术研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 徐扬;异构数据资源汇聚的模式及优化问题研究[D];山东科技大学;2010年
2 曾祥莉;ETL在经济普查信息发布系统中的应用研究[D];哈尔滨工程大学;2010年
3 李伟光;基于BP神经网络的数据库模式匹配方法研究[D];哈尔滨工程大学;2010年
4 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
5 侯佳奇;社保联网审计中增量数据分布式处理的研究[D];哈尔滨工程大学;2010年
6 刘洁;基于关联挖掘的深层网络接口模式匹配方法的研究[D];哈尔滨工程大学;2010年
7 刘富江;网络数据源模式识别方法及策略研究[D];哈尔滨工程大学;2010年
8 赵阳耀;基于本体的数据源映射方法与策略[D];哈尔滨工程大学;2010年
9 韦哲;基于上下文感知技术的WSN路由协议研究[D];大连理工大学;2010年
10 马栋;模糊Hopfield网络在人脸识别中的应用[D];长沙理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 王梓坤;论混沌与随机[J];北京师范大学学报(自然科学版);1994年02期
2 李德毅;知识表示中的不确定性[J];中国工程科学;2000年10期
3 李德毅,刘常昱;论正态云模型的普适性[J];中国工程科学;2004年08期
4 王宇;孟小峰;王珊;;基于直方图的XPath含值谓词路径选择性代价估计[J];计算机研究与发展;2006年02期
5 李德毅,孟海军,史雪梅;隶属云和隶属云发生器[J];计算机研究与发展;1995年06期
6 王丽娟;关守义;王晓龙;王熙照;;基于属性权重的Fuzzy C Mean算法[J];计算机学报;2006年10期
7 姜芳艽;孟小峰;贾琳琳;;Deep Web集成服务的不确定模式匹配[J];计算机学报;2008年08期
8 朱恒民;王宁生;;一种改进的相似重复记录检测方法[J];控制与决策;2006年07期
9 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期
10 刘伟;孟小峰;凌妍妍;;一种基于图模型的Web数据库采样方法[J];软件学报;2008年02期
【相似文献】
中国期刊全文数据库 前10条
1 侯毅;;基于Deep Web的主题搜索引擎的系统设计[J];数字技术与应用;2011年02期
2 苏晓珂;赵磊;黄青松;;Deep Web中基于迭代的查询方式[J];云南民族大学学报(自然科学版);2007年01期
3 段晓飞;张素智;马红;;基于Deep Web的模式匹配算法研究[J];郑州轻工业学院学报(自然科学版);2008年03期
4 金灵芝;王小玲;朱守中;;Deep Web数据源自动分类[J];微计算机信息;2009年12期
5 金库;聂培尧;林培光;;一种Web数据库大小估算新方法[J];信息技术与信息化;2010年02期
6 王贤;苏晓珂;黄青松;;基于Zipf Estimator的Deep Web最佳查询词选择[J];计算机技术与发展;2007年03期
7 方丽;李锡辉;;基于Deep Web挖掘的搜索策略[J];福建电脑;2008年03期
8 藕军;任明仑;左春荣;章成志;;中文Deep Web的大小、质量及分布[J];情报学报;2008年02期
9 张玉峰;吴金红;王翠波;;面向Deep Web的动态竞争情报智能采集策略[J];情报学报;2008年04期
10 茅琴娇;冯博琴;潘善亮;;Deep web站点查询界面的潜在语义分析(英文)[J];Journal of Southeast University(English Edition);2008年03期
中国重要会议论文全文数据库 前10条
1 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
2 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
5 王英;左万利;王鑫;彭涛;;Deep Web查询转换研究[A];第六届全国信息检索学术会议论文集[C];2010年
6 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
7 王英;左万利;彭涛;赫枫龄;彭钊;;应用领域本体知识库自动填充Deep Web入口表单[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
8 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 朱命冬;申德荣;寇月;聂铁铮;于戈;;一种应用于Deep Web环境下的重复记录识别模型[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 艾静;王仲远;孟小峰;;C-Rank:一种Deep Web数据记录可信度评估方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
中国重要报纸全文数据库 前10条
1 上海 夏翔;把噩梦赶走[N];电脑报;2004年
2 罗庆丰;高效组织校园歌咏大赛[N];电脑报;2003年
3 ;一次删除所有重复记录[N];财会信报;2006年
4 ;色之巅峰——LGCU8080雄视![N];证券日报;2003年
5 江苏 春水;请个“机器人”当助手[N];电脑报;2004年
6 特约撰稿 潘霞;LG手机演绎美之三重奏[N];通信信息报;2003年
7 鸿峰宏清;医院“软服务”引来不解目光[N];无锡日报;2007年
8 胡春民 马名伟;可录DVD规格观点碰撞[N];中国电子报;2003年
9 ;LG手机美之三重奏[N];通信产业报;2003年
10 明天;大众交通票务中心导入MyCRM系统[N];现代物流报;2008年
中国博士学位论文全文数据库 前10条
1 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
2 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
3 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
4 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
5 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
6 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
7 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
8 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
9 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
10 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 陈文;Deep Web入口识别和个性化搜索研究与设计[D];江苏大学;2010年
2 李秀兰;基于结果模式的Deep Web语义标注研究[D];兰州理工大学;2011年
3 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
4 马也;Deep Web环境下查询松弛技术的研究[D];东北大学;2008年
5 刘凯;Deep Web数据集成关键技术研究[D];长春工业大学;2012年
6 蔡欣宝;Deep Web数据获取方法研究[D];苏州大学;2010年
7 张旭;面向Deep Web响应页面的模式识别的研究[D];东北大学;2008年
8 李三义;基于模型匹配的Deep Web数据库分类[D];吉林大学;2010年
9 岳亮;Deep Web接口集成及查询结果排序方法研究[D];苏州大学;2011年
10 谢莹;Deep Web查询结果抽取及注释[D];吉林大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026