收藏本站
《武汉大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

面向领域的高质量Deep Web数据集成技术研究

田建伟  
【摘要】:按照信息蕴藏的深度,Web分为Surface Web和Deep Web两大部分。其中,Surface Web是由超链接连接起来的静态网页,其内容能够为当前的通用搜索引擎索引和检索。而Deep Web是指访问在线数据库而动态生成的网页。随着信息化进程的推进和互联网技术的发展,Web中的在线数据库资源成指数级增长,访问Web数据库成为获取信息的主要来源。由于Deep Web具有隐藏性的特点和各个Deep Web站点存在质量上的差异,如何有效地利用Deep Web中的高质量数据成为信息检索领域面临的一大挑战。为此,本论文拟研究面向领域的高质量的Deep Web数据集成技术。 本文的主要研究工作包括以下几点: (1)同一主题的Deep Web数据源的发现 如何有效地发现Deep Web查询接口是Deep Web集成首先需要解决的问题,为此提出了基于顺序回归模型的Deep Web查询接口发现方法。首先,利用顺序回归的方法构造网页分类器,把主题相关的网页分为三个不同的层次,同时构造链接信息提取器,提取对应三个层次的链接。其次,把网页分类器分层结果作为链接信息提取器的反馈,揭示链接信息提取器提取的链接是否满足网页分类器的要求。最后,根据反馈爬虫自动提取满足要求的链接特征,并利用链接特征指导爬虫快速地找到各层有前途的链接。实验结果表明本文提出的爬行策略能够自动地提取有前途的链接的特征,筛选掉很多无关链接,提高了爬虫的速度和准确度。 (2)均匀的数据抽样方法研究 只有通过客观的数据样本才能真实反映数据源中数据的分布,进而准确的评估数据源的数据质量。为此提出了利用属性相关度的Deep Web数据抽样方法。首先,根据属性值的相关度构建抽样模板,并产生抽样查询把Web数据库划分成一组抽样块。在此基础上,对整个非均匀数据库的抽样就转化为均匀地抽取对各个块中的元组。最后,为了提高抽样效率和质量,采用了互信息的启发规则,引导基本抽样查询找到有效样本。实验表明该方法能够达到良好的抽样质量和抽样效率。 (3)基于数据质量的数据源排序方法 同一个主题的Deep Web数据源很多,但不是所有的数据源都拥有高质量的数据,比如有些数据源数据量很小或者含有很多错误数据。在查询时就需要为用户推荐高质量的数据源。相比传统的根据链接权威度的数据源排序方法,提出了基于数据质量的数据源排序方法。该方法以不同的质量评估标准,形成质量向量,进而对数据源的质量进行量化计算和估计。同时用抽取的样本计算每个质量标准的量化值,最后根据各个质量标准的量化值计算整个向量值。实验结果表明,利用抽样对数据源的数据质量进行评估,具有很好的准确性和可操作性。 (4)无重复和完全的Deep Web数据提取方法研究 为了能够有效地检索高质量Deep Web资源,在数据源排序的基础上,就需要提取高质量数据源中的结构化数据。为此,提出了一种全新的基于层次树的Deep Web数据获取方法,该方法可以无重复和完整的提取Web数据库中的数据记录。该方法首先把Web数据库模型化为一棵层次树,Deep Web数据获取问题就转化为树的遍历问题。其次,对树中的属性排序,缩小遍历空间;同时,利用基于属性值相关度的启发规则指导遍历过程,提高遍历效率。在本地模拟数据库和真实Web数据库上的大量实验证明,该方法可以达到很好的覆盖度和较高的提取效率。 (5)结构化数据集成方法研究 为了方便用户检索Deep Web数据,需要把不同数据源的结构化数据集成到本地数据库中。首先,这就涉及到属性和属性值的匹配,针对此,提出了基于属性语义的模式匹配方法。其次,为了准确和自动地提取结构化数据,提出了基于聚类的数据定位方法,并自动生成提取规则。最后,为了有效的去除重复记录,提出了基于关系运算的记录去重方法。 这些技术对于有效筛选和检索高质量的Deep Web数据,充分利用互联网中的Deep Web资源,具有重要意义。
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前6条
1 宋晖,张岭,叶允明,马范援;基于标记树对象抽取技术的Hidden Web获取研究[J];计算机工程与应用;2002年23期
2 张亮;尹存燕;陈家骏;;基于语义树的中文词语相似度计算与分析[J];中文信息学报;2010年06期
3 郑冬冬,赵朋朋,崔志明;Deep Web爬虫研究与设计[J];清华大学学报(自然科学版);2005年S1期
4 刘伟;孟小峰;凌妍妍;;一种基于图模型的Web数据库采样方法[J];软件学报;2008年02期
5 凌妍妍;孟小峰;刘伟;;基于属性相关度的Web数据库大小估算方法[J];软件学报;2008年02期
6 ;A Deep Web Data Integration System for Job Search[J];Wuhan University Journal of Natural Sciences;2006年05期
中国博士学位论文全文数据库 前1条
1 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 赵靖;王侨文;管马周;单传佳;;自动提取布局结构相似网页的结构化信息[J];安徽科技学院学报;2010年06期
2 杨丽华;;基于规则的Deep Web查询接口的抽取[J];电脑知识与技术;2010年01期
3 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期
4 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
5 郑志材;张晶;;基于JAVA的网络蜘蛛的设计与实现[J];硅谷;2009年14期
6 邓松;万常选;刘喜平;;基于用户反馈的Web多媒体数据源的选取[J];管理学报;2011年12期
7 韩凌;丁其祥;;搜索引擎技术与高校图书馆建设[J];硅谷;2011年23期
8 胡泉;胡金柱;谢芳;;基于GAE的专业服务网信息获取技术研究[J];电信科学;2011年12期
9 李强;;Deep-Web搜索引擎实现技术研究[J];甘肃科技;2012年03期
10 刘芳;;查询自动生成器在Web数据库发现中的应用[J];信息技术;2009年06期
中国博士学位论文全文数据库 前10条
1 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
2 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
3 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
4 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
5 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
6 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
7 方巍;基于本体的Deep Web信息集成关键技术研究[D];苏州大学;2009年
8 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
9 丁艳辉;面向Web数据集成的数据抽取问题研究[D];山东大学;2010年
10 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 王继成,邹涛,杨小江,潘金贵,张福炎;基于Internet的信息资源发现技术与实现[J];计算机研究与发展;1999年11期
2 宋晖,张岭,叶允明,马范援;基于标记树对象抽取技术的Hidden Web获取研究[J];计算机工程与应用;2002年23期
3 余芳;一个基于朴素贝叶斯方法的web文本分类系统:WebCAT[J];计算机工程与应用;2004年13期
4 许建潮,胡明;中文Web文本的特征获取与分类[J];计算机工程;2005年08期
5 陈琼,苏文健;基于网页结构树的Web信息抽取方法[J];计算机工程;2005年20期
6 吴健,吴朝晖,李莹,邓水光;基于本体论和词汇语义相似度的Web服务发现[J];计算机学报;2005年04期
7 樊兴华;孙茂松;;一种高性能的两类中文文本分类方法[J];计算机学报;2006年01期
8 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
9 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
10 邓顺国;试论搜索引擎的发展趋势[J];图书馆理论与实践;2003年05期
中国博士学位论文全文数据库 前1条
1 鲁松;自然语言处理中词相关性知识无导获取和均衡分类器构建[D];中国科学院研究生院(计算技术研究所);2001年
【相似文献】
中国期刊全文数据库 前10条
1 辛洁;崔志明;赵朋朋;张广铭;鲜学丰;;基于MapReduce虚拟机的Deep Web数据源发现方法[J];通信学报;2011年07期
2 卓林;杨舟;岳亮;赵朋朋;崔志明;;Deep Web爬虫的一种增量式更新策略[J];苏州大学学报(工科版);2011年04期
3 李明;李秀兰;;基于结果模式的Deep Web数据标注方法[J];计算机应用;2011年07期
4 邵秀丽;孙杰;侯乐彩;;基于整体模式匹配的深度网集成系统的研究[J];计算机工程与设计;2011年08期
5 董永权;李庆忠;丁艳辉;张永新;;一种基于证据理论和任务分配的Deep Web查询接口匹配方法[J];模式识别与人工智能;2011年02期
6 杨舟;岳亮;卓林;赵朋朋;崔志明;;一种基于领域本体的Deep Web数据自动标注方法[J];苏州大学学报(工科版);2011年04期
7 王佳;;石油勘探开发一体化数据仓库的设计与应用[J];石油化工自动化;2011年04期
8 霍凌化;徐雄;;基于web的电脑生产过程数据管理系统[J];黑龙江科技信息;2011年22期
9 魏华;;关于金融报表系统数据集成问题的探究[J];中国市场;2011年36期
10 时贵英;文必龙;王志宝;;基于数据元的数据集成技术研究[J];科学技术与工程;2011年18期
中国重要会议论文全文数据库 前10条
1 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
2 凌妍妍;刘伟;王仲远;艾静;孟小峰;;Deep Web数据集成中的实体识别方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 姜芳艽;贾琳琳;孟小峰;;Deep Web数据集成中基于最小超集的查询转换[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 艾静;王仲远;孟小峰;;C-Rank:一种Deep Web数据记录可信度评估方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
7 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 王英;左万利;王鑫;彭涛;;Deep Web查询转换研究[A];第六届全国信息检索学术会议论文集[C];2010年
9 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
10 王英;左万利;彭涛;赫枫龄;彭钊;;应用领域本体知识库自动填充Deep Web入口表单[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国重要报纸全文数据库 前10条
1 ;EDI:未来存储是数据集成[N];中国计算机报;2001年
2 艾文;增强数据集成能力[N];中国计算机报;2003年
3 ;数据集成软件是头号重点[N];计算机世界;2003年
4 ;IBM收购DataMirror 强化数据集成能力[N];计算机世界;2007年
5 于翔;集成即服务:面向云的数据集成[N];网络世界;2009年
6 本报记者 霍娜;法规遵从催熟数据集成归档[N];中国计算机报;2010年
7 ;集成异构数据源[N];网络世界;2006年
8 嘉 慧;不仅要集中,而且要应用[N];计算机世界;2002年
9 邹大斌;发挥数据的最大价值[N];计算机世界;2007年
10 于翔;谁碾碎了数据?[N];网络世界;2007年
中国博士学位论文全文数据库 前10条
1 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
2 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
3 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
4 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
5 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
6 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
7 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
8 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
9 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
10 赵朋朋;Deep Web信息集成若干关键技术研究[D];苏州大学;2008年
中国硕士学位论文全文数据库 前10条
1 颜无瑕;Deep Web数据集成中模式匹配研究[D];曲阜师范大学;2011年
2 蔡欣宝;Deep Web数据获取方法研究[D];苏州大学;2010年
3 陈尚安;林业企业黄页Deep Web数据集成研究[D];北京林业大学;2012年
4 李三义;基于模型匹配的Deep Web数据库分类[D];吉林大学;2010年
5 陈文;Deep Web入口识别和个性化搜索研究与设计[D];江苏大学;2010年
6 李秀兰;基于结果模式的Deep Web语义标注研究[D];兰州理工大学;2011年
7 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
8 杜鑫;Deep Web数据源发现与采样研究[D];山东大学;2011年
9 吕越烽;基于本体的Deep Web模式匹配技术研究[D];苏州大学;2010年
10 马也;Deep Web环境下查询松弛技术的研究[D];东北大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026