收藏本站
《东北大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web实体搜索的关键技术研究

寇月  
【摘要】:Web上的信息量巨大而丰富,并且已成为了企业、个人赖以生存和发展的主要信息资源。随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段。然而,Deep Web环境中的数据信息对于传统的搜索引擎来说是不可见的,针对Deep Web的新型搜索引擎还远没有发展成熟。面对Deep Web环境的信息量巨大、内容缺乏结构性、结果异构性、数据状态可变等特性,使得Deep Web信息搜索课题不断面临新的挑战和机遇。因此,如何有效地搜索Deep Web中的数据资源成为一个值得研究的问题,其目标是从大规模的、动态变化的Deep Web数据中自动地获取满足用户需求的结果信息。为此,本文针对Deep Web搜索过程中的关联知识构建、实体抽取、实体评估、实体去重等内容进行了研究。主要工作包括以下几点: (1)提出了一种Deep Web实体搜索机制DWESM。通过分析传统的页面级搜索技术和面向专业领域的垂直搜索技术的特点,提出了DWESM的层次模型,具体由关联知识构建、实体抽取、实体评估及实体去重等模型组成;DWESM以网页中的实体数据作为操作的基本单元,不仅能够适合Deep Web的环境特点,而且继承了垂直搜索中的技术思想,更加专注、具体和深入。 (2)提出了一种基于语义及统计分析的关联知识构建模型SS-KCM。基于文本匹配模型、语义分析模型和分组统计模型,构建了SS-KCM的整体模型框架;提出了文本粗略匹配、语义关联获取以及分组统计分析的三段式逐步求精策略,基于文本特征、语义关联及约束规则获取实体间的关联关系;提出了静态分析、动态协调相结合的自适应知识维护策略,构建和完善实体关联知识库,以适应Web数据的动态性并保证关联知识的完备性;通过实验验证了SS-KCM中所采用的关键技术的可行性和有效性。 (3)提出了一种基于DOM树的Deep Web实体抽取模型D-EEM。D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;提出了一种基于上下文距离和共现次数的语义标注方法,能够有效地将来自不同数据源的抽取结果进行合成;通过实验验证了D-EEM在抽取效率及抽取准确性等方面所具有的优势。 (4)提出了一种局部与全局评估相结合的实体评估模型LG-ERM。针对实体评估所涉及的实体特征、数据源特征、实体关联关系等影响因素进行了分析并量化表示;提出了一种局部与全局评估相结合的实体评估策略,既在数据源内部进行局部多重评估处理,又基于实体关联知识将局部评估结果进行聚集整合,有效地提高了评估的准确性;通过实验验证了LG-ERM所采用的关键技术的可行性和有效性。 (5)提出了一种基于多相似度估算器的实体去重模型。针对实体描述属性的不同特征,定义了一系列相似度估算器,以适应不同的属性类型;提出了实体记录相似度的计算方法以及不确定重复记录的处理策略;实验数据表明,该模型在重复记录识别的准确度和有效性等方面具有一定的优势。 (6)设计并实现了DWESM的原型系统。实现了本文所提出的关联知识构建、实体抽取、实体评估、实体去重等理论和方法,并验证了这些理论和方法的正确性和有效性。 总之,本文研究了Deep Web实体搜索中的关联知识构建、实体抽取、实体评估以及实体去重等问题,提出了一种适合Deep Web环境的实体搜索机制,能够有效地解决Deep Web搜索中结果数据的抽取、排序、消重及整合等问题。理论分析和大量的实验结果证明了这些方法的有效性和高效性。我们希望这些方法和技术对于开发Deep Web搜索系统具有一定的参考价值。
【学位授予单位】:东北大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前10条
1 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
2 赫枫龄,左万利;用有向图法解决网页爬行中循环链接问题[J];吉林大学学报(理学版);2004年03期
3 李文奇,张忠能;页面包装器自动生成的改进算法[J];计算机工程与应用;2004年22期
4 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期
5 王丽娟;关守义;王晓龙;王熙照;;基于属性权重的Fuzzy C Mean算法[J];计算机学报;2006年10期
6 周宏广,周继承,彭银桥,龙思锐;数据ETL工具通用框架设计[J];计算机应用;2003年12期
7 朱恒民;王宁生;;一种改进的相似重复记录检测方法[J];控制与决策;2006年07期
8 刘畅;;综合搜索引擎与垂直搜索引擎的比较研究[J];情报科学;2007年01期
9 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期
10 王晓宇,周傲英;万维网的链接结构分析及其应用综述[J];软件学报;2003年10期
中国硕士学位论文全文数据库 前1条
1 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 兰富军;李春霆;高海忠;;农业主题垂直搜索引擎过滤技术研究[J];安徽农业科学;2010年09期
2 赵靖;王侨文;管马周;单传佳;;自动提取布局结构相似网页的结构化信息[J];安徽科技学院学报;2010年06期
3 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
4 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
5 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
6 张敏;;基于确定性树自动机技术的信息抽取研究[J];才智;2011年36期
7 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
8 仲兆满;刘宗田;;基于两级概念格的信息抽取的研究[J];江西师范大学学报(自然科学版);2008年02期
9 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
10 郑洪源;周良;;基于CWM的标准ETL的设计与实现[J];吉林大学学报(信息科学版);2006年01期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 刘琛玺;彭传薇;;提高医疗指标效能是新形势下医院管理的迫切需要[A];中国医院协会病案管理专业委员会第十七届学术会议论文集[C];2008年
3 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
4 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
5 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 刘欣;章勇;王娟;;增量学习的TFIDF_NB协同训练分类算法[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
8 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
9 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
10 高斯;徐德华;;保险业CRM平台ETL应用研究[A];第十届中国不确定系统年会、第十四届中国青年信息与管理学者大会论文集[C];2012年
中国博士学位论文全文数据库 前10条
1 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
2 刘杰;面向数据集成的数据清理关键技术研究[D];中国科学技术大学;2010年
3 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
4 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
5 高遐;“军民结合”战略实施的制度环境与组织变革研究[D];电子科技大学;2011年
6 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
7 皋军;智能识别中的降维新方法及其应用研究[D];江南大学;2010年
8 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
9 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
10 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
4 蔡静颖;模糊c-均值算法的研究[D];辽宁师范大学;2010年
5 王芳;基于EVS相似度的邮件社区划分方法研究[D];郑州大学;2010年
6 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
7 葛迪;ETL技术在交通信息资源整合工程中的应用研究[D];哈尔滨工程大学;2010年
8 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
9 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
10 蒋延生;基于图的适应性相似度估算的半监督学习[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 宋宝燕,王国仁,于戈,郑怀远;模式集成代数[J];东北大学学报;1999年01期
2 康桂英,刘春平;新一代中文智能搜索引擎研究[J];东南大学学报(哲学社会科学版);2002年S1期
3 黄建莲;中国搜索引擎服务市场的现状及发展[J];华北科技学院学报;2005年03期
4 赫枫龄,陶文学,李凯,周力,左万利;新一代网络搜索引擎系统CHINA_VIVI的实现[J];吉林大学学报(理学版);2003年02期
5 王熙照,王丽娟,王利伟;传递闭包聚类中的模糊性分析[J];计算机工程与应用;2003年18期
6 俞荣华;田增平;周傲英;;一种检测多语言文本相似重复记录的综合方法[J];计算机科学;2002年01期
7 邱越峰,田增平,季文贇,周傲英;一种高效的检测相似重复记录的方法[J];计算机学报;2001年01期
8 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
9 朱焱;浅论数据抽取、净化和转换工具[J];计算机应用;2000年04期
10 孟小峰,王海燕,谷明哲,王静;XWIS中基于预定义模式的包装器[J];计算机应用;2001年09期
【相似文献】
中国期刊全文数据库 前10条
1 曹健,黄越,张申生;支持协同产品开发的产品数据管理模型研究[J];高技术通讯;2002年03期
2 范建永;熊伟;刘建忠;;基于OCI方式空间数据访问引擎的设计与实现[J];地理与地理信息科学;2008年01期
3 聂铁铮;于戈;申德荣;寇月;;基于实例的Deep Web数据源结果模式匹配技术[J];计算机科学与探索;2008年06期
4 何继潮;一种基于联系的数据库设计方法[J];计算机学报;1987年10期
5 侯毅;;基于Deep Web的主题搜索引擎的系统设计[J];数字技术与应用;2011年02期
6 苏晓珂;赵磊;黄青松;;Deep Web中基于迭代的查询方式[J];云南民族大学学报(自然科学版);2007年01期
7 段晓飞;张素智;马红;;基于Deep Web的模式匹配算法研究[J];郑州轻工业学院学报(自然科学版);2008年03期
8 严小卫,樊明武;时态实体-关系数据模型TER的研究[J];小型微型计算机系统;1999年01期
9 金灵芝;王小玲;朱守中;;Deep Web数据源自动分类[J];微计算机信息;2009年12期
10 金库;聂培尧;林培光;;一种Web数据库大小估算新方法[J];信息技术与信息化;2010年02期
中国重要会议论文全文数据库 前10条
1 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 王英;左万利;王鑫;彭涛;;Deep Web查询转换研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
6 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
7 王英;左万利;彭涛;赫枫龄;彭钊;;应用领域本体知识库自动填充Deep Web入口表单[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
8 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 朱命冬;申德荣;寇月;聂铁铮;于戈;;一种应用于Deep Web环境下的重复记录识别模型[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 艾静;王仲远;孟小峰;;C-Rank:一种Deep Web数据记录可信度评估方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
中国重要报纸全文数据库 前10条
1 浙江大学 胡锡伟陈德人;UML提升汽配销售管理水平[N];中国计算机报;2007年
2 李涛;建银科技更名中投科技中投旗下资产整合启动[N];第一财经日报;2007年
3 记者 储兴华;探讨证券市场变化与投资决策[N];中国证券报;2001年
4 李晓萍;国内安防企业取得国际认证有了直通车[N];人民公安报;2008年
5 郭强;淮安财政改革亮点纷呈[N];江苏经济报;2008年
6 卢志坚 马融;江苏统一办案工作流程和质量考评标准[N];检察日报;2005年
7 汪桔;外经企业国内经营环境的分析[N];国际商报;2002年
8 卢志坚 马融;统一办案工作流程和办案质量考评标准[N];江苏法制报;2005年
9 李德仁 龚健雅 张桥平;地图数据库的合并[N];中国测绘报;2004年
10 董辅礽;创业板市场 早设立 早受益[N];经济参考报;2001年
中国博士学位论文全文数据库 前10条
1 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
2 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
3 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
4 姜丽丽;实体搜索与实体解析方法研究[D];兰州大学;2012年
5 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
6 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
7 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
8 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
9 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
10 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 马也;Deep Web环境下查询松弛技术的研究[D];东北大学;2008年
2 陈文;Deep Web入口识别和个性化搜索研究与设计[D];江苏大学;2010年
3 李秀兰;基于结果模式的Deep Web语义标注研究[D];兰州理工大学;2011年
4 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
5 邓烨;面向特定领域的Deep Web数据自动抽取[D];中国海洋大学;2012年
6 于晓;Deep Web查询松弛和实体识别研究[D];辽宁大学;2012年
7 刘凯;Deep Web数据集成关键技术研究[D];长春工业大学;2012年
8 蔡欣宝;Deep Web数据获取方法研究[D];苏州大学;2010年
9 张旭;面向Deep Web响应页面的模式识别的研究[D];东北大学;2008年
10 李三义;基于模型匹配的Deep Web数据库分类[D];吉林大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026