收藏本站
《吉林大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web查询结果抽取及注释

谢莹  
【摘要】: 本文对Deep Web数据集成系统进行了学习和研究,重点研究了系统中查询结果抽取和查询结果注释两个单元,提出了自己的实现方法。 查询结果抽取是指从查询结果返回页面中自动抽取出数据记录;查询结果注释是指为抽取出的数据记录中的各个数据项添加语义标注。 在查询结果抽取单元,本文采用基于HTML标签树的方法,通过递归过程在标签树中自顶向下地挖掘数据记录。对数据记录的识别,是通过计算标签树之间的相似度来完成的,标签树之间的相似度是基于编辑距离计算的。本文提出了不同于传统方法所提出的数据记录的定义,基于该定义的抽取过程较传统方法简单,不需要事先挖掘数据区域,而是直接抽取数据记录。 在查询结果注释单元,本文采用基于本体与启发式规则相结合的方法为待标注数据项添加语义标注,本体可以保证注释的一致性,启发式规则可以提高注释的完整性。该单元分为本体管理模块和语义标注模块,在本体管理模块构建图书领域本体库并用子概念表和候选概念表来维护本体;在语义标注模块制定了启发式规则,并指出了对一个数据项进行注释的过程。 本文采用多个中文图书领域Deep Web站点的查询结果返回页面进行实验测试,测试结果表明本文提出的方法准确、有效。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前2条
1 毛桂春;Deep Web查询结果后处理[D];吉林大学;2011年
2 李道申;基于本体的Deep Web数据集成方法研究[D];河南科技大学;2012年
【参考文献】
中国硕士学位论文全文数据库 前1条
1 张云冬;特定领域的Deep Web查询集成及结果抽取[D];复旦大学;2008年
【共引文献】
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 商翠珍;数据资源汇聚的可视化建模技术研究与应用[D];山东科技大学;2010年
3 朱静;数据资源汇聚中嵌套表格模型的研究与应用[D];山东科技大学;2010年
4 夏怀楠;支持跨域数据汇聚的关系数据访问服务研究[D];山东科技大学;2010年
5 刘富江;网络数据源模式识别方法及策略研究[D];哈尔滨工程大学;2010年
6 周建斌;基于J2EE Web应用的科学数据共享平台的研究与实现[D];华南理工大学;2010年
7 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
8 彭媛媛;Deep Web数据清洗方法研究及应用[D];长春工业大学;2010年
9 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
10 李保秀;中文文本分类技术研究[D];南昌大学;2010年
【同被引文献】
中国硕士学位论文全文数据库 前5条
1 潘高源;Deep Web查询结果抽取技术的研究[D];吉林大学;2011年
2 郭嘉琦;领域本体的构建及其在信息检索中的应用研究[D];北京邮电大学;2007年
3 张云中;基于形式概念分析的领域本体构建方法研究[D];吉林大学;2009年
4 曲杰涛;基于DOM的智能网页信息抽取技术研究[D];中国海洋大学;2009年
5 高亚;Deep Web数据集成系统中数据抽取与语义标注研究[D];河北大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 杨舟;岳亮;卓林;赵朋朋;崔志明;;一种基于领域本体的Deep Web数据自动标注方法[J];苏州大学学报(工科版);2011年04期
2 仲华;崔志明;;一种高效的Deep Web内容获取技术[J];计算机应用与软件;2008年06期
3 方巍;文学志;毕硕本;;Deep Web语义搜索系统设计[J];武汉理工大学学报;2010年16期
4 袁柳;李战怀;陈世亮;;基于本体的Deep Web数据标注[J];软件学报;2008年02期
5 张素智;李丽娜;刘中锋;;基于本体的Deep Web查询结果自动标注[J];郑州轻工业学院学报(自然科学版);2009年06期
6 李石生;刘海博;赵耀;;基于DeepWeb的图书检索系统设计[J];河北大学成人教育学院学报;2008年01期
7 李石生;刘海博;路小英;王亮;;基于探测查询的Deep Web实体识别[J];江西师范大学学报(自然科学版);2008年02期
8 侯毅;;基于Deep Web的主题搜索引擎的系统设计[J];数字技术与应用;2011年02期
9 李明;李秀兰;;基于结果模式的Deep Web数据标注方法[J];计算机应用;2011年07期
10 苏晓珂;赵磊;黄青松;;Deep Web中基于迭代的查询方式[J];云南民族大学学报(自然科学版);2007年01期
中国重要会议论文全文数据库 前10条
1 艾静;王仲远;孟小峰;;C-Rank:一种Deep Web数据记录可信度评估方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
2 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
3 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
5 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 王英;左万利;王鑫;彭涛;;Deep Web查询转换研究[A];第六届全国信息检索学术会议论文集[C];2010年
7 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
8 王英;左万利;彭涛;赫枫龄;彭钊;;应用领域本体知识库自动填充Deep Web入口表单[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
9 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 朱命冬;申德荣;寇月;聂铁铮;于戈;;一种应用于Deep Web环境下的重复记录识别模型[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国重要报纸全文数据库 前10条
1 无尾狐;在Excel中轻松查看数据记录[N];中国电脑教育报;2004年
2 史秋实;中小企业并购在等待中前行[N];中国高新技术产业导报;2006年
3 本报记者 隋晓琳;情系“黑匣子”[N];中国高新技术产业导报;2002年
4 记者 刘颖;尽快补齐通导设备这块短板[N];中国船舶报;2006年
5 本版编辑 宗和驷 柳莺;哈工程大学VDR装船使用[N];中国船舶报;2008年
6 吴勇;一组数据记录温州经济“脉动”[N];温州日报;2008年
7 廖昌昕 本报记者 聂沁宗;用数据记录试验区发展历程[N];毕节日报;2008年
8 周之江;政府招标难堵劣质图书进校园[N];经理日报;2006年
9 记者 罗强李洪文 通讯员 金声 初霞;船用“黑匣子”在黑龙江装船使用[N];中国水运报;2008年
10 金声记者 初霞;国产船用“黑匣子”,哈工程大学造[N];哈尔滨日报;2008年
中国博士学位论文全文数据库 前10条
1 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
2 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
3 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
4 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
5 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
6 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
7 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
8 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
9 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
10 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 谢莹;Deep Web查询结果抽取及注释[D];吉林大学;2010年
2 李秀兰;基于结果模式的Deep Web语义标注研究[D];兰州理工大学;2011年
3 杨舟;特定领域的Deep Web数据抽取与语义标注研究[D];苏州大学;2011年
4 朱旭东;基于本体学习的Deep Web语义标注关键问题研究[D];苏州大学;2012年
5 陈文;Deep Web入口识别和个性化搜索研究与设计[D];江苏大学;2010年
6 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
7 高亚;Deep Web数据集成系统中数据抽取与语义标注研究[D];河北大学;2010年
8 邓烨;面向特定领域的Deep Web数据自动抽取[D];中国海洋大学;2012年
9 吕越烽;基于本体的Deep Web模式匹配技术研究[D];苏州大学;2010年
10 陈洪平;面向Deep Web的数据抽取与语义标注技术研究[D];苏州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026