收藏本站
《吉林大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

从深度网入口中抽取SCHEMA

何中天  
【摘要】: 目前,人们越来越多的依赖搜索引擎来查找他们所需要的资料。然而我们目前所普遍应用的搜索引擎使用的一般爬行器只是根据网页的链接进行搜索信息,这样做往往忽略了网页中通过表单提供给用户的网络数据库中的信息。统计表明这些被目前大部分搜索引擎所忽略的数据库中所含有的信息是根据页面链接所找到信息量的500倍左右,而这些信息可以通过填写网页中的深度网入口(query interfaces)对网络数据库进行查询获得。为了让机器可以自动对网页中的深度网入口进行填写并且对返回的信息进行信息综合处理,我们面临一系列问题:从深度网入口抽取SCHEMA,对SCHEMA进行匹配,对查询进行转换以及对结果进行理解。 本文所要着重关注的问题是从深度网入口抽取SCHEMA。通过对深度网入口界面和HTML代码的分析,提出了一种基于深度网入口界面中各个标签(label),元素(element)的位置关系以及它们的语义关系来抽取属性内容的方法,并通过实验证明这种方法对于深度网入口SCHEMA的抽取是有效和准确的。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前3条
1 纪文彦;基于本体的Deep Web查询转换技术研究[D];吉林大学;2011年
2 袁靓;Deep Web信息集成关键技术的研究[D];中南大学;2008年
3 杨丽华;基于规则的Deep Web接口发现与抽取研究[D];河北大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 陈祥松,邓苏,黄宏斌;GLAV集成方法中的模式匹配研究[J];安徽工程科技学院学报(自然科学版);2004年04期
2 王宏鼎;谭少华;唐世渭;杨冬青;童云海;;基于模式元素语义关系的模式合并方法研究[J];北京大学学报(自然科学版)网络版(预印本);2006年04期
3 王宏鼎;谭少华;唐世渭;杨冬青;童云海;;基于模式元素语义关系的模式合并方法研究[J];北京大学学报(自然科学版);2007年03期
4 张维蔚;李超;曾骁;熊璋;;一种多策略GML应用模式匹配方法[J];北京航空航天大学学报;2008年05期
5 何杰;陈能成;王伟;翟亮;;基于动态模式匹配的多版本网络要素服务统一访问方法[J];测绘科学;2011年04期
6 王育红;陈军;;GIS客户数据库更新的基本问题[J];地理信息世界;2008年01期
7 丁国辉;王国仁;赵相国;;多数据源上Top-k中间模式的产生算法[J];东北大学学报(自然科学版);2011年12期
8 钱颖;刘国华;陈子阳;赵孟;;模式匹配技术[J];燕山大学学报;2006年04期
9 高畅;刘国华;;一种改进的数据库模式匹配算法[J];燕山大学学报;2007年02期
10 王育红;牛亚辉;林艳;;顾及语义差异的基础地理信息客户数据库更新实施模型[J];地理与地理信息科学;2011年01期
中国重要会议论文全文数据库 前10条
1 ;Discovering Complex Matches Between Database Schemas[A];第二十七届中国控制会议论文集[C];2008年
2 孙科武;许斌;罗森;;属性驱动的Web服务分类方法[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
3 王育红;陈军;;GIS客户数据库更新自动化实施算法研究[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
4 王育红;蒋捷;;基础地理信息的客户更新服务问题[A];中国地理信息系统协会第八届年会论文集[C];2004年
5 佟冰;张忠平;宋丽;;一种改进的多源模式匹配算法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
6 刘通;刘国华;刘欣;王聪;;ISMD:一种基于副本的完整模式匹配算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
7 钱颖;刘国华;张忠平;沈兵红;张凌宇;;基于聚类的模式匹配方法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
8 刘杰;李伟光;刘振广;;基于BP神经网络的数据库模式匹配方法研究[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
9 何召卫;陈俊亮;;本体相似研究综述[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年
10 钱钢;董逸生;;建立可扩展的、无歧义的XML模式映射[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
2 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
3 宋雅娟;Web服务组合方法研究[D];吉林大学;2011年
4 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
5 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
6 沈国华;基于描述逻辑的语义Web服务建模及推理研究[D];南京航空航天大学;2009年
7 邵世维;基于几何特征的多尺度矢量面状实体匹配方法研究与应用[D];武汉大学;2011年
8 车颖;计算无关模型驱动的ERP系统重构关键技术研究[D];哈尔滨工业大学;2011年
9 王颖;本体匹配器的选择与组合方法研究[D];哈尔滨工程大学;2011年
10 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
中国硕士学位论文全文数据库 前10条
1 徐扬;异构数据资源汇聚的模式及优化问题研究[D];山东科技大学;2010年
2 曾祥莉;ETL在经济普查信息发布系统中的应用研究[D];哈尔滨工程大学;2010年
3 李伟光;基于BP神经网络的数据库模式匹配方法研究[D];哈尔滨工程大学;2010年
4 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
5 刘洁;基于关联挖掘的深层网络接口模式匹配方法的研究[D];哈尔滨工程大学;2010年
6 刘富江;网络数据源模式识别方法及策略研究[D];哈尔滨工程大学;2010年
7 赵阳耀;基于本体的数据源映射方法与策略[D];哈尔滨工程大学;2010年
8 刘杰雄;基于本体的爆破行业信息搜索技术的研究[D];华南理工大学;2010年
9 白杰英;本体在医疗信息整合中的应用与研究[D];长春工业大学;2010年
10 田相坤;基于概念分层的本体匹配策略的研究与实现[D];华东理工大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 朱靖波,陈文亮;基于领域知识的文本分类[J];东北大学学报;2005年08期
3 刘林,汪涛,樊孝忠;主题爬虫的解决方案[J];华南理工大学学报(自然科学版);2004年S1期
4 宋晖,张岭,叶允明,马范援;基于标记树对象抽取技术的Hidden Web获取研究[J];计算机工程与应用;2002年23期
5 左琼;;DM4的TopN查询优化设计[J];计算机工程与应用;2006年07期
6 孙鑫;陈秋双;;基于移动Agent技术的虚拟企业协调机制[J];计算机工程与应用;2007年02期
7 方巍;黄黎;崔志明;;基于最大熵分类器的Deep Web查询接口自动判定[J];计算机工程与应用;2008年21期
8 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
9 李瑞轩,霍晓丽,文珠穆,卢正鼎,李兵;多数据库系统中的全局查询转换方法研究[J];计算机工程;2005年16期
10 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
中国硕士学位论文全文数据库 前8条
1 陈涛;深层网络信息资源分析与获取策略研究[D];东北师范大学;2005年
2 郑冬冬;DeepWeb信息集成系统关键技术研究[D];苏州大学;2006年
3 仲华;Deep Web模式获取技术研究与应用[D];苏州大学;2007年
4 高岭;Deep Web分类搜索引擎关键技术研究[D];苏州大学;2007年
5 李文骏;Deep Web数据源发现和语义标注技术研究[D];苏州大学;2008年
6 公正;Deep Web入口模式抽取与模式集成[D];吉林大学;2009年
7 谭子玉;针对Deep Web数据库查询接口模式抽取的研究[D];吉林大学;2009年
8 张东娜;基于WordNet的短文本语义相似性计算研究[D];吉林大学;2010年
【二级引证文献】
中国期刊全文数据库 前1条
1 石玉平;;深层网络信息资源的集成模式研究[J];情报杂志;2010年03期
中国硕士学位论文全文数据库 前10条
1 王鸿;Deep web中基于领域知识的接口集成[D];西南大学;2011年
2 张锐;面向电子商务的深层网入口挖掘研究[D];杭州电子科技大学;2011年
3 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
4 韩晓娟;深层网信息挖掘技术的研究在化工领域的应用[D];北京化工大学;2009年
5 魏勇刚;Deep Web数据抽取及语义标注研究[D];河北大学;2009年
6 胡道京;决策树算法研究及在查询接口发现中的应用[D];苏州大学;2010年
7 赵文娟;基于汉语框架本体的网络资源标注[D];山西大学;2010年
8 张春丽;Deep Web集成查询系统预处理关键技术研究[D];大连海事大学;2012年
9 田莉;我国深层网络信息资源的获取及保存策略研究[D];郑州大学;2012年
10 李雯鑫;基于领域本体的Deep Web接口集成与查询转换研究[D];辽宁大学;2012年
【相似文献】
中国期刊全文数据库 前10条
1 李罡;张静远;张亚平;张宁;;基于侏儒立方体的保持语义的数据立方体结构[J];计算机应用研究;2011年09期
2 毕强;赵娜;;多领域本体语义互联研究现状与实践进展[J];情报科学;2010年12期
3 张庆;崔雷;;基于本体的文本挖掘结果的存储与表现[J];医学信息学杂志;2010年04期
4 霍英;陈志刚;;基于语义叠加网的对等网搜索机制(英文)[J];东南大学学报(英文版);2006年03期
5 真溱;唐爱民;沈钧毅;卢胜军;;基于叙词表构建军用飞机领域本体原型(英文)[J];东南大学学报(英文版);2006年03期
6 裘江南;李丽冬;吴力文;刘文宇;;本体中同种语义关系间的可传递规律研究[J];情报学报;2009年05期
7 刘兴林;陈建超;马千里;;基于互联网的词汇语义知识库构建框架研究[J];计算机与现代化;2010年10期
8 赵寒;张树生;周竞涛;张超;;面向异构数据库集成的语义模型构建技术研究[J];计算机集成制造系统;2006年03期
9 郭黎;刘灿由;陈应东;张威;;基于本体的水系要素数据集成方法研究[J];地理信息世界;2008年02期
10 袁庆霓;谢庆生;许明恒;李少波;;基于语义的制造资源本体建模技术研究[J];武汉理工大学学报;2009年10期
中国重要会议论文全文数据库 前10条
1 张磊;夏士雄;周勇;牛强;;具有语义最小支持度的关联规则挖掘方法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
2 方巍;胡鹏昱;赵朋朋;崔志明;;基于语义的Deep Web数据源自动发现技术[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
3 庄成龙;钱龙华;周国栋;;基于树核函数的实体关系抽取方法研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 真溱;唐爱民;沈钧毅;卢胜军;;基于叙词表构建军用飞机领域本体原型(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
5 方环海;赵鸣;;汉语简单句理解中句法与语义的加工机制研究[A];第十一届全国心理学学术会议论文摘要集[C];2007年
6 刘菲露;;“总之”的语义和语用功能分析[A];江西省语言学会2006年年会论文集[C];2006年
7 霍英;陈志刚;;基于语义叠加网的对等网搜索机制(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
8 寇金凤;;浅析篇章连接成分“当然”[A];江西省语言学会2010年年会论文集[C];2010年
9 ;修辞格形式的简化[A];黑龙江省语言学会2004年年会论文集[C];2004年
10 李红梅;;基于本体的地理空间实体类型语义相似度计算模型的研究[A];中国测绘学会2006年学术年会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 明三;理顺位置关系与可持续发展[N];科技日报;2001年
2 园区六中 胡雪芹;圆中的两解问题[N];苏州日报;2010年
3 汉滨高级中学 郑时宏;关于“直线与平面垂直”的教学设计[N];安康日报;2008年
4 中国科学院计算技术研究所 彭晖史忠植;语义Web:让计算机读懂互联网[N];计算机世界;2007年
5 哈尔滨工业大学计算机科学与工程学院 李建中 石胜飞;移动计算环境中的数据管理[N];计算机世界;2002年
6 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
7 ;手续网上办:少跑路,少受气![N];中国计算机报;2006年
8 铁岭市教师进修学院 陈玉华;高考数学复习 以不变应万变[N];铁岭日报;2005年
9 中国科学院计算技术研究所 常亮史忠植;语义Web的逻辑基础[N];计算机世界;2007年
10 陈俊杰;网上订报跟我来[N];电脑报;2003年
中国博士学位论文全文数据库 前10条
1 王新颖;三维模型检索中基于语义方法的若干问题研究[D];吉林大学;2009年
2 呼大为;面向问答系统的答案获取方法研究与实现[D];中国科学技术大学;2008年
3 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
4 杨春立;产品知识管理系统研究[D];大连理工大学;2005年
5 彭建平;商品说明语的语法语义语用研究[D];湖南师范大学;2008年
6 徐振宁;基于本体的Web数据语义信息的表示与处理方法研究[D];中国人民解放军国防科学技术大学;2002年
7 景东升;基于本体的地理空间信息语义表达和服务研究[D];中国科学院研究生院(遥感应用研究所);2005年
8 王松琴;目标和干扰子的关系对空间背景线索效应的影响研究[D];浙江大学;2005年
9 易花萍;汉语名词陈述句研究[D];复旦大学;2009年
10 李绍群;现代汉语“名_1+(的)+名_2”定中结构研究[D];福建师范大学;2005年
中国硕士学位论文全文数据库 前10条
1 何中天;从深度网入口中抽取SCHEMA[D];吉林大学;2007年
2 范玲玲;双宾句的语义、认知基础[D];华东师范大学;2006年
3 张萍;现代汉语标语语法研究[D];南京师范大学;2006年
4 聂绛雯;现代汉语中的外位结构研究[D];华东师范大学;2007年
5 杨阳;中医临床术语集语义关系的示范研究[D];中国中医科学院;2007年
6 陆卫萍;汉语复合词语法结构关系与语义关系之关系论析[D];广西师范大学;2007年
7 韩芳;大学生英语写作中词汇错误的研究[D];苏州大学;2008年
8 宋维玲;英语长句的汉译:语义块解释[D];曲阜师范大学;2009年
9 朴星;动宾式动词的功能研究[D];上海师范大学;2009年
10 黄倩;动宾式词语带宾语结构(V·O+O_1)探析[D];暨南大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026