收藏本站
《长春工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web接口集成与数据标注方法研究

王葛  
【摘要】:随着互联网的发展,网页的数量目前在以爆炸性的趋势增长。虽然网上蕴藏着数量巨大的信息资源,但是由于Deep Web数据的海量性、异构性、多样性、动态性等特点,使得数据的利用率并不高。主流的搜索引擎基本上只收集了互联网上静态页面集合,但事实上,静态页面只是Web提供网页的小部分信息,大部分信息对这些传统的搜索引擎是不可见的,这就是Deep Web,不能被传统的搜索引擎索引到的那部分内容,特别是指那些通过查询在线数据库实时产生的动态页面,近几年,Deep Web已经引起学者们的注意,如何有效利用隐蔽网络中的数据资源逐渐成为关注的热点。 本论文针对Deep Web接口集成和数据标注中,存在的不能通过统一接口进行查询,以及查询后返回的结果没有语义的问题展开的研究。针对HTML页面的代码不规范的问题,提出了更改工具代码和对于工具不能处理的规范采用规范规则的方法,设计了规范HTML页面代码和抽取规则的系统,解决了HTML页面代码不规范的问题。在接口页面的模式匹配中,针对接口间属性不匹配的问题,采用了用户匹配和模式匹配表联合匹配的方法,设计了模式匹配系统,解决了接口间属性不匹配的问题。在接口集成中,提出了模式集成的思想,把不同的接口经过模式集成的方法集成为统一的接口。在查询转换中,针对不同接口不同处理,提出了选取词选取的思想,设计了获取在线数据库数据的系统,能针对不同接口获取数据。在结果页面模式匹配中,针对结果页面缺少语义标注的问题,采用了接口页面与结果页面属性匹配、结果页面与结果页面属性匹配和模式匹配表三种方法进行语义的标注,设计了数据标注系统,解决了结果数据不匹配,缺乏语义的问题,实验表明达到了预期的效果。
【学位授予单位】:长春工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.09

【参考文献】
中国期刊全文数据库 前3条
1 刘伟;孟小峰;凌妍妍;;一种基于图模型的Web数据库采样方法[J];软件学报;2008年02期
2 凌妍妍;孟小峰;刘伟;;基于属性相关度的Web数据库大小估算方法[J];软件学报;2008年02期
3 袁柳;李战怀;陈世亮;;基于本体的Deep Web数据标注[J];软件学报;2008年02期
【共引文献】
中国期刊全文数据库 前10条
1 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
2 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
3 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
4 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
5 马安香;高克宁;张晓红;张斌;;基于CPN网络的Deep Web数据语义标注[J];东北大学学报(自然科学版);2009年06期
6 李绍英;;基于代理技术的比较购物研究[J];当代经理人;2006年10期
7 孙铁利;教巍巍;刘淑华;;Web-Based Information Extraction Technology[J];Journal of Donghua University(English Edition);2007年02期
8 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
9 刘军;;基于支持向量机的网页主题信息提取算法[J];电脑知识与技术(学术交流);2007年02期
10 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
4 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
5 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
6 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
4 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
5 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
6 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
7 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
8 张卓;基于形式概念分析的Web数据库抽取研究[D];武汉大学;2011年
9 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
10 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 王浩;NetFlow数据处理与异常检测研究[D];哈尔滨工程大学;2010年
5 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
6 彭媛媛;Deep Web数据清洗方法研究及应用[D];长春工业大学;2010年
7 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
8 黄亮;知识产权预警机制在服务外包平台中的应用研究[D];南昌大学;2010年
9 赛子龙;日志分析数据同步机制在区域微软技术中心营运平台中的应用研究[D];南昌大学;2010年
10 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 李显辉;;武汉广电IPTV、手机电视内容服务集成播控平台建设技术构思(下)[J];现代电视技术;2011年07期
2 林立,王继成,魏朝阳,段晓宇;防伪税控系统与安钢销售网络的集成与应用[J];河南冶金;2001年06期
3 陈征,叶元平;Net Ware与Windows NT并存教学网络方案的探讨[J];实验技术与管理;2001年02期
4 刘深渊;网上项目管理和协同工作系统初探[J];建设监理;2002年04期
5 韩志刚,钱乐祥,秦奋,崔彩辉;数字城市集成建设的探讨[J];地理与地理信息科学;2003年06期
6 赵鸣,吴晓红;CORBA在异构数据库集成上的应用研究[J];现代电子技术;2003年20期
7 李生琦,徐福缘,徐莹;一种结构化数据和半结构化数据的统一集成模型[J];计算机工程与应用;2004年15期
8 赵虎,李萍,于林丽,孟丽霞,濮育麒,居滋培;过程控制集成实验系统[J];仪器仪表学报;2005年S2期
9 李蕴;段婕;;论高校科研管理中的价值导向管理[J];研究与发展管理;2007年05期
10 Agen;;18 Pin和24Pin的DVI线有何区别[J];现代计算机(普及版);2008年02期
中国重要会议论文全文数据库 前10条
1 赵方;谢友柏;柏子游;;油液分析多技术集成的特征描述与信息融合[A];第六届全国摩擦学学术会议论文集(上册)[C];1997年
2 岳瑞峰;刘理天;李志坚;;集成MOS力敏运放压力传感器的设计与研究[A];2000全国力学量传感器及测试、计量学术交流会论文集[C];2000年
3 刘彭涛;李志新;;首钢大型转炉技术装备的集成创新[A];第七届(2009)中国钢铁年会论文集(下)[C];2009年
4 嵇晓宇;郝志明;莫军;孙乐;王柯颖;;面向对象有限元分析平台数值解法器构件化设计与集成方法研究[A];中国力学学会学术大会'2009论文摘要集[C];2009年
5 吴泽兵;;石油钻头并行工程中仿真软件的集成[A];2001系统仿真技术及其应用学术会议论文集[C];2001年
6 王鹏程;王珂;朱宝泉;;注塑模CAD/CAM与CAE系统的集成[A];2000年冀晋蒙豫鲁鄂六省区机械工程学会学术研讨会论文集(内蒙古部分)[C];2000年
7 赵虎;李萍;于林丽;孟丽霞;濮育麒;居滋培;;过程控制集成实验系统[A];第七届青年学术会议论文集[C];2005年
8 文强;邹希云;莫松柏;杨晓琳;刘电英;彭杰彪;;利用T213和ECMWF数值预报产品作本地暴雨落区概率预报[A];中国气象学会2007年年会天气预报预警和影响评估技术分会场论文集[C];2007年
9 冯柳平;刘华群;;数字指纹在电子文档保护中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 冯志强;何力健;;茂名分公司炼油生产执行系统集成需求探讨[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年
中国重要报纸全文数据库 前10条
1 记者 钱秀丽;今年全力以赴做好五项重点工作[N];中国海洋报;2010年
2 记者 朱夕子;商业规划师何雨生日本设计师小川浩史加盟集成[N];中国纺织报;2009年
3 安向琦 赵鲜娜;从“孤岛”走向集成[N];中国航空报;2010年
4 本报记者 宋斌斌;研发设计信息化:新时期工业企业创新的源泉[N];中国工业报;2009年
5 证券时报记者 黄婷;宝钢股份自主集成冷轧产线在梅钢投产[N];证券时报;2009年
6 见习记者 石俊;成飞集成缘何成为“第一妖股”[N];中华工商时报;2010年
7 本报记者 同黎娜;集成控股收购日本设计公司始末[N];中国服饰报;2009年
8 ;在MCU中集成模拟和安全技术[N];中国电子报;2009年
9 吴绵;以顾客为中心森歌巡检集成灶[N];中国质量报;2009年
10 本报记者 林铭铭;成飞集成暴涨:讲不完的“锂电”故事?[N];21世纪经济报道;2010年
中国博士学位论文全文数据库 前10条
1 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
2 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
3 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
4 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
5 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
6 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
7 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
8 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
9 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
10 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
中国硕士学位论文全文数据库 前10条
1 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
2 王帅;基于领域本体的Deep Web接口集成研究[D];河北大学;2010年
3 王德奎;青海移动统一接口平台的研究设计与实现[D];北京邮电大学;2011年
4 梁帅;医学影像库中检索引擎Web Services接口的设计与实现[D];东北大学;2009年
5 李建平;YHFT-QBASE RapidIO接口的设计与实现[D];国防科学技术大学;2011年
6 李建新;输配电网通用分析平台接口的研究[D];西安科技大学;2011年
7 陈玉辉;基于USB接口的误码测试仪设计[D];电子科技大学;2011年
8 刘晓霞;超级炫铃Web接口及公共管理功能的设计与实现[D];北京邮电大学;2011年
9 任忠良;深网查询接口模式识别与分类方法的研究[D];吉林大学;2011年
10 陈文;Deep Web入口识别和个性化搜索研究与设计[D];江苏大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026