收藏本站
《重庆大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web页面结构分析与核心内容提取研究

唐黎  
【摘要】:随着互联网的高速发展和广泛应用,网络提供给用户的资源与日俱增。特别是传统搜索引擎无法搜索到的海量信息资源规模增长显著,称这部分资源为Deep Web。关于Deep Web的研究,是近年来Web数据管理方向的研究热点。 在Deep Web数据提取方面,很多工作都是对Deep Web页面数据记录或是数据项的研究,如何深入分析Deep Web整个页面结构的研究以及如何从页面中定位数据记录所在区域还很不充分,但是这两项研究内容对Deep Web语义标注、Deep Web数据提取、Web信息检索和文本处理具有重要意义。因此,本文主要的研究工作聚焦于任意Deep Web页面内容结构的提取和Deep Web查询结果页面核心内容域的提取。主要研究及成果如下: 第一:Deep Web页面的标签特征和视觉特征 本文通过分析大量的Deep Web页面发现,Deep Web页面具有标签和视觉两方面的特征。从这两个方面入手,提出了一种结合标签信息和视觉信息分析页面的方法,该方法从客观和主观两方面分析了Deep Web页面的特征。采用树型的结构来表述页面的标签信息和视觉信息,分别使用Tag-Tree表示页面的标签信息,使用Visual-Attribute Tree表示页面的视觉信息。采用标签特征和视觉特征相结合的方法的准确性优于只依赖于其中一种特征的方法。 第二:Deep Web页面内容结构的提取 本文采用树型结构来表示页面的内容结构,将这棵树取名为Visual-Block-Tree。树中的根节点代表整个页面,树中的每个块对应着页面中的一个矩形区域,树中的叶子块表示页面中不可再分部分。本文通过噪声过滤和视觉块聚类两个阶段实现页面内容结构的提取。提出了相似性聚类算法TVS算法,实验表明该算法能很好地提取页面的内容结构。? 第三:Deep Web查询结果页面核心内容域(rich-content area)的提取 本文使用相似性计算算法-TVS算法计算得到同一Web数据库的查询页面和查询结果页面Visual-Block-Tree中的不同内容块,从这些内容块中提取出rich-content area,实验表明了该方法的可行性和有效性。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.092

【参考文献】
中国期刊全文数据库 前6条
1 陶磊;莫倩;;基于CSS选择器的深网结果页抽取方法[J];北京工商大学学报(自然科学版);2009年02期
2 张志洁;李书明;赵玲;;CSS技术在网页设计中的应用探析[J];电脑知识与技术(学术交流);2007年10期
3 郑冬冬,赵朋朋,崔志明;Deep Web爬虫研究与设计[J];清华大学学报(自然科学版);2005年S1期
4 袁柳;李战怀;陈世亮;;基于本体的Deep Web数据标注[J];软件学报;2008年02期
5 郑皎凌;唐常杰;姜玥;杨宁;李红军;;基于伪属性语义匹配的Deep web信息抽取[J];四川大学学报(工程科学版);2009年02期
6 赵朋朋;崔志明;高岭;仲华;;关于中国Deep Web的规模、分布和结构[J];小型微型计算机系统;2007年10期
中国硕士学位论文全文数据库 前4条
1 张智;基于本体的Deep Web数据源的分类研究[D];南京信息工程大学;2011年
2 贺智平;Web信息自动抽取技术研究[D];西安电子科技大学;2006年
3 火善栋;基于XML的Deep Web信息抽取系统的研究与初步实现[D];昆明理工大学;2006年
4 袁靓;Deep Web信息集成关键技术的研究[D];中南大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 王智军;;基于XML的异构数据集成研究[J];赤峰学院学报(自然科学版);2010年03期
2 黄孝;;NET框架下的XML文档解析技术浅析[J];池州师专学报;2006年03期
3 马安香;高克宁;张晓红;张斌;;基于CPN网络的Deep Web数据语义标注[J];东北大学学报(自然科学版);2009年06期
4 贾艳宇;;XML在信息系统开发中的应用[J];电脑学习;2009年02期
5 冷玉海;ASP技术在XML文档处理中的应用[J];电脑知识与技术;2005年24期
6 程俊;张维勇;聂丽平;;基于XML的Web服务及关键技术[J];电脑知识与技术;2006年02期
7 李志强;张少华;郦雅芳;;基于XML的动态用户界面实现技术[J];电脑知识与技术;2006年36期
8 王梅娟;史涯晴;赵改连;;基于XSL-FO的XML文档到其他格式文档的转换[J];电脑知识与技术;2008年29期
9 耿祥义;刘强;;浅谈XML数据的安全交换技术[J];电脑知识与技术;2009年22期
10 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期
中国重要会议论文全文数据库 前7条
1 易小华;;XSLT技术在JavaWeb开发中的应用[A];促进企业信息化进程——第九届中国Java技术及应用交流大会文集[C];2006年
2 张宇;;基于XML的Web数据自动挖掘[A];科技创新与节能减排——吉林省第五届科学技术学术年会论文集(上册)[C];2008年
3 王文生;谢能付;;基于Web的农业信息自动抽取方法研究[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
4 张淑芝;刘国华;聂俊岚;;广域传感器数据库中的多查询优化[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 王英;左万利;彭涛;赫枫龄;彭钊;;特定领域Deep Web查询接口的集成[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
7 林培光;;基于Web数据库特征的Deep Web独立数据样本采样方法[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
中国硕士学位论文全文数据库 前10条
1 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
2 刘富江;网络数据源模式识别方法及策略研究[D];哈尔滨工程大学;2010年
3 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
4 彭媛媛;Deep Web数据清洗方法研究及应用[D];长春工业大学;2010年
5 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
6 周丽娜;ARM反编译中的类型分析技术研究[D];解放军信息工程大学;2010年
7 方霞;代码逆向分析中的语句恢复与算法识别技术研究[D];解放军信息工程大学;2009年
8 王恒昌;工商行政管理信息系统的设计与实现[D];大连交通大学;2010年
9 刘锋;基于VoiceXML的语音智能交互平台的研究与实现[D];西安电子科技大学;2009年
10 纪文彦;基于本体的Deep Web查询转换技术研究[D];吉林大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 朱靖波,陈文亮;基于领域知识的文本分类[J];东北大学学报;2005年08期
2 张建华,郭玲;巧用CSS制作网页特效[J];电脑知识与技术;2004年26期
3 李鹤龄;信息熵、玻尔兹曼熵以及克劳修斯熵之间的关系——兼论玻尔兹曼熵和克劳修斯熵是否等价[J];大学物理;2004年12期
4 梁焕平;隐蔽网络及其检索策略研究[J];情报杂志;2004年07期
5 李泽锋;基于多Agent技术的Internet信息服务模式研究[J];情报杂志;2005年04期
6 王建平;;数据仓库概念与关键技术分析[J];情报杂志;2007年09期
7 封化民,刘飚,刘艳敏,方勇,宋国森;含有位置坐标树的Web页面分析和内容提取框架[J];清华大学学报(自然科学版);2005年S1期
8 郑冬冬,赵朋朋,崔志明;Deep Web爬虫研究与设计[J];清华大学学报(自然科学版);2005年S1期
9 刘伟;孟小峰;凌妍妍;;一种基于图模型的Web数据库采样方法[J];软件学报;2008年02期
10 寇月;申德荣;李冬;聂铁铮;;一种基于语义及统计分析的Deep Web实体识别机制[J];软件学报;2008年02期
中国硕士学位论文全文数据库 前4条
1 陈涛;深层网络信息资源分析与获取策略研究[D];东北师范大学;2005年
2 郑冬冬;DeepWeb信息集成系统关键技术研究[D];苏州大学;2006年
3 何中天;从深度网入口中抽取SCHEMA[D];吉林大学;2007年
4 孙翀;自动填充深度网入口表单[D];吉林大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 蒋霞东;Web搜索引擎系统的设计与实现[J];河海大学常州分校学报;2003年01期
2 李方敏;CGI的安全编程[J];计算机工程与应用;1999年06期
3 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期
4 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期
5 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期
6 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期
7 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期
8 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期
9 李晶,朱秋萍;Web页制作中的动态表现技术[J];计算机工程;2000年06期
10 刘波,代亚非,杜跃进;远程协同教学系统中课程搜索子系统设计[J];计算机应用;2000年06期
中国重要会议论文全文数据库 前10条
1 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 黄胜;彭敦陆;王晓玲;周傲英;;基于与或树搜索的快速Web服务组合方法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
5 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
6 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
7 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
9 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 岳昆;李劲;石磐;刘惟一;;基于语义的Web服务主题自动抽取[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
2 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
3 付晓东;Web服务组合服务质量保障关键问题研究[D];昆明理工大学;2008年
4 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
5 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
6 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
7 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
8 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
9 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
10 胡佳;语义Web服务自动组合及验证的研究[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
2 周浩;面向网络舆情分析的Web数据源获取关键技术研究[D];西安理工大学;2010年
3 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
4 龙怀冰;基于用户体验的Web标准网站设计方法与流程研究[D];北方工业大学;2010年
5 高洁;基于Web信息的内容及其特征提取方法的研究[D];电子科技大学;2010年
6 沈迅;基于Web页面嵌套模式的包装器生成系统的设计与实现[D];北京邮电大学;2010年
7 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
8 陈稀伟;带cache的语义web服务发现研究[D];中南大学;2010年
9 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年
10 温梨梨;基于零拷贝的Web服务器技术研究[D];中国海洋大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026