收藏本站
《中国海洋大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

面向特定领域的Deep Web数据自动抽取

邓烨  
【摘要】:随着互联网技术的飞速发展,Web已蕴含着海量的丰富资源,包罗万象,是人类一笔宝贵的知识财产。Web按其所蕴涵信息的深度可分为Surface Web和Deep Web。据统计,99%的互联网数据是属于Deep Web数据,并且其中很多都公开免费使用的。面对如此巨大的网络资源,如何有效地,方便地访问和利用Deep Web中的资源,成为一个重要的话题。 本论文以Deep Web数据自动抽取系统为目标,针对于某一个领域,解决了Deep Web数据自动抽取中的主要问题,包括入口查找,查询提交,详细页面定位及结果抽取等主要关键技术问题。具体如下: 基于决策树的入口查找:针对于Deep Web查询入口识别问题,本章利用决策树算法来生成有效入口规则,对面向某一领域的入口进行判断,该算法可以挖掘潜在的入口识别规则,可以避免常用的启发式规则具有的缺陷; Deep Web交互技术研究:Deep Web数据抽取中,如何有效的与Deep Web所对应的数据库接口进行交互,是能否从Deep Web中抽取到数据和抽取到有效数据的重要技术,本章对现存的交互技术进行实验分析,为各种不同的用途提供交互技术选择参考; 基于聚类算法的查询结果定位:Deep Web查询结果定位问题是一个常常被忽视的问题。大多数研究的抽取是针对于Deep Web响应页面,然后响应页面只提供摘要信息,并没有很详细的信息。而Deep Web详细页面则是一个信息完整的页面,包含着Deep Web主题的主要信息。本章使用Simple K Means聚类算法来训练模型,通过增加权值来对距离公式进行调整,使得定位结果得到进一步提高; 基于树匹配的查询结果页面抽取:Deep Web详细页面虽然具有统一模式,但结构复杂,内容复杂。相对于摘要页面来说,更具有挑战性,本章在树匹配的基础上,对详细页面数据进行抽取,采用词频计算法对抽取结果中的噪音进行处理,使得抽取结果可以更丰富一些; 本文对于提出的各种方法、模型和算法都进行了相关实验。实验结果表明,本文提出的方法可以有效地解决面向领域的Deep Web数据自动抽取。
【学位授予单位】:中国海洋大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.09

【参考文献】
中国期刊全文数据库 前3条
1 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
2 邵辉;李芳;;基于树模型算法的动态网页信息抽取研究和实现[J];计算机应用与软件;2007年10期
3 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期
【共引文献】
中国期刊全文数据库 前10条
1 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
2 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期
3 左国才;周荣华;符开耀;;基于DBSCAN算法的电信客户分类的应用研究[J];北京联合大学学报(自然科学版);2012年03期
4 陶磊;莫倩;;基于CSS选择器的深网结果页抽取方法[J];北京工商大学学报(自然科学版);2009年02期
5 李晓方;武仲科;樊亚春;周明全;柳勇光;;一种新的用于三维检索的快速邻域搜索方法[J];北京师范大学学报(自然科学版);2011年05期
6 章林柯;崔立林;;潜艇机械噪声源分类识别的小样本研究思想及相关算法评述[J];船舶力学;2011年08期
7 孙英娟;杨柳;何昆鸟;;属性离散化算法研究[J];长春师范学院学报(人文社会科学版);2009年12期
8 陈庆枝;陈国龙;郭文忠;陈仕涛;;信息安全评估日志数据的一种混合聚类算法[J];重庆工学院学报(自然科学版);2009年10期
9 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
10 李颖;刘国华;佟冰;刘顺江;;基于素数的多源模式匹配方法的研究[J];燕山大学学报;2009年02期
中国重要会议论文全文数据库 前10条
1 曾成;赵锡均;徐红;;基于量子遗传算法的聚类方法[A];第二十九届中国控制会议论文集[C];2010年
2 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
3 ;A Fuzzy Neural Network System Modeling Method Based on Data-driven[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
4 刘保政;汪定伟;;基于多因素的相近距离聚类方法研究[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
5 张立涛;张宇峰;;基于聚类分析的大型桥梁结构健康监测数据异常识别研究[A];第21届全国结构工程学术会议论文集第Ⅱ册[C];2012年
6 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
7 李鹏;朱青;任安建;胡伟;杜小勇;;支持短语识别的关系数据库关键词查询算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
8 余灿玲;王丽珍;张元武;;基于网格密度方向的聚类簇边缘精度加强算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
9 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
3 徐红波;基于空间填充曲线高维空间查询算法研究[D];哈尔滨理工大学;2010年
4 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
5 尹可挺;Internet环境中基于QoS的Web服务组合研究[D];浙江大学;2010年
6 皋军;智能识别中的降维新方法及其应用研究[D];江南大学;2010年
7 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
8 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
9 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年
10 陈彬;面向DEVS的多范式建模与仿真关键技术研究与实现[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 商翠珍;数据资源汇聚的可视化建模技术研究与应用[D];山东科技大学;2010年
3 朱静;数据资源汇聚中嵌套表格模型的研究与应用[D];山东科技大学;2010年
4 夏怀楠;支持跨域数据汇聚的关系数据访问服务研究[D];山东科技大学;2010年
5 刘文昊;基于模糊聚类和纹版辅助的织物疵点检测算法研究[D];浙江理工大学;2010年
6 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
7 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
8 刘富江;网络数据源模式识别方法及策略研究[D];哈尔滨工程大学;2010年
9 刘萍;软件体系结构恢复的研究与实现[D];大连理工大学;2010年
10 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
【二级参考文献】
中国期刊全文数据库 前1条
1 李洁;高新波;焦李成;;基于特征加权的模糊聚类新算法[J];电子学报;2006年01期
【相似文献】
中国期刊全文数据库 前10条
1 安艳杰;;电子文献引用的自动获取初探[J];现代情报;2007年09期
2 孔敬;;本体学习:原理、方法与相关进展[J];情报学报;2006年06期
3 安纪霞;李锡祚;宋冰;曾伟;;服务于词典编纂的特定领域专业术语自动抽取[J];计算机与数字工程;2007年11期
4 李亚桥;王晓东;李智;;基于树结构的包装器全自动生成方法的研究[J];河北工业大学学报;2007年06期
5 曾苏;马建霞;张秀秀;;元数据自动抽取研究新进展[J];现代图书情报技术;2008年04期
6 何琳;;领域本体的关系抽取研究[J];现代图书情报技术;2008年04期
7 张永奎,赵辄谦,陈鑫卿,白丽君;基于机器学习的网页主题词自动抽取[J];计算机应用;2003年03期
8 张秀秀;马建霞;;PDF科技论文语义元数据的自动抽取研究[J];现代图书情报技术;2009年02期
9 熊平原;王毅;陈庆新;毛宁;;基于压铸模本体的领域概念自动抽取方法研究[J];机械设计与制造;2011年07期
10 刘步中;杨继刚;张曦煌;;多分类SVM和RDF的生物信息元数据自动抽取[J];计算机工程与设计;2010年11期
中国重要会议论文全文数据库 前10条
1 邱艳霞;余正涛;张志坤;司圣涛;韩露;孟祥燕;;领域术语自动抽取方法研究[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
2 岳昆;李劲;石磐;刘惟一;;基于语义的Web服务主题自动抽取[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 胡东东;孟小峰;;一种基于树结构的Web数据自动抽取方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 王海雄;郭剑毅;余正涛;毛存礼;张朝胜;雷春雅;;基于CRFs的中文领域术语自动抽取研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 王栋;盛玉麒;;汉语否定极项(NPI)自动抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 聂志强;李庆忠;;电子政务信息集成中本体的自动抽取及优化[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 封盛;张铭;;基于DOM树的半指导科技文献元数据自动抽取[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
8 肖诗斌;乔春庚;李渝勤;施水才;;基于未标注语料的领域词汇自动抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 李超;王会珍;朱慕华;张俐;朱靖波;;基于领域类别信息C-value的多词串自动抽取[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 彭国珍;邹纲;;基于汉英双语语料库述宾短语的自动抽取[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 本报记者 何飞 通讯员 林斓韬;清远落实“一网考”和“三挂钩”严把奖惩关[N];人民公安报;2010年
2 记者 许多;瑞安“三环”智能型湿巾包装机推向市场[N];中国包装报;2005年
3 ;潍坊专家抽取杜绝人为干扰[N];政府采购信息报;2006年
4 文心;不要光治标不治本[N];政府采购信息报;2007年
5 张厚美 李丹;自动监测站盯住千里嘉陵江[N];中国环境报;2007年
6 张厚美 青兴海 记者 张发政;千里嘉陵江第一“眼”实时监控川陕界水质[N];广元日报;2007年
7 刘林记者 欧维佳;搬“家”前 先过环保检查关[N];南充日报;2007年
8 王炳良;进场交易 规范运行[N];中国纪检监察报;2008年
9 江苏省淮安市政府采购中心 淮纪妍 孙建英 郑银东;依托科技监控手段确保评审公平公正[N];中国财经报;2009年
10 沈俊霖;我市有形建筑市场“蛋糕”越做越大[N];青岛日报;2008年
中国博士学位论文全文数据库 前10条
1 杨月华;基于领域知识模型的突发事件智能信息检索系统研究[D];北京邮电大学;2013年
2 张宏涛;面向生物文本的实体关系自动抽取问题研究[D];清华大学;2012年
3 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
4 李卫;领域知识的获取[D];北京邮电大学;2008年
5 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
6 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
7 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
8 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
9 林贤明;复杂场景下的人体行为识别若干关键技术研究[D];厦门大学;2014年
10 金锋;文档摘要算法的研究与应用[D];清华大学;2011年
中国硕士学位论文全文数据库 前10条
1 杨杨;术语自动抽取效率对比实验报告[D];大连海事大学;2014年
2 朱鑫;词语搭配自动抽取方法对比研究[D];大连海事大学;2011年
3 李姗;面向术语自动抽取的英语词汇形态特征分析[D];大连海事大学;2012年
4 李清敏;面向微博情感分析的本体自动抽取关键技术研究[D];首都师范大学;2014年
5 孙蝉娟;航空器及其安全领域术语定义的自动抽取[D];南京航空航天大学;2010年
6 邱艳霞;领域术语自动抽取及关系分类研究[D];昆明理工大学;2009年
7 康琪;基于Bootstrapping的领域知识自动抽取技术的研究[D];山东大学;2012年
8 姚贤明;领域概念自动抽取研究[D];昆明理工大学;2010年
9 马晶晶;金融领域信息的自动抽取与分析方法[D];哈尔滨工业大学;2013年
10 杨继刚;基于J2EE-SSH框架的小鼠信息数据库系统的设计与实现—PBMICE-SR语义检索框架[D];江南大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026