收藏本站
《长春工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web数据清洗方法研究及应用

彭媛媛  
【摘要】:随着近年来Internet的飞速发展, Deep Web己成为网络信息资源的重要组成部分,用户通过查询接口在线访问其后端的Deep Web数据库来动态的获取其中蕴含的海量信息。由于Deep Web资源分布在各个Deep Web站点,具有异构、动态、数据量大等特点,使用起来较为不便,因此,面向Deep Web的数据集成系统应运而生。 本文对Deep Web数据集成系统中的数据清洗过程进行了研究,数据清洗过程是指将各个Deep Web数据库返回的查询结果进行抽取,并合并到一个统一的结构化的模式下的过程。本文将数据清洗过程分成了数据抽取和数据集成两部分,并对这两部分的技术分别进行了研究,提出了相关的算法和解决方案,最后在此基础上设计了一个Deep Web数据抽取原型系统。本文的主要研究工作如下: (1)提出了基于XML的Deep Web数据自动抽取方法。该方法将数据抽取过程分为页面转换、页面预处理、页面分区、语义注释添加和抽取规则生成五个步骤。首先使用Java开源工具WebHarvest将HTML页面转换为XML文档,之后将XML文档解析为DOM类;然后,深度遍历DOM树去除页面中的噪声数据;接着,通过基于DOM树的加权分区算法来对页面进行分区,并找出与用户查询主题相关的数据区域;而后,通过数据项属性区分算法和属性值与语义注释分割算法来为页面添加语义注释;最后,通过抽取规则生成算法来生成页面的抽取规则。 (2)提出了对多数据源模式各异的查询结果数据进行集成的方法。该方法将数据集成过程分为结果模式匹配和数据合并两个步骤。首先通过构建属性向量空间模型来计算属性之间的相似度,从而将多个数据源的结果模式进行匹配;然后通过属性权重计算方法和记录相似度计算方法来找出相似重复记录,最后使用重复记录处理方法将重复数据进行了处理。 (3)在以上研究基础上设计了一个Deep Web数据抽取原型系统。该系统分为数据抽取和数据集成两大模块。数据抽取模块将结果页面进行抽取,生成页面的结果模式和抽取规则;数据集成模块则将各个Deep Web数据库的结果模式进行匹配,生成一个全局模式,然后将数据进行抽取并存入数据库中,之后对数据进行合并处理。
【学位授予单位】:长春工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.09

【参考文献】
中国期刊全文数据库 前5条
1 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
2 黄晓冬;Invisible Web研究综述[J];情报科学;2004年09期
3 袁柳;李战怀;陈世亮;;基于本体的Deep Web数据标注[J];软件学报;2008年02期
4 宋杰;王大玲;鲍玉斌;申德荣;;基于页面Block的Web档案采集和存储[J];软件学报;2008年02期
5 ;A Deep Web Data Integration System for Job Search[J];Wuhan University Journal of Natural Sciences;2006年05期
【共引文献】
中国期刊全文数据库 前10条
1 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
2 赵靖;王侨文;管马周;单传佳;;自动提取布局结构相似网页的结构化信息[J];安徽科技学院学报;2010年06期
3 董文鸳;;深网及其查找途径探析[J];图书与情报;2005年06期
4 陶磊;莫倩;;基于CSS选择器的深网结果页抽取方法[J];北京工商大学学报(自然科学版);2009年02期
5 马安香;高克宁;张晓红;张斌;;基于CPN网络的Deep Web数据语义标注[J];东北大学学报(自然科学版);2009年06期
6 李颖;刘国华;佟冰;刘顺江;;基于素数的多源模式匹配方法的研究[J];燕山大学学报;2009年02期
7 王清珍;邱丽莉;孙向;;一种少儿电视节目搜索与监控软机器人Softrobot的设计[J];智能计算机与应用;2012年02期
8 王彩霞;高明;;Deep Web查询接口及其识别算法[J];电脑知识与技术;2011年22期
9 蒋莘;;基于知网的论文按需检索系统[J];电脑知识与技术;2012年02期
10 赵昊;卫刚;赵晓东;;基于主题Deep Web数据挖掘的研究与探索[J];电脑知识与技术;2012年16期
中国重要会议论文全文数据库 前9条
1 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
2 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 李鹏;朱青;任安建;胡伟;杜小勇;;支持短语识别的关系数据库关键词查询算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
4 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
5 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
6 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集[C];2012年
7 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2012年
8 祝官文;王念滨;王红滨;;基于语法分析的深层网络查询表单信息获取方法[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
9 邓松;万常选;刘喜平;江腾蛟;雷刚;;基于主题语义的非合作结构化Top-N深网数据源选择[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
中国博士学位论文全文数据库 前10条
1 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
2 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
3 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
4 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
5 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
6 张卓;基于形式概念分析的Web数据库抽取研究[D];武汉大学;2011年
7 余伟;基于用户个性挖掘的Web社区营销研究[D];武汉大学;2011年
8 王颜新;非常规突发事件情境重构模型研究[D];哈尔滨工业大学;2011年
9 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
10 孟祥福;Web数据库柔性查询关键技术研究[D];东北大学;2010年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 商翠珍;数据资源汇聚的可视化建模技术研究与应用[D];山东科技大学;2010年
3 朱静;数据资源汇聚中嵌套表格模型的研究与应用[D];山东科技大学;2010年
4 夏怀楠;支持跨域数据汇聚的关系数据访问服务研究[D];山东科技大学;2010年
5 刘富江;网络数据源模式识别方法及策略研究[D];哈尔滨工程大学;2010年
6 周建斌;基于J2EE Web应用的科学数据共享平台的研究与实现[D];华南理工大学;2010年
7 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
8 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
9 易学武;基于ASP.Net的在线图书销售系统的设计与实现[D];电子科技大学;2010年
10 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
【二级参考文献】
中国期刊全文数据库 前1条
1 王晓宇,熊方,凌波,周傲英;一种基于相似度分析的主题提取和发现算法[J];软件学报;2003年09期
【相似文献】
中国期刊全文数据库 前10条
1 方幼林 ,杨冬青 ,唐世渭 ,张卫华 ,余利波 ,付强;数据转换过程的串行化方法[J];计算机工程与应用;2003年17期
2 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期
3 田芳;刘震;;数据仓库清洗技术讨论[J];青海师范大学学报(自然科学版);2005年04期
4 周东山;李喜英;;数据仓库建设中数据质量问题的研究[J];华南金融电脑;2007年07期
5 牛田;谢文阁;;高校就业数据仓库的研究[J];科技信息;2010年25期
6 谭天乐,宋执环,李平;信息系统数据清洗、规则提取的矩阵算法[J];信息与控制;2003年04期
7 叶舟;王东;;基于规则引擎的数据清洗[J];计算机工程;2006年23期
8 刘华;胡燕;王涛;;Web数据清洗研究[J];软件导刊;2007年03期
9 李俊奎;王元珍;李专;;Azszp:一种基于规则的数据清洗方案[J];山东大学学报(理学版);2007年09期
10 胡逢彬;沈炜;;数据ETL过程中的数据质量控制[J];信息技术;2006年04期
中国重要会议论文全文数据库 前10条
1 俞荣华;郭志懋;田增平;周傲英;;一个可扩展的数据清洗系统[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年
3 肖英治;陈红;;带数据清洗功能的数据预处理系统PW-ETL的设计与实现[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 李晓静;谷峪;吕雁飞;王艳秋;于戈;;基于动态事件概率模型的高效RFID数据清洗算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
5 王妍;石鑫;宋宝燕;;基于伪事件的RFID数据清洗方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 相文玺;宋杰;房强;丁辉;鲍玉斌;于戈;;一种面向科学数据的通用排重模型[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
7 崔运钏;刘连忠;;一种可扩展的数据清洗系统的设计与实现[A];2006中国控制与决策学术年会论文集[C];2006年
8 颜立新;;矿山数据仓库建设中的数据采集设计[A];采矿工程学新论——北京开采所研究生论文集[C];2005年
9 孟啸;王宏志;高宏;李建中;;bibEOS:一个高质量的社会化文献检索与管理系统[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
10 高淑娟;鲍玉斌;江志纲;王大玲;于戈;;一种基于最小风险贝叶斯决策的数据清洗策略[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
中国重要报纸全文数据库 前10条
1 郝晓庆 胡丹丹;直邮的世界精彩无限[N];中国邮政报;2011年
2 中国人民财产保险股份有限公司信息技术部副总经理 鹿慧 编译;在SOA中创建独立的数据清洗服务[N];计算机世界;2009年
3 尚金峰;内部评级模型风险不容忽视[N];中国证券报;2005年
4 姜蓉;外包:坦途还是末路?[N];中国经营报;2008年
5 于翔 王翔;收复数据孤岛[N];网络世界;2007年
6 徐芳芳;如何管好集团的主数据[N];中国计算机报;2008年
7 本报记者 李国华;动手前,先“洗洗”数据[N];中国经营报;2009年
8 记者 海扬;电信信息化客户为本 提升价值[N];中国电子报;2007年
9 程瑞云 石靖;通钢集团创建集团数据管理架构[N];通化日报;2006年
10 本报记者 于文;应用最实际[N];计算机世界;2002年
中国博士学位论文全文数据库 前10条
1 常建龙;数据流聚类及电信数据流管理[D];复旦大学;2008年
2 郑向群;农产品产地污染综合知识挖掘系统的研究[D];天津大学;2009年
3 刘波;XML数据智能管理若干关键技术研究[D];中南大学;2008年
4 吴爱华;不一致数据的查询处理[D];复旦大学;2010年
5 李超锋;Web使用挖掘关键技术研究[D];华中科技大学;2007年
6 李鹏;面向地质勘查的多源异构数据集成关键技术研究[D];中国地质大学;2013年
7 谷峪;不确定性RFID流数据管理关键技术研究[D];东北大学;2010年
8 曹恒;北京市房山区环境污染突发事件应急决策支持系统研究[D];北京林业大学;2012年
9 张智;相互作用组异构数据集成研究[D];北京协和医学院;2011年
10 马玉涛;在线客户评论的产品族设计与加工方法研究[D];华中科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 周宏广;异构数据源集成中清洗策略的研究及应用[D];中南大学;2004年
2 李英俊;汽车销售系统数据仓库解决方案[D];山东大学;2005年
3 于海峰;基于数据仓库的银行客户关系管理系统的研究[D];合肥工业大学;2004年
4 梁文斌;数据清洗技术的研究及其应用[D];苏州大学;2005年
5 张军鹏;数据仓库与数据挖掘中数据清洗的研究[D];华北电力大学(河北);2006年
6 李晓菲;数据预处理算法的研究与应用[D];西南交通大学;2006年
7 李明;数据清洗技术在文本挖掘中的应用[D];南京理工大学;2008年
8 崔亮;基于DBSCAN算法的相似重复记录检测方法研究[D];哈尔滨工程大学;2007年
9 谭亚竹;基于XML数据清洗的应用研究[D];重庆大学;2006年
10 史习一;在数据清洗过程中基于MMDB的数据匹配技术研究[D];电子科技大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026