收藏本站
收藏 | 论文排版

众包数据的数据库模式映射方案和近似多字符串匹配研究

赵志力  
【摘要】:随着众包模式作为一种新型的经济模式,国内外不同类型的众包平台也如同雨后春笋般的涌现。基于NoSQL数据库的轻量级众包平台是目前使用的最为广泛的众包模式,其高效的读写性能以及支持分布式存储的特点能应对大数据量下的存储问题。但是其弱结构化的存储方式,也带了通用性较差等和对数据本身的事物操作支持较弱等不足。因此,如何高效且能通过事物操作处理大数据量众包数据成为了目前研究的主要热点。基于NoSQL数据库对事物性操作的不敏感性,目前已经有大量的工作旨在通过研究数据结构之间的转换来优化该问题,但是系统的针对由NoSQL数据库向关系型数据库的模式映射方案的研究较少。另外,在某些众包数据的提取中存在着多字符串匹配的问题,目前国内外的主要研究是还未将字符串匹配技术应用到该领域,基于现有的算法无法实现对众包数据中的多个字符串进行匹配提取。本文以Recital众包平台及其数据为研究基础,主要对数据库间的模式映射和多字符串模糊匹配进行研究,具体的研究内容和研究结果如下:(1)首先分析了众包系统的设计原理,着重对轻量级众包平台所使用的MongoDB数据库与关系型数据库进行框架和数据结构上的对比分析,为模式映射方案做理论准备。(2)研究字符串比较的算法,详细介绍编辑距离(Edit Distance)与Needleman-Wunsch算法的基本原理,为多字符串的模糊匹配算法提供理论支持和对比研究。(3)针对MongoDB中数据向MySQL应用迁移需求,本文通过数据迁移与数据映射两模块提出对应的模式映射方案,根据不同环境下的数据类型与数据库结构间的差异比较完成了对MySQL的迁移方案。并使用伪代码的形式对映射过程进行详尽的解析。(4)针对多字符串的提取问题,提出了基于编辑距离的多字符串模糊匹配算法,使用卷积的思想,逐位使用编辑距离计算相似程度,并且根据相应输出准则进行匹配结果筛选。在输出的阈值参数选取中,阈值越高时匹配结果准确度越高,但是匹配耗时也随之增加,统筹考虑到匹配的准确率选取最佳阈值。实验表明,在多字符串的模糊匹配与单字符串的提取过程中,本文提出的基于编辑距离的算法都在准确率上优于Needleman-Wunsch算法并且耗时更短。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨雁莹;;异构数据源集成中的模式映射技术[J];电脑编程技巧与维护;2016年02期
2 李基初;王博;;间接模式映射组合算法研究[J];微计算机应用;2009年08期
3 郭超;;基于模式映射的异构数据源集成查询关键技术研究[J];科技信息;2012年10期
4 李由;刘东波;张维明;;基于模式映射的查询计划生成算法[J];计算机科学;2006年03期
5 孙伟;;基于模式映射的联合检索方案[J];连云港职业技术学院学报;2007年03期
6 赵智超;赵政;;对等数据管理系统中模式映射的备份机制[J];计算机工程;2009年01期
7 杨倩;;模式映射语义更新的探讨[J];山东师范大学学报(自然科学版);2006年04期
8 毛玉洁,顾明;扩展P-Schema及其在XML Schema到关系模式映射中的应用[J];计算机应用研究;2005年11期
9 韩忠明;陈德华;乐嘉锦;;模式映射以及表达[J];东华大学学报(自然科学版);2006年02期
10 殷伟凤;;SaaS多租户数据管理及实现策略[J];软件工程;2016年01期
11 白海燕;梁冰;;利用D2R实现关系数据库与关联数据的语义模式映射[J];现代图书情报技术;2011年Z1期
12 杨海燕;;基于XML异构数据库转换研究[J];电脑知识与技术;2009年14期
13 赵智超;赵政;;基于XSLT模板展开的对等模式映射合成[J];计算机工程;2009年13期
14 王成良,杨祥陵;对象模型向关系数据库模式映射的策略及其应用[J];计算机工程;2004年01期
15 孙宏伟,张树生,周竞涛,王静;模式映射弱依赖的XQuery到SQL转换算法[J];计算机辅助设计与图形学学报;2004年09期
16 杨柳;蔡英蔚;;基于XML格式异构数据同步模型的研究[J];中国电力教育;2008年S1期
17 杨岳;郭绍忠;何晓忠;;基于扩展关系代数的数据集成映射模式的研究[J];计算机应用;2009年12期
18 李由;刘东波;罗睿;;一种半自动化异构数据集成工具[J];计算机工程与应用;2006年13期
19 刘君强;彭智勇;;信息集成系统中的模式融合问题研究[J];计算机工程;2007年16期
20 郝春辉;邹静;;基于XML Schema的XML存储[J];计算机工程与应用;2006年11期
中国重要会议论文全文数据库 前1条
1 贺琪;吴爱华;;一种新的基于模式映射的关系数据集成技术研究[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
中国博士学位论文全文数据库 前2条
1 缪嘉嘉;异构数据映射技术研究[D];国防科学技术大学;2008年
2 赵智超;对等数据共享中的模式映射管理[D];天津大学;2008年
中国硕士学位论文全文数据库 前10条
1 赵志力;众包数据的数据库模式映射方案和近似多字符串匹配研究[D];广东工业大学;2018年
2 任廷艳;基于XML Schema的XML模式到关系模式映射的研究[D];西南大学;2010年
3 吴国荣;从BPEL到Petri网映射的研究[D];江西师范大学;2009年
4 赵艳平;XML数据在关系数据库中存储技术的研究与应用[D];沈阳理工大学;2009年
5 卜立平;异构数据库系统中的查询分解与并发控制方法研究[D];山东科技大学;2008年
6 徐扬;异构数据资源汇聚的模式及优化问题研究[D];山东科技大学;2010年
7 蒋俊;多模式数据融合中数据质量控制方法的研究与实现[D];苏州大学;2015年
8 吴万春;基于分布式数据库的信息集成[D];重庆大学;2006年
9 王忠;基于模式映射的审计疑点数据世系研究及应用[D];哈尔滨工程大学;2013年
10 程林钢;基于内容管理的元数据的存储研究[D];西安电子科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978