收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

大数据时效性关键技术的研究

高乙童  
【摘要】:随着大数据时代的到来,海量数据在企业以及人们的日常生活中都有广泛的应用。数据质量对数据的应用效果起着至关重要的作用,其中数据时效性问题是数据质量的主要影响因素之一,由于在实际应用中,时间戳往往不完全甚至不存在,当前数据时效性问题的研究主要包括利用时序关系和时效约束及参照数据的方法推导实体时效性最高的属性值;结合时效规则和条件函数依赖协同提高数据时效性和一致性;结合时效规则和统计技术提高数据时效性。本文根据大数据特点:规模性,高速性,多样性,提出了大数据时效性问题的一些关键技术。本文的研究内容主要包括以下几个方面:根据大数据特点规模性,通过分布式处理框架Map Reduce处理海量数据,将海量数据时效性问题归约到k-Partition问题(NP-完全问题)。然后扩展2-Partition问题的近似算法,提出基于MapReduce的并行近似算法,优化了reduce端负载平衡效果,算法近似比接近于1。通过实验验证了负载平衡的MapReduce过程执行效率与准确性。根据大数据特点高速性,提出动态数据时效性模型,首先对原数据集进行预处理,根据时效规则对描述同一实体的记录进行按照时效性排序。然后,动态实时处理更新数据。同时我们从以下几个方面提高算法执行效率:建立实体查询B树,从而提高查找更新数据相应实体的时间;引入实体存储静态链表结构以减少更新数据集的时间;根据时效规则建立属性执行顺序的拓扑图和属性值与元组号之前的倒排索引,优化处理时效规则的过程。根据大数据特点多样性,将数据质量的时效性与一致性、精确性、时效性、完整性及同一性结合起来考虑,利用时效规则和条件函数依赖、匹配规则及主数据结合起来修复多源异构数据集合,提高数据可用性。同时通过时效关系填充与缺省值属性值时效性最接近的属性值提高数据完整性,实验表明该算法完善数据完整性准确率较高。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张爱平;张小红;;属性值为语言区间的多属性决策方法[J];计算机工程与应用;2011年07期
2 崔勇;高岩;王福利;王子敬;;模糊信息系统属性值的重要性度量[J];河南理工大学学报(自然科学版);2007年04期
3 李中华,施丽华,李玉茜;属性的增量赋值[J];计算机工程;1993年01期
4 ;第六章 多属性索引法[J];计算机工程与应用;1981年Z2期
5 关欣;衣晓;何友;周一宇;;一种区间属性值离散化的新方法[J];宇航学报;2009年03期
6 张艳芹;张虹;杨习贝;;区间属性值信息系统的不确定性度量[J];计算机应用与软件;2009年01期
7 程显毅;施佺;沈学华;田宇贺;;属性和属性值组合的概念模板[J];北京大学学报(自然科学版);2013年01期
8 林宏康;范成贤;史开泉;;倒向P-推理与属性剩余发现-应用[J];计算机科学;2011年10期
9 坐看云起;《天使》人物属性攻略[J];网络与信息;2002年11期
10 洪帆,饶双宜,段素娟;基于属性的权限—角色分配模型[J];计算机应用;2004年S2期
11 黄康,柯尊忠,周方泽;AutoCAD的属性块及其应用[J];机械与电子;2001年02期
12 季晓岚;李天瑞;邹维丽;陈红梅;;优势关系下属性值粗化细化时近似集分析[J];计算机工程;2010年12期
13 王福枝;周忠眉;;基于属性值贡献率的朴素贝叶斯改进算法[J];漳州师范学院学报(自然科学版);2010年04期
14 赵连胜;施纪华;;属性值的Rough Logic约简及优化[J];内蒙古大学学报(自然科学版);2014年04期
15 叶春晓;吴中福;符云清;钟将;冯永;;基于属性的扩展委托模型[J];计算机研究与发展;2006年06期
16 叶明全;胡学钢;胡东辉;吴信东;;基于属性值分类的多层次粗糙集模型[J];模式识别与人工智能;2013年05期
17 潘兴昌,上官文斌,富立新,黄敬利;Auto-CAD的属性与细目表生成[J];机械设计与制造;1998年05期
18 杜晓明,于永利,胡晖;一种基于案例的多属性综合评价方法[J];系统工程与电子技术;1999年09期
19 肖辉辉;段艳明;;基于属性值相关距离的KNN算法的改进研究[J];计算机科学;2013年S2期
20 廖俊国;洪帆;李俊;杨木祥;;在信任协商中保密证书的敏感属性[J];通信学报;2008年06期
中国重要会议论文全文数据库 前2条
1 王宇;方滨兴;吴博;宋林海;郭岩;;结合属性分布特征的模式匹配算法[A];第五届全国信息检索学术会议论文集[C];2009年
2 张亮;胡学钢;;多层次属性值下概念格的动态转化[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
中国硕士学位论文全文数据库 前10条
1 张丽芬;一种基于混合QOS的服务选择方法[D];华中师范大学;2015年
2 于芳芳;基于属性的权限访问控制研究与应用[D];河北工业大学;2015年
3 赵爽;基于敏感属性值语义的个性化匿名方法研究[D];天津财经大学;2015年
4 高乙童;大数据时效性关键技术的研究[D];哈尔滨工业大学;2016年
5 徐海堂;属性证书及应用研究[D];中国人民解放军信息工程大学;2005年
6 童先群;基于属性值信息熵的KNN算法改进研究[D];漳州师范学院;2010年
7 张秀丽;符号属性值的相似度学习及属性重要性研究[D];河北大学;2011年
8 张朝胜;领域本体概念实例、属性及属性值提取研究[D];昆明理工大学;2011年
9 雷玉霞;基于本体的军事知识联通[D];中国科学院研究生院(软件研究所);2002年
10 曾宪科;基于博弈论的多属性拍卖模型与机制研究[D];哈尔滨工业大学;2010年
中国重要报纸全文数据库 前4条
1 重庆 韩涛;中望CAD中块属性的制作[N];电脑报;2004年
2 7Star;教你做RM压缩程序[N];电脑报;2003年
3 北京邮电大学 张剑;通过DOM操作数据(下)[N];计算机世界;2001年
4 ;查找替换的技巧[N];中国电脑教育报;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978