收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

不确定数据的重复检测及清洗研究

邓慧挺  
【摘要】:近年来,不确定数据的管理吸引了来自工业界和学术界的极大关注,特别在诸如无线传感器网络、生物技术和生物数据库、基于位置的服务和数据流等新兴的领域中。为了准确获取不确定数据中的信息,本文在前人研究成果的基础上,研究了不确定数据的重复检测和清洗问题。 首先,基于不确定数据的相关理论和现有的研究成果,给出了不确定数据重复检测的改进模型,引入了优先权重和属性阈值的概念,并通过优先计算概率大的候选元组的相似度,提高了重复检测效率。其次,围绕属性不确定数据的清洗问题,为概率范围查询给出了一种基于熵的查询回答质量度量,同时讨论了一种提高有限资源下查询质量的解决方案,并将方案扩展到多查询共享资源预算的情况。接着,针对元组不确定数据的清洗问题,为基于实体的查询给出了一种基于不确定世界语义的查询结果质量度量(PWS-EQ),讨论了高效评估PWS-EQ的方法,给出了在多项式时间内获得最优查询质量的算法,并进一步研究了在清洗后的数据库中再次评估查询的问题。最后,针对所提出的解决方案和算法,分别通过实验对其性能和效率做了详细的分析。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨晨阳,李少洪,毛士艺,张肇武;相控阵雷达数据处理的预处理算法[J];电子学报;1998年03期
2 孙平平;刘方爱;;不确定数据库中减小可能世界的RPW-kBest查询[J];计算机技术与发展;2011年10期
3 张新猛;蒋盛益;;一种基于相似度概率的不确定分类数据聚类算法[J];山东大学学报(工学版);2011年03期
4 洪玫,沈琳;关系数据库中不确定值的处理[J];四川大学学报(工程科学版);1998年01期
5 崔斌;卢阳;;基于不确定数据的查询处理综述[J];计算机应用;2008年11期
6 张徵;杨卫东;朱皓;;不确定数据库上的top-k关键字查询[J];计算机科学与探索;2011年09期
7 赵娟;王明春;李小亮;;基于不确定数据决策树分类算法的软件外包评价模型[J];天津职业技术师范大学学报;2011年03期
8 王爽;王国仁;;基于不确定数据的分布式Top-k查询算法[J];东北大学学报(自然科学版);2010年02期
9 张玥;俞昊旻;张奇;黄萱菁;;面向文本拷贝检测的分布式索引[J];中文信息学报;2011年01期
10 白梅;信俊昌;东韩;王国仁;;不确定数据流上的概率反轮廓查询处理[J];计算机研究与发展;2011年10期
11 高明;金澈清;王晓玲;田秀霞;周傲英;;数据世系管理技术研究综述[J];计算机学报;2010年03期
12 周帆;李树全;肖春静;吴跃;;不确定数据Top-k查询算法[J];电子测量与仪器学报;2010年07期
13 潘世瑞;张阳;李雪;王勇;;针对不确定正例和未标记学习的最近邻算法(英文)[J];计算机科学与探索;2010年09期
14 吕其诚;关系代数运算的算法实现[J];黑龙江大学自然科学学报;1985年04期
15 梁兼栋;关系数据库的更新问题[J];计算机工程;1987年02期
16 王克;嵌入型fd下的恒时维护数据库模式的有效查询处理[J];电子学报;1990年03期
17 鲍有立;;加快关系数据库中投影运算的方法[J];深圳大学学报(理工版);1990年Z1期
18 李成名,陈军;空间关系描述的9-交模型[J];武汉测绘科技大学学报;1997年03期
19 汪金苗;张龙波;邓齐志;王凤英;王勇;;不确定数据频繁项集挖掘方法综述[J];计算机工程与应用;2011年20期
20 杨金伟;王丽珍;陈红梅;赵丽红;;基于距离的不确定数据异常点检测研究[J];山东大学学报(工学版);2011年04期
中国重要会议论文全文数据库 前10条
1 俞昊旻;张玥;张奇;黄萱菁;;基于Low-IDF-SIG的句子重复检测[A];第六届全国信息检索学术会议论文集[C];2010年
2 孙永佼;王国仁;;P2P环境中不确定数据Top-k查询处理算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 陆叶;王丽珍;张晓峰;;从不确定数据集中挖掘频繁Co-location模式[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
4 张潮;李晨;王勇;张阳;;uPOSC4.5:一种针对不确定数据的PU学习决策树算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 周帅印;李晨;王勇;张阳;;FDTU:针对不确定数据的快速决策树生成算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
6 徐蕾;和箭;龚涛;;大脑中动脉病变经颅多普勒超声和脑血管造影的比较[A];第七届全国颅脑及颈动脉超声学术会议论文汇编[C];2007年
7 周逊;李建中;石胜飞;;不确定数据上聚集查询的分布式处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
8 ;汽车发动机检测仪检定规程[A];2006年度中国汽车摩托车配件用品行业年度报告[C];2006年
9 刘龙洲;袁晓君;潘俊松;何欢乐;蔡润;;黄瓜白粉病抗性遗传分析和基因定位研究[A];2008园艺学进展(第八辑)——中国园艺学会第八届青年学术讨论会暨现代园艺论坛论文集[C];2008年
10 戴燕;万海英;;SYSMEX UF1000i全自动尿有形成分定量分析仪的评价[A];中华医学会第八次全国检验医学学术会议暨中华医学会检验分会成立30周年庆典大会资料汇编[C];2009年
中国博士学位论文全文数据库 前10条
1 高明;不确定数据的世系管理和相似性查询[D];复旦大学;2011年
2 张晨;数据流聚类分析与异常检测算法[D];复旦大学;2009年
3 安玉娥;应用于大规模动力系统中的基于SVD-Krylov的模型简化方法[D];上海大学;2010年
4 周红菊;籼粳亚种间染色体片段代换系的构建及其产量性状杂种优势效应研究[D];华中农业大学;2009年
5 杨鹏;居民电子健康档案文档架构与数据元组的研究与实践[D];第四军医大学;2012年
6 邱丹;甘蓝型油菜DH作图群体的构建和重要农艺性状及品质性状的QTL分析[D];华中农业大学;2007年
7 尹惠琼;蓝舌病病毒核酸通用检测试剂盒的研制[D];中国人民解放军军事医学科学院;2008年
8 汤在祥;核质互作QTL分析方法及其在强优势玉米杂交种苏玉16号遗传解析中的应用[D];扬州大学;2009年
9 于海霞;小麦骨干亲本矮孟牛衍生系主要农艺及品质性状的关联分析[D];山东农业大学;2012年
10 吕铁明;肾移植供、受者细胞因子及其受体基因多态性与表达水平研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 邓慧挺;不确定数据的重复检测及清洗研究[D];南京航空航天大学;2012年
2 魏小艳;基于DRA的不确定数据的查询研究[D];哈尔滨工程大学;2012年
3 何丽娟;无线传感器网络中不确定数据处理的研究[D];安徽工程大学;2011年
4 夏菁;基于可信度计算的不确定数据起源研究[D];南京航空航天大学;2012年
5 俞昊旻;文档部分重复检测研究[D];复旦大学;2012年
6 何佳珍;不确定数据的PU学习贝叶斯分类器研究[D];西北农林科技大学;2012年
7 朱倩;属性不确定数据关联分类算法研究[D];大连理工大学;2011年
8 张星;不确定数据的PU学习决策树研究[D];西北农林科技大学;2012年
9 许烨;一种改进的概率数据库模型及其概率最近邻居查询问题研究[D];山东大学;2007年
10 高聪;Deep Web下不确定数据处理的研究[D];东北大学;2008年
中国重要报纸全文数据库 前10条
1 记者 丁莹;实现资源共享 避免重复检测[N];中国质量报;2005年
2 记者 张海燕;分类负责 不搞重复检测[N];中国质量报;2002年
3 杨宏辉;轮胎出口,重复检测为哪般?[N];中国化工报;2004年
4 李晓蕾;RoHS指令不明 中国企业面临检测难题[N];中国经营报;2006年
5 本报记者 吴亚鹏 况顺强 实习生 刘刚;重拳治理公路“三乱”[N];贵阳日报;2006年
6 信息产业部电信研究院 谢毅;终端市场呈现七大特征 监管重拳防范黑市之患[N];通信产业报;2005年
7 李宗长;我省为机动车尾气检测收费定“章法”[N];新华日报;2007年
8 本报记者 沙志鸿 实习生 谭燕;塔吊体检谁该出局[N];宁夏日报;2004年
9 孙燕飚;品牌手机与“黑”手机赛跑泰尔实验室将在深圳设分部[N];第一财经日报;2007年
10 本报见习记者 孟群舒 任罛;“十统一”驱动长三角市场大融合[N];解放日报;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978