不确定数据的重复检测及清洗研究
【摘要】:近年来,不确定数据的管理吸引了来自工业界和学术界的极大关注,特别在诸如无线传感器网络、生物技术和生物数据库、基于位置的服务和数据流等新兴的领域中。为了准确获取不确定数据中的信息,本文在前人研究成果的基础上,研究了不确定数据的重复检测和清洗问题。
首先,基于不确定数据的相关理论和现有的研究成果,给出了不确定数据重复检测的改进模型,引入了优先权重和属性阈值的概念,并通过优先计算概率大的候选元组的相似度,提高了重复检测效率。其次,围绕属性不确定数据的清洗问题,为概率范围查询给出了一种基于熵的查询回答质量度量,同时讨论了一种提高有限资源下查询质量的解决方案,并将方案扩展到多查询共享资源预算的情况。接着,针对元组不确定数据的清洗问题,为基于实体的查询给出了一种基于不确定世界语义的查询结果质量度量(PWS-EQ),讨论了高效评估PWS-EQ的方法,给出了在多项式时间内获得最优查询质量的算法,并进一步研究了在清洗后的数据库中再次评估查询的问题。最后,针对所提出的解决方案和算法,分别通过实验对其性能和效率做了详细的分析。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|