基于实体属性关联及领域感知的真值发现研究与应用
【摘要】:随着移动互联网的兴起,社会已经进入大数据时代。数据通常是描述一个对象的信息,比如珠穆朗玛峰的高度,我们可以从不同的数据源收集这些信息。然而,并非所有的数据源都是一样可信的,它们提供的数据中难免存在噪声,因此,大数据的真实性亟待分析。人工进行标记来解决数据冲突,需要消耗大量的时间和人力,这对于海量大数据显然是不现实的。因此,为了自动地从多源数据中识别正确信息,真值发现作为一个重要的基础研究课题出现了。目前,针对数据集成的真值发现技术有两个研究需要完善:(1)基于实体属性关联的真值发现问题,实体属性之间存在着各种关联,这些关联会影响真值发现结果的准确性。(2)基于领域感知的真值发现问题,数据源在不同的领域可靠性存在差异,通过细粒度划分数据源的可靠性,能进一步提升真值发现结果的准确性。本文利用数据挖掘的相关理论、技术和方法,对以上两个问题进行了系统研究,主要研究内容如下:首先,针对实体属性关联的真值发现问题,本文提出了一种基于图嵌入关联感知的真值发现模型GETD,该模型采用图嵌入的方式在真值发现的同时捕捉了实体属性间的关系。通过构建四种异构网络,包括数据源-数据源、数据源-实体属性值、实体属性-实体属性和实体属性-实体属性值网络,对数据之间的关系建模。接着将这些网络嵌入到低维空间中,使得可靠的数据源和可靠的属性值彼此接近,实体属性之间的关系反映在属性值上,从而进行真值发现推理。在两个真实世界数据集上的实验结果验证了GETD算法优于现有的真值发现算法。其次,针对领域感知的真值发现问题,本文提出了一种基于领域感知的真值发现模型DTD,该模型将数据源的可靠性进行了细粒度的划分。此外,针对现有真值发现算法性能受限于数据源统一权重初始化的问题,本文还提出了一种基于数据源领域信息丰富度的细粒度权重初始化方法。本文将基于领域感知的真值发现视为一个最优化问题,其中数据源的可靠性和声明值的可信度定义为两个未知变量,目标函数定义为声明值和真值之间的距离加权聚合,同时为了求解最优化模型,采用两步迭代更新方法,一步更新数据源权重,一步更新声明值可信度,使用不同的损失函数处理不同的数据类型。在两个真实世界数据集上的实验结果验证了DTD算法优于最新的真值发现方法。最后,设计开发了一个真值发现原型系统。该系统集成了本文提出的两种算法以及其他真值发现算法,主要实现了数据集上传、真值发现算法选择、真值发现结果下载等功能。用户可以通过该系统上传数据集,并且选择不同真值发现算法进行数据集成工作,最后下载完成真值发现步骤的数据集。