粒计算在私有数据保护中的应用研究
【摘要】:
随着互联网上收集和使用个人信息变得越来越容易,个人信息的公开对未授权的用户来说,即使不是故意地,也可能会导致个人隐私权的问题。当然,如果使用的恰当,这些数据对于科学家们、分析师们以及决策者们来说是非常宝贵的资源。所以,假如没有有效的防御措施的话,隐私信息被侵犯的可能性则很大。因此,寻求对隐私信息的公开发布与关键内容的隐含化之间的平衡,就显得尤其重要。
粒计算(Granular Compuling,GrC)是信息处理的一种新的概念和计算模式,其基本思想是在不同的粒度层次上进行问题求解。本文在深入研究粒计算的基础上,将其应用到隐私保护这一新的领域中,旨在探索出一种基于粒计算的隐私保护方法。
本文针对不完备信息系统采用基于粗糙集粒计算模型来进行隐私保护的研究。首先,在研究粒计算理论及粒计算相关模型的基础上,提出了基于约简属性来构建层次相容粒度空间的方法,并设计了相应算法。该方法根据约简属性的幂集来构建各层次粒度知识,为后续的算法做好准备。其次,提出基于粒计算的信息隐含化方法和相应的算法。所提出的方法以对决策信息的近似分类质量作为一个衡量是否需要进行信息隐含的度量,通过以下几个步骤来实现。第一,对原始信息系统进行约简,并计算约简属性下对决策信息的近似分类质量。第二,对近似分类质量不满足给定的信息隐含要求原始信息系统,则构建它的层次相容粒度空间;第三,在所构建的原始信息系统的层次相容粒度空间基础上进行遍历和对相应属性值进行粒度粗化:从第一层开始对该粒度层次上的在约简属性子集中的所有属性的属性值进行粒度粗化,直到粗化后的信息系统在该层约简属性集合下的近似分类质量小于原始信息系统在约简属性集合下的近似分类质量为止。最后,为了验证基于粒计算的信息隐含化相关算法的有效性,精选3组测试数据集从多个角度进行实验测试,并对实验结果进行分析。测试结果表明本文提出的基于粒计算的信息隐含化方法是有效的。
论文最后部分对所做的工作进行了总结,并分析了多个有待改进的地方,同时展望了粗糙集粒计算模型在保护隐私数据领域的进一步研究方向。