隐私保护聚类挖掘方法的研究
【摘要】:
随着数据挖掘技术的发展和数据挖掘工具的大量出现,人们对自己隐私的保密性要求也变得越来越迫切。如何在保证个人隐私的前提下进行数据挖掘,已经成为一个迫切需要解决的问题。目前,人们对隐私保护聚类问题研究较少,使用的方法也较单一。而聚类挖掘是分析管理问题的重要方法之一,常应用于市场细分、客户分类、模式识别、Web文档分类与制造系统单元化设计等重要领域。
通过对目前已有的隐私保护聚类挖掘方法进行深入地研究分析后发现,几何数据转换方法应用最为简单且不影响挖掘结果的准确性,但是隐私保护度较低。为了解决已有的几何数据转换方法隐私保护度低的不足,本文分别提出了基于平面反射的几何数据转换方法和随机响应几何变换算法。
基于平面反射的几何数据转换方法,即任意选择平面上的一条直线,且将所有属性两两配对以构成平面上的点,对每个点作关于直线的对称点,所得数据即转换后的数据。通过实验证明,这种方法简单易行且比平移、缩放、旋转等几何数据转换方法具有更高的隐私保护度。
为了进一步提高隐私保护度,本文又提出了随机响应几何变换算法。该算法将随机响应技术与几何变换方法相结合,根据随机数生成器生成的随机数的不同,选择不同的几何变换方法,起到了双重隐私保护的效果。实验证明这种算法确实具有较高的隐私保护度,并且是高效可行的。