隐私保持数据挖掘与知识发现研究
【摘要】:
数据挖掘和知识发现是从大规模数据集中发现潜在的,有价值的知识。随着计算机软硬件以及数据采集技术的发展,数据集的来源趋于更加多元化。数据集形式从数据文件发展到现今的各种数据库,数据流等。在进行数据挖掘的同时,有关保护源数据持有人隐私和数据库中的敏感知识的研究成为当前数据挖掘领域的重要紧迫性研究课题。本文在分析隐私保持数据挖掘方法研究现状的基础上,引入同态加密机制,提出数据干扰后重构技术,理论分析结合试验,针对传统的大规模数据库和新型的数据流应用领域,包括关联规则挖掘、序列模式发现、协同过滤推荐、数据流知识发现,提出相应安全、高效的隐私保持数据挖掘算法。
在大规模数据库中进行关联规则和序列模式发现是传统数据挖掘研究领域重要的两个研究课题。相关的隐私保持技术研究是当前的一个研究热点。现有隐私保持协议存在安全协议不够严谨、协议实现复杂等缺点。本文就此展开了相关研究。在引入同态加密机制后,重新对整个数据发现算法进行了设计,得到隐私保持关联规则发现算法,隐私保持序列模式算法,并且把算法从两方向多方扩展。
隐私保持技术研究是进行安全数据挖掘活动的技术基础。除了将同态加密理论运用于隐私保持数据挖掘,对于源数据进行干扰,以保持数据隐私,也是一个有实际意义的重要方法。数据干扰是对原始数据进行修改,删减,以隐藏真实数据,保护数据安全。本文提出了仅添加干扰,不改变原始数据值的干扰方法,在分析了干扰对支持度的影响概率后,重构干扰前频繁序列模式支持度,有效地保护了原始数据隐私。最后利用试验确定干扰的具体参数,取得了很好的效果。@@@协同过滤技术是近几年数据挖掘研究领域出现的智能数据处理方法,是电子商务等领域的核心技术。协同推荐系统收集具有共同信息需求的人们对给定领域的项目的评价,通过处理这些信息,为不同用户提供对用户未知项目的评价预测。本文提出基于代理的协同推荐技术,充分考虑了最大限度的利用系统收集的知识,利用C-Means聚类得到合成的代理代替传统算法中的邻居,为用户提供推荐,显著地提高了协同推荐的预测精度。在此基础上,利用安全多方计算,提出了隐私保持协同过滤协议,从而使得协同过滤过程保护了用户的隐私。
数据流是一种近年出现的数据应用形式。不同于传统建模中数据持久性的特点,数据流是瞬时的,广泛存在于电信、金融等领域。数据流数据挖掘的相关研究目前主要集中于分类,频繁模式发现。本文首次独立提出了对数据流进行序列模式挖掘算法,提出LSP-tree结构来概要归纳在线数据流,进而采用位图算法,时间倾斜窗口技术挖掘该概要结构的序列模式。在此基础上,结合我们提出的安全多方计算协议,利用同态加密,提出了在数据流上进行隐私保持序列模式发现算法,以保持客户秘密发现知识。
本文的创新之处有如下几点:
(1)引入同态加密技术,结合现有的数据库知识发现技术,提出了基于同态加密性质的隐私保持数据挖掘方法。进而,在两方的基础上提出了进行多方参与的隐私保持数据库挖掘技术,包括关联规则挖掘,序列模式发现。
(2)提出了新的隐私保护机制。在添加干扰之后,重构干扰前的序列模式支持度估计,扰乱原有数据情况,进而保持了序列数据库的元数据隐私。
(3)提出了新的推荐技术用于协同过滤。利用C-Means聚类产生推荐代理,消除了部分传统算法中采用邻居推荐技术的评分不完整带来的不利影响,进而结合隐私保持聚类算法,提出了隐私协同过滤算法,解决了协同推荐中用户隐私保护的问题。
(4)提出了数据流中序列模式挖掘问题。利用快速位图算法,倾斜窗口技术,提出了基于内存的在线概要结构LSP-tree,进行数据流的序列模式挖掘。在此基础上,首次提出在保持客户秘密的前提下,秘密发现数据流中的序列模式信息。
|
|
|
|
1 |
王兴鹏,沙金;利用Apriori算法进行序列模式挖掘[J];现代计算机;2002年10期 |
2 |
邹翔,张巍,蔡庆生,王清毅;大型数据库中的高效序列模式增量式更新算法[J];南京大学学报(自然科学版);2003年02期 |
3 |
吴卫华,袁宁;基于序列模式的关联规则Apriori算法的研究与优化[J];山东机械;2003年05期 |
4 |
宋世杰,胡华平,胡笑蕾;关联规则和序列模式算法在入侵检测系统中的应用[J];成都信息工程学院学报;2004年01期 |
5 |
杨学兵,刘胜军,蔡庆生;一种实时过程控制中的数据挖掘算法研究[J];计算机应用;1999年09期 |
6 |
胡笑蕾,胡华平,宋世杰;数据挖掘算法在入侵检测系统中的应用[J];计算机应用研究;2004年07期 |
7 |
张兵,聂永红,林士敏;NPSP:一种高效的序列模式增量挖掘算法[J];广西师范大学学报(自然科学版);2004年04期 |
8 |
龚惠群,黄超,彭江平;具有双时间维约束的股票序列模式挖掘[J];计算机工程;2003年20期 |
9 |
郭跃斌;翟延富;董祥军;;序列模式的关联规则在彩票分析中的应用研究[J];山东轻工业学院学报(自然科学版);2008年01期 |
10 |
周斌,吴泉源,高洪奎;序列模式挖掘的增量式算法的设计原则[J];计算机研究与发展;2000年10期 |
11 |
陈安,刘鲁,陈宁;多层次序列模式采掘算法及其在供需链管理中的应用[J];信息与控制;2000年06期 |
12 |
韩明涛;时间序列模式挖掘的算法研究[J];山东大学学报(工学版);2004年03期 |
13 |
张琪,黄厚宽;基于铁路客票分析的序列模式挖掘[J];铁路计算机应用;2004年07期 |
14 |
王红侠;胡学钢;;基于可信度约束的序列模式发现研究[J];淮北煤炭师范学院学报(自然科学版);2008年01期 |
15 |
孙贺全;彭勤科;张全伟;;基于序列模式特征和SVM的剪切位点预测[J];计算机工程;2009年05期 |
16 |
周斌,吴泉源;序列模式挖掘的一种渐进算法[J];计算机学报;1999年08期 |
17 |
宋世杰,胡华平,胡笑蕾,金士尧;数据挖掘技术在网络型异常入侵检测系统中的应用[J];计算机应用;2003年12期 |
18 |
孙晓冬;一种基于χ~2测试的序列模式挖掘算法[J];辽宁大学学报(自然科学版);2004年02期 |
19 |
贺桂娇;;一种改进的序列模式挖掘算法[J];电脑知识与技术;2008年S1期 |
20 |
陈金玉,樊兴华,曹长修;序列模式的一种挖掘算法[J];重庆大学学报(自然科学版);2001年01期 |
|